黑科技超级辅助_第四十三章：语音通话模型的制作（二更）_雪天蛤蟆跳跳

　　第四十三章：语音通话模型的制作（二更） (第2/2页)

好了，但是没有语音数据是硬伤。

    最后林奇收集了很多的网络上公开的音频资料，来输入到模型中进行训练，刚开始的时候找来了很多的汉语的音频。包括从电视剧，电影还有广播，新闻等里面抽取的音频。

    等训练好之后林奇测试之后发现针对标准的普通话，这个表现很好，但是如果是方言甚至是另一种少数民族，比如蒙古语，这个软件表现的就非常的不尽人意。

    后来林奇换了一个思路，不把每个人的语音转换为文字。而是让机器自己发明一种能发音的文字，不需要人类能看懂，只需要这个软件自己能看懂就好，可以把听到的任何声音都转换为这种机器自己能识别的文字。

    修改了核心的算法之后，林奇再次把数据输入进去，同时这次增加了很多的其他的数据，包括英语，德语，日语……几十种语言的数据。还有很多的大自然的声音，乐器的声音，等等。

    电脑分析这些数据建立一个模型过程是很慢的，经过漫长的等待之后，终于重新生成了一个模型。

    经过测试之后，效果出奇的好，林奇发现尤其是针对有规律的东西，包括语言，乐器这些东西，都能有很好的效果。

    然后这些数据经过压缩之后，体积比文字的还小了很多，即使网络环境再不好，只要不是完全没有，通话的质量都是很完美的。

    但是美中不足的是，针对不太规律的东西，这个模型处理的效果就不是很好，比如一些环境噪音或者大自然的风声雨声鸟叫等。

    林奇接着又去修改了模型，但是训练后的结果都不是很好。

    后来林奇想了想“环境噪音，在语音通话过程中，人们应该是不想要的，我干嘛还要费那么大的力气给加上。这不正是几千块钱的所谓的主动降噪耳机，或者是骨传导耳机追求的降噪的功能吗？”

    想至此，林奇想抽自己两巴掌，白白浪费了那么多时间。

    至于一些风声什么的，林奇也有了一个很好的解决方法，就是在算法里面判断这个声音，如果是没有规律的，但是和环境噪音又有些区别的，那么就保留原有的语音通话，只有这种有语言的才智能的运用自己这套系统。

    这个系统的价值在于能让语言的传输大大减小体积，同时还能高度还原原声，甚至带有主动降噪功能。

    而这个系统的难点在于模型的训练。

    训练的时候刚开始针对的是普通话，到了后来，林奇彻底的放开了自己的思维，让机器自己去生成一种能传输的自己认识的语言，这样效果大大的提升了，不用针对每一种语言来训练好一个模型，而是针对所有的声音，训练出了一套通用的模型。

    在使用的时候，只需要把这个模型加载到用户的手机，用户只需要说几句话，模型就会自动生成对应的音色，还有对应的语言的机器翻译。

    通过实际的使用，林奇测试发现，这完全秒杀了世面上所有的语音通话软件。