语音识别听不懂方言别尴尬,Cisco开发AI解决方案

青亭网( ID:qingtinwang )--链接科技前沿,服务商业创新

说到语音识别,没什么比听不懂说话人口音的语音识别系统更讨厌了,诸如此类的发音差异已经困扰数据科学家多年(近日一项研究发现Youtube自动生成的机器字幕相较于美国南方口音更难识别苏格兰口音),虽然他们已经尽力了。训练成功的模型需要大量的数据,可有些方言不常见提供不了那么多数据。

AI

为此,一个由Cisco(思科)系统公司、俄罗斯莫斯科物理技术学院和国立高等经济大学组成的科研团队在一篇新发表的论文中提供了一个可能的解决方案。他们方言的措辞和声调差异来为词语创建方言版的念法,并以此来训练自己的AI系统,得到的准确性与其他AI系统比较要准确一些。

论文中写到:“越多的方言语音数据越能提高语音识别模型的性能,不过目前合成方言词语还是个问题。”

据青亭网了解,科研团队使用的数据来自于美国卡内基梅隆大学的正音词典,其中包含了数千段英语母语人士阅读常用词汇的音频。通常,音韵学者训练AI系统学习新口音时,不得不人工提取所谓的音韵泛化特征来代表一般美式英语(正宗美国普通话)与一段明显的方言音频样本之间的区别(不过这种硬来的方式不太能全部适用)。

据悉,这些科研人员开发的模型能够自动归纳方言的规则。他们使用了从美国梅森大学的语言口音档案(集合了各种语言背景的一系列语音样本)和卡内基梅隆大学的正音词典中提取字符的字典,通过替换、删除和插入的输入方式来模拟发音。

科研团队使用这款AI模型创造了一个语音数据集并输入周期性的神经网络(常用来帮助语音识别的神经网络)中,试图以此来去除多余的声音并将方言改成与一般美语差不多的口音。据了解,在使用了80万样本训练后,语音识别系统识别方言的准确率达到了59%。

当然,这还只能算是初步研究,因为卡内基梅隆字典比乔治梅森大学的字典音频少一些,科研团队开发出的模型只能学习20种卡内基梅隆大学的音韵泛化中的13种。不过,他们成功利只通过一种方言就将卡内基梅隆大学的口音数据集从10.3万种注音扩大到了一百万种不同方言的样本。

科研人员在文中写道:“我们提议的模型最后能够学习到所有音韵学者手动采集的音韵泛化。”

参考:Venture Beat

更多精彩内容,关注青亭网微信号(ID:qingtinwang),或者来微博@青亭网与我们互动!转载请注明版权和原文链接!
青亭网

微信扫码关注青亭网

青亭网

青亭 | 前沿科技交流群01

责任编辑:小新
分享到QQ 分享到微信
切换注册

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录
切换登录

注册