辨认准确率达85%、不到两秒就能译出来 厦大研发云南大学生态学考研

2019-06-12 12:24:22 87

  闽南话辨认系统界面。

  一位女士正对于动手机用闽南话进行语音输入。

  厦门网讯 (文/图厦门日报记者 陆晓凤) 用闽南话对于动手机语音录入“爱拼才会赢”,语音输入后屏幕上当即显示“爱拼才会赢”字样。近期,一款名叫“闽南话辨认”的软件在收集上走红。只如果日常对于话的语句,不管你说的闽南话是厦门口音、泉州口音,或是漳州口音,它根本都能辨认出来并翻译成文字,辨认准确率高达85%。

  这款软件是厦大信息科学与技术学院副教授洪青阳、厦大人文学院中文系助理教授许彬彬率领的科研团队合作研发的。目前,这一软件已经过多阶段的内部测试,并开放供广大市民免费试用。

  记者与几位同砚分辨用厦门口音、泉州口音、漳州口音的闽南话,对于着软件语音输入:“今天天气很好。”不到2秒,系统翻译出了相同的对于应文字。记者又以略微不同的表白办法对于着软件语音输入“今天天气很好”,系统依旧能准确辨认。

  近日,记者采访了软件背地的科研团队,为您揭秘软件开发过程。

  考察

  采集多地语音材料连国外也不放过

  首先,该软件背地的语音材料库就很强大,这是基于许彬彬近10年来的研究结果。许彬彬率领团队借鉴、整理了大量语音材料——席卷福建省内厦、漳、泉多地的闽南方言、文本,甚至网络了国外多处讲闽南话的地点的语音资料。

  除了厦大的语音材料库外,每到寒暑假,许彬彬团队还会去各地进行田野考察。“省内的漳浦、东山等,以及菲律宾北部城市、美国的东部地区,每一个地点至少要停顿5天,尽可能全面地形貌该地区语音面貌。”她说。

  整理

  标注每个音节发音录入不同口音

  有了丰硕的“食材”,烹制好这道“菜肴”还需要“配菜”。为此,许彬彬团队做了大量的整理工作。在许彬彬的电脑里贮存着大量文档。“我现在有5台电脑,10个硬盘,全都装满闽南话文件。”许彬彬说,闽南话的声母有15-18个不等,韵母有73-90个不等,声调有5-8个不等,都要逐一整理,录入系统。

  别以为只是简单的标注,每个音节的发音以及发音时长,都必须详细标注下来。以“他们坐车去台北”为例,许彬彬就标注了16个音素,音素与发音时长还要逐一对于应。而这只是一个句子的其中一种口音。

  许彬彬奉告记者,单单是厦门地区,细微的语音差别就有十几种。“思明区鹭江街道是一种口音,厦港街道又是另外一种口音,海沧东孚街道的口音又接近漳州口音,这些都要逐一标注。”她说,系统录入的不只仅是厦门口音,还有泉州口音、漳州口音、潮汕口音等。

  建模

  网络十万句日常对于话邀志愿者测试

  为了让这一系统的闽南方言数据尽可能全面,洪青阳团队又历时一年,先后网络近十万句闽南话日常对于话。

  除了许彬彬所提供的语音材料外,测试阶段,他们还邀请了几百名志愿者参加测试,让系统“进修”不同口音的闽南话。待系统根本“学会”不同口音的闽南话后,洪青阳又给系统加大了难度——文读和白读都要会。

  闽南话中存在大量多音字,有着繁杂的文读白读征象,以“大学”这一词为例,就有文读和白读两种读法。该团队对于闽南话语音辨认采取了特定规则的发音词典标注,并用改革后的算法建立了闽南话语音辨认模型。

  链接

  将实现闽南话与普通话无障碍沟通

  当发音速率不一、吞音等情况涌现时,软件如何准确辨认?系统的背地还有一位“把关人”。当赶上系统无法辨认的语音时,许彬彬团队就会进行剖析,把新的表白整理成文档,扩充词典和句子语料。与此同时,洪青阳团队在系统后台一直完善算法,以进修到更多口音和生僻词汇。现在,系统依旧在一直完善升级。

  据相识,基于深度进修措施,他们目前正在研发闽南话合成系统,最终可以实现闽南话与普通话之间的无障碍沟通。洪青阳说,该系统预计在今年上半年上线。