Google更新云端语音转文字服务听写电话的错误率减少54%

科技2021-03-01 16:05:03

最佳答案

图片来源:

Google

继上个月发表云端文字转语音（Cloud Text-to-Speech）服务之后，Google在周一（4/9）更新了云端语音转文字（Cloud Speech-to-Text）服务，提供全新的影片及电话转录模型，也新增了自动化标点符号功能。相较于原本的电话模型，新的强化版电话转录模型（enhanced phone_call model）让语音辨识的错误率减少了54%。

Google于2016年发表的Cloud Speech-to-Text原名为Cloud Speech API，可辨识包括中文在内的逾120种语言，本周则是该服务建立以来最大规模的改版，它提供了4种客製化模式，包括命令与搜寻（command_and_search）、电话（phone_call）、影片（video）与预设（default），其中，电话模型适用于基于8khz取样率记录的电话内容，而预设模型则多用在音质较好、时间较长、取样率高于16khz以上的音频，使用者可依照不同的使用情境选择适用的模型，以顺利将语音转换成文字。(来源：Google)

Google Cloud AI产品经理Dan Aharon表示，有许多云端供应商利用客户的请求来改善相关服务，但基于资料及隐私保护的立场，Google并不打算採用这样的作法，取而代之的是推出业界首创的「选择加入计画」（ opt-in program），让客户主动提供资料供Google纪录与分析，而首个成品就是强化版电话转录模式，该计画成功地让Cloud Speech-to-Text的电话转录服务减少了54%的错误。

至于新的影片模式则可用来将影片中的语音转换成文字，或是转录同时有多人开讲的语音，该模式所使用的机器学习技术与YouTube自动化字幕背后的技术雷同，相较于原本的预设模式，影片模式的转录错误率也降低了64%。

不管是强化版的语音模式或影片模式现在都只支援英文，预计很快就会扩张至其它语言。

除了全新的语音及影片模式之外，新版的Cloud Speech-to-Text还準备在将语音转成文字之后，自动加入标点符号，以让文字更容易阅读，目前该模式仍属于测试阶段，可提供逗点、句号或问号等标点符号的建议。

除了影片模式每15秒的收费为0.012美元之外，其它模式的费用皆为每15秒0.006美元，为了推广全新的影片模式，截至今年5月31日可享用每15秒0.006美元的优惠价。

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

标签：

上一篇：Netflix开源内部金丝雀自动化测试工具Google把它变成跨云持续派送的利器

下一篇：Excel表格中数值显示不出来怎么设置

Google更新云端语音转文字服务听写电话的错误率减少54%

热门文章

栏目推荐

Google更新云端语音转文字服务听写电话的错误率减少54%

猜你喜欢

最新文章

热门文章

栏目推荐