首页>动态 >内容

Google为减少语音转字幕App的行动网路流量在装置上部署语音侦测模型

动态2021-02-24 20:06:58
最佳答案

Google推出Android语音转字幕应用程式Live Transcribe,以帮助听障人士与外界沟通,并进一步公开其设计细节。这个应用程式使用了当前Google云端自动语音辨识(Automatic Speech Recognition ,ASR)技术,以及装置上机器学习,并且与专为聋人和弱听人士而设的高立德大学合作,进行使用者体验研究。

藉由自动语音辨识技术,耳聋和听力障碍人士可以更方便的接受外界的语音讯息,Google在YouTube中应用自动语音辨识提供字幕,也用于简报展示以及电话拨打中。虽然这项技术在这几年已经有长足的进步,但是听障人士仍主要依赖人工手动转录服务,而这些服务价格昂贵,还需要事先安排,间接影响听障人士参与社交的机会。

Google解释过去之所以自动转录服务还无法普及的原因,除了因为应用自动语音辨识进行转录,需要计算密集的模型之外,还需要进行详尽的使用者研究以及付出高昂的存取成本,Google结合广泛的用户体体验,以及无缝且可持续连接提供服务的伺服器,打造出Live Transcribe服务。

 

 

Google设计Live Transcribe其中一个重要的考量,是避免使用者消耗过多资料流量,为此,Google在行动装置上实作了类神经网路语音侦测器,并使用了大规模声音资料集AudioSet,Google提到,该网路是一个类似VGGish的图像模型,能够侦测语音,并且自动管理到云端自动语音辨识引擎的网路连结,在长时间使用的状况下,能最大程度减少资料用量。

另外,为了让Live Transcribe更符合听障人士使用习惯,Google与高立德大学合作,进行用户体验合作,以确保应用程式可以满足核心用户的需要,Google一开始对电脑、平板电脑、智慧型手机甚至是微型投影机都做了使用研究,设计显示听觉讯息和字幕的方法,最后Google决定专注发展在智慧型手机上的应用,因为手机无所不在。

Google选择不在Live Transcribe上显示转录信心程度,过去研究认为,在字幕上显示单词或是短语的信心程度,将有助于用户理解转录字幕,但Google的最新研究显示,在字幕上不显示这些讯息,将有助于用户阅读字幕,Google选择专注呈现文字,并以其他方式补充其他语音讯号。

在应用程式使用现场,常会发生鸡尾酒派对问题,也就是现场声音太过吵杂,影响语音转录的结果,因此Google在使用者体验讯号,加入了当前噪音程度的图形指示,可以显示当前用户语音相对背景声音的音量,为用户提供了语音品质的即时回馈,以进一步调整手机摆放的位置。

Google提到,完全仰赖语音转录技术,可能发生错误传达,因此Google会与高立德大学继续合作,结合语音侦测和响度指示器等其他听觉讯号,为用户提供更完整、切实的有意义的通讯。

免责声明:本文由用户上传,如有侵权请联系删除!