Google靠128维深度学习网络打造新版音乐搜寻辨识超大量音乐也不会变慢

互联网2021-02-27 12:04:29
最佳答案

现在Android手机上的Google搜寻或是Google助理,内建了最新一代的音乐辨识功能,这源自2017年上线的Now Playing功能,但採了4倍大的深度学习神经网络来训练,嵌入(Embedding )的维度从96维成长到了128维,Google宣称,不影响辨识速度下,几乎无限制增加可辨识的音乐资料库数量。

2017年Google在其Pixel 2上推出Now Playing功能,这是基于深度学习神经网路的低功耗音乐辨识服务。Google在打造Now Playing时,目标朝向满足小型且高效的诉求,资料库只需要存放非常小的音乐特徵,可以让装置在没有网际网路连线的状态下,提供音乐辨识服务,而手机端Now Playing应用的準确度和速度,超越了当时以伺服器端系统提供的声音搜寻(Sound Search)服务。

也因此,Google採用Now Playing相同的技术,来打造新版声音搜寻功能,并内建到Android手机上,成为Google搜寻或是Google智慧助理的基本功能,只要使用者启用语音查询,声音搜寻服务会自动侦测背景的声音,当发现装置附近有音乐拨放,介面便会出现相关提问,引导使用者查询歌曲名称,使用者也可以直接使用Hey,Google指令查询。

原本的Now Playing功能系统非常小巧,用于手机上的搜寻,持续执行也不会明显影响电力。因为Now Playing会将侦测到的音讯撷取8秒,使用卷积神经网路将数秒钟的音讯档案转成独特的指纹特徵,投影到一个由7段2秒片段组成的低维度嵌入空间,再以此特徵与手机上的定期更新的离线歌曲资料库进行比对。搜寻装置上的歌曲资料库,来辨识该资料库内的特徵资料。系统会使用两阶段来搜寻歌曲,第一阶段使用快速但不精确的演算法,搜寻整个资料库以找出可能的候选歌曲,第二阶段再对候选者进行详细分析,进一步找出正确的歌曲。

伺服器端的声音搜寻系统运作方式和Now Playing大不相同,必须比对的资料库是Now Playing规模的1千倍,这对搜寻的準确度和速度都是很大的挑战。虽然Google使用Now Playing技术来改进伺服器端的声音搜寻,但是极大的歌曲资料库,让错误预测产生的机率上升。为了降低这些错误,Google必须要增加辨识阈值,而这代表着必须要增加比对音讯的长度。Google认为,新的服务应该要比旧的更快,使用超过10秒的音讯不符合期待。

不过,由于声音搜寻服务建立在伺服器端,因此可以用不受限制的运算以及储存资源来弥补这些缺点。Google打造比原本还要大4倍的卷积神经网路,并且增加每一嵌入维度,从96维提高到了128维,减少了卷积神经网路将高维度音讯打包成低维嵌入所需要的工作量,这对于进行详细分析的第二阶段搜寻的品质至关重要。另外,Google还根据歌曲流行的程度,对索引进行加权,越流行的音乐设定越低的权重,并增加模糊朦胧的音乐权重,整体来说,比对资料库可以几乎没有限制的增加歌曲,且不会过度影响资料辨识的速度。

Google仍继续提升辨识音乐的準度和速度,特别是在背景音的处理,因为使用者辨识音乐的环境可能很安静也可能很吵杂,这也都会直接影响辨识品质。

免责声明:本文由用户上传,如有侵权请联系删除!