Google如何构建其AI驱动的搜索功能

2021-03-10 11:56:19来源：

谷歌宣布将允许用户通过简单地哼唱或吹奏旋律来搜索歌曲，最初在iOS上使用英语，在Android上使用20多种语言。当时，这家搜索巨头仅暗示了新的“要搜索的嗡嗡声”功能是如何工作的。但是，在今天的博客文章中，Google详细介绍了底层系统，这些系统使Google搜索可以仅使用嗡嗡作响的演绎来查找歌曲。

从嗡嗡声中识别歌曲是AI的长期挑战。借助歌词，背景人声和各种乐器，音乐或录音室录音的音频可能与哼唱版本完全不同。当有人哼着对一首歌的诠释时，其音调，音调，节奏和节奏通常会与原始歌曲略有不同或相差很大。这就是为什么这么多现有的通过哼唱进行查询的方法会将哼唱的曲调与歌曲的以前哼唱或仅旋律版本的数据库进行匹配，而不是直接识别歌曲。

相比之下，Google的Hum by Search将嗡嗡作响的旋律直接匹配到原始录音，而无需依赖于录音的数据库和每个嗡嗡作响的版本。Google指出，这种方法使Hum to Search可以刷新来自世界各地的数百万首原始录音，包括最新版本。

这只是Google如何运用AI改善搜索体验的一个例子。Google对拼写检查器功能的最新算法增强功能使拼写建议更加准确。搜索现在利用AI来捕获它索引的网页内容的细微差别。谷歌表示，它正在使用计算机视觉来突出显示搜索中视频中的显着点，例如比较不同产品的屏幕截图或配方中的关键步骤。

配对旋律

Hum to Search建立在Google广泛的音乐识别工作之上。2017年，该公司以其Pixel智能手机阵容推出了NowPlay，它使用设备上的离线机器学习算法和歌曲指纹数据库来识别附近播放的音乐。在识别歌曲时，“正在播放”会在设备历史记录中记录曲目名称。而且，如果Pixel连接到Wi-Fi时处于闲置状态且正在充电，则Google服务器有时会邀请其与数百台其他Pixel手机进行“一轮”计算。这样一来，Google工程师就可以改善“正在播放”歌曲数据库，而无需任何电话即可显示听到了哪些歌曲。

Google在Sound Search中完善了这项技术，该技术提供了基于服务器的识别服务，使用户可以更快，更准确地找到1亿首歌曲。Sound Search是在广泛使用机器学习算法之前构建的，但是Google在2018年使用了增强版本的AI模型(现在播放)为它进行了改进。谷歌还开始根据流行度权衡Sound Search的索引，降低流行歌曲的门槛并提高模糊歌曲的门槛。

但是将嗡嗡作响的歌曲与歌曲相匹配需要一种新颖的方法。正如Google所解释的，它必须开发一种模型，该模型可以学会专注于歌曲的主要旋律，而忽略人声，乐器和声音音色。背景噪声引起的差异;和房间混响。

哼唱模型

对于Hum to Search，Google修改了Now Now和Sound Search中使用的音乐识别模型，以处理嗡嗡声的录音。Google使用成对的嗡嗡声或唱歌声与录制的音频对这些检索模型进行了训练，以便为每个输入生成嵌入(即数字表示)。实际上，修改后的模型会产生嵌入，其中包含彼此接近的相同旋律的音频对(即使它们具有不同的乐器伴奏和歌声)，以及包含彼此不同的旋律的音频对。查找匹配的歌曲只是从Google的录音数据库中搜索类似的嵌入内容。

因为训练模型需要歌曲对(已录制的歌曲和演唱的歌曲)，所以第一个障碍是获得足够的训练数据。谷歌表示，其初始数据集主要由演唱的音乐片段组成(很少包含嗡嗡声)，并通过在训练过程中增加音频来使模型更加健壮。例如，它是通过随机改变演唱输入的音高或速度来实现的。

产生的模型足以让人唱歌，但不适用于那些哼哼或吹哨的人。为了解决这个问题，Google使用SPICE模拟了现有音频数据集中的“嗡嗡”旋律，从而产生了更多的训练数据，SPICE是该公司更广泛的团队开发的音调提取模型，是FreddieMeter项目的一部分。弗雷迪·米特(FreddieMeter)使用Google开发的设备上机器学习模型来查看人的声音音色，音调和旋律与艺术家弗雷迪·水星(Freddie Mercury)的距离。

SPICE从给定的音频中提取音调值，Google的研究人员用来生成由离散音调组成的旋律。后来，该公司通过将模型替换为简单的音频合成器，从而改进了这种方法，该模型会生成类似于实际嗡嗡声或啸叫声的音频。

最后，Google研究人员通过混合和匹配音频来比较训练数据。例如，如果有来自两个不同歌手的相似剪辑，则他们会将这两个剪辑与其原始模型对齐。这使研究人员能够向模型显示另一对代表相同旋律的音频片段。

Google解释说：“我们发现可以通过考虑[此]额外训练数据来提高模型的准确性，即通过在一系列示例中制定模型可信度的一般概念。”“这可以帮助机器改善学习行为，要么是因为它发现太容易的另一种旋律……要么是鉴于目前的学习状态，它太难了。”

“嗡嗡搜索”将使用所有这些技术，以根据给定的音调显示最可能的匹配项。用户可以选择最匹配的歌曲并浏览有关歌曲和歌手的信息，查看任何伴随的音乐视频，或在他们喜欢的音乐应用程序上收听歌曲。他们还可以查找歌词，阅读分析并查看歌曲的其他录音(如果有)。

返回科技金融网首页 >>

版权及免责声明：凡本网所属版权作品，转载时须获得授权并注明来源“科技金融网”，违者本网将保留追究其相关法律责任的权力。凡转载文章，不代表本网观点和立场，如有侵权，请联系我们删除。