支持搜索引擎的信息检索模型如果使用机器学习进行培训,则需要大量手动注释数据。这是因为他们不仅要处理一系列查询,还要处理与这些查询相关的任何和所有数据。幸运的是,亚马逊Alexa部门的科学家详细介绍了一种方法(“基于内容的对特殊重新排序的弱监督”),可以为需要较少人工监督的模型铺平道路。反过来,这些可能会将训练数据集的大小从数万个条目增加到数百个,从而导致未来系统性能更好。
正如团队解释的那样,基于AI的检索算法通常在查询和两个文档上进行训练:满足用户搜索信息的“相关”文档,以及不相关但不相关的文档。所讨论的文档由人类手动标记为相关或不相关,并且在训练期间,AI系统学习最大化它们分配给处理样本的相关性分数之间的差异。
相比之下,研究人员的方法利用了这样一个事实,即大量的信息检索培训数据 - 新闻文章和维基百科条目 - 已经与他们介绍的文章和章节中的相关文本相关联。换句话说,他们假设可以使用标题和标题代替搜索字符串用于培训目的。
该团队首先从纽约时报的在线存储库和维基百科中收集了数百万个文档 - 标题对。从每对中,他们使用查询和相关文本(以及与查询相关但与相关文本相关性较低的文本)来训练机器学习模型。然后,他们从AOL挖掘了一个由客户查询和搜索结果组成的语料库,以建立基线,他们应用了一种算法,为每个查询确定了相关和不相关的文本。最后,他们使用一组约25,000个手工注释样本和来自测试数据的算法选择样本来补充AOL数据集。
为了证明他们的方法的有效性,该团队分别在四个测试集 -纽约时报,维基百科,AOL和手工注释集 - 中分别训练AI系统,并对前20个结果的累积相关性进行评分每个使用称为“标准化折扣累积增益”(nDCG)的度量。他们报告说,在基线中,AOL数据集和称为位置感知卷积循环相关网络(PACRR)的AI架构的组合产生了最好的结果。在同一系统上,纽约时报的数据集使nDCG增加了12%。当系统接受了难以与给定新目标域中的数据区分的示例的训练时,得分提高了35%。
“通过使用我们的方法,可以有效地训练新域上的神经排序模型,而无需行为数据,只有有限的域内数据,”共同作者写道。
版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“科技金融网”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场,如有侵权,请联系我们删除。