CIO采访:Giles Pavey,首席数据科学家邓恩赫比

2021-08-03 13:46:10来源:

Tesco所有的分析公司Dunnhumby拥有一系列基于领先技术的产品和服务,以帮助其客户 - 主要是零售商 - 了解他们的客户更好,提升他们的产品,因此销售更多。

该公司的数据科学集团现在正在寻求现有的建设和培训人们在邓恩望州的首席数据科学家吉尔斯(Dunnhumby)吉尔斯队的中期和未来在目前的情况下考虑到客户需求和技术进步。披风。

“例如,当我们投入价格优化软件时,我们必须为它做特别的定制 - 这是我们为”现在“为”现在“的工作,”Pavey说。“我们为'接下来'做的工作真的在考虑我们每个产品和科学的产品生命周期。

“我们正在考虑如何改进科学,如何投入新功能或改进算法。然后,最后一块拼图是我们做“未来”的工作 - 这是团队正在调查新兴技术领域或算法的工作。“

Pavey说,数据公司已经使用了许多产品中的机器学习等技术,但它需要跟上与其数据分析活动相关的新技术,包括深入学习。

该公司正在使用机器学习在人类文本的工作中,利用自然语言处理来了解人们正在评论的内容,看看它是如何洞察力的。

“我认为我们首先在20世纪90年代后期遇到了多层神经网络,但在那些日子里,真的没有足够的数据,并且肯定没有足够的计算能力能够做到除了非常玩具之外的任何东西,“毛皮说。

“但它真的只在过去的18个月中左右,数据和计算能力都可以为能够真正使用深度学习。”

Dunnhumby在研究和建立未来进行新产品的一个领域是Pavey称之为“基于代理的模型”。在这里,而不是机器学习,目标是使用诸如英国杂货市场等段的仿真技术。

在这种情况下,“代理商”是客户在大量计算机模型中的模拟,客户是给予的特征,因此它们以概率的方式行事。例如,如果有代理代理商代表高端市场客户,则它们将与徽标商店的高概率相比,与更高度的价格敏感的客户相比,谁将具有更高的ASDA或LIDL的可能性店铺。

“如果你想象一个像偶然的电脑游戏的召唤,那就有点像,”Pavey说。“计算机必须控制所有字符,并且它们必须对环境做出反应,然后还可以互相反应和播放器。

“所以我们建立了英国杂货市场的型号,它可以在其中拥有高达一百万个代理商。这些代理人的特征是特征,他们住在该国的某个部分,我们知道该国部分的特征。

“然后它是一种模拟,用于模拟在任何一天,他们从门口左转并转到一个tesco,或者对ASDA的权利,或者转到左转并转到一个aldi并转到aldi? “

如果代理模型是未来的东西,那么与Dunnhumby的现有设置如何进行比较以提供类似的结果?根据Pavey,所有现有的预测技术 - 甚至在某种程度上,机器学习 - 依赖于他们的预测永远无法真正预测非线性事件。

“你永远不会看到[现有技术]预测突然增加或突然减少的东西,”他说。“基于代理的模型确实是什么允许您调查以前从未发生过的情况。”

“基于代理的模型确实是什么允许您调查从未发生过的情况”

Giles Pavey,Dunnhumby

为了说明如何将其带到生活中,Pavey给出了一个可以建立在人们购买饮料的模型的示例,这可以用于调查糖税如何影响市场。

如果对糖有大量税,那将改变价格和需求的变化,但也可能是一些非线性效应。例如,饮用含糖饮料可能会变得非常不合时宜,学校可能会禁止他们,或者一些超市可以大大减少饮料的分销甚至停止销售它们。

“你无法调查一种从一个经典模型中调查那种结果,这是一个假设未来必须是过去的结合,”毛皮说。

“从基于代理的模型的模拟可以改变环境,然后您只能观看事物的开发方式。在调查非线性或未观察到的行为方面也非常擅长。“

除了分析数据的新方法以及邓恩比比还研究了处理数据所需的技术的未来。Pavey说,它还研究了新的计算技术,例如非CPU,或现场门可编程数组。

“我们不仅对技术的力量非常感兴趣,而且还有多快,”他说。“显然我们希望能够经常在实时运行的事情。”

他说,有一些技术是非常密集的,以便奔跑得非常迅速。例如,神经网络可能需要很长时间才能构建,但是一旦它建造,它就会增加“令人难以置信的快”,他补充道。

“这种整体平衡在模型的有效性之间,建立时间和运行时,这对于我们总是试图推动该边界,这是我们发现的真正优势。”

Pavey说Dunnhumby是在提高数据处理速度的那个特定工作机构的最后阶段。该公司还参与了牛津大学,大学学院伦敦大学和英国帝国学院的联合开发项目,以及美国芝加哥大学和UCLA。

“大学是我们的门户,以确保我们正在与世界专家合作,以保持最新技术,”他说。

Dunnhumby是开源软件的一个大用户,其中大部分的研究工作都与R软件或Python一起完成。它还使用C,Spark和Hadoop进行许多产品。

由于它适用于其他公司的数据以及Tesco,因此该公司正在从其自己的服务器中迁移到云计算的托管数据,这对于可扩展性至关重要。

这种模型的有效性之间的整体平衡,建造时间和运行时,这是我们一直试图推动那个边界吉尔斯,邓恩赫比的发现是一个真正的发现

“可扩展性显然对拥有更多存储,但我们的许多技术也非常重要,因此我们还将使用云计算到爆发CPU,”Pavey说。

“在短时间内,您只需使用大量CPU来构建一旦我们开发的一旦开发出来就可以实现困难的模型。”

Dunnhumby使用不同的模型与客户联系。它销售软件在软件 - AS-Service(SaaS)模型下提供传统方式,以及产品。该公司拥有许多应用程序编程接口(API),可连接到客户的数字服务平台。

该公司还提供自动报告和仪表板,并作为咨询公司。

“有时人们使用分析软件,然后对客户端的输出是演示牌中的一组建议,”Pavey说。“所以我们实时做事,并以更频繁的方式做事。”

分析公司目前有30人在中央数据科学团队工作,但在培训300名员工加入该单位的过程中。这个想法是提供数据分析师,他们需要成为数据科学家的工具和技能。

“这是一个大型的事业,”皮耶斯说。“这不仅仅是一个训练 - 它非常允许人们过渡。”

该过程将在未来18个月内举行,并根据CDO,工作人员对变化非常兴奋。

“可能是我们雇用的人在过去五年中雇用的人在过去五年中更熟悉开源的使用,所以他们对此感到非常兴奋,”他说。

根据Pavey,转变也很重要,因为数据科学集团正在迁移到更现代的方法,这适用于更令人兴奋的工作。行政主管认为,总会有一个报告的地方,但会有更多的重点关注预测工作。

“从历史上看,我们一直专注于报告,现在我们真的领导着预测的方式,”他说。“同样,业务通过分析结构化数据做得很好,但我们现在正在添加来自非结构化数据的见解。”

您可能会想象推进面包和黄油是数据分析的公司的能力没有挑战,但Pavey表示涉及遗产模型和引入变革的问题也是如此。

“对于所有这些新事物的所有优点,也有一些否定的一些变化,例如开源。你依靠社区和你自己解决问题 - 没有供应商帮助台,“毛皮说。

“我们希望不仅带来新的技能和新工具,而且还恰好的这种新的思想更加敏捷,无论是在敏捷发展的意义上还有更多的响应性和枢转项目,需要进步更快,不要害怕杀死不起作用的项目,“他补充道。

Pavey说,未来的进步将来自转移技术。“转移技术是很多关于使它们在许多不同场景中提供的技术,并给予人们的技能,”他说。“我们很多客户都不知道可能是可能的,他们不知道他们不知道机器学习可能有可能。

“因此,我们向他们展示可能的令人兴奋的挑战,向他们展示我们现在如何探索不确定的未来。我们可以预测机器学习允许您实时做事,而在您不得不等待周末运行之前,我们将会发生什么。“

阅读更多CIO访谈

新闻公司的全球CIO,Dominic Shine,讨论了媒体巨头的五年云战略如何推动业务。欧洲之塔的数字谈判负责人谈论内部,Wi-Fi头痛和橱柜娱乐的好处。汉普郡火灾和救援的CIO谈论合作,搬到云层,并在船上获得数字化转换。

Pavey使用了必须“在飞机上飞行时更换发动机”的类比来描述Dunnhumby将在未来18个月内面对的最真实的挑战,因为它夺回其劳动力并增强其工具包,为客户提供更好的产品。

“我们需要更新所有这些东西,同时保持对客户的优质服务,”他说。“然后教育我们自己的更广泛的员工,然后我们的客户对数据科学带来的好处。”

Pavey表示,新的分析技术证明了比预期的更强大,并且往往从用户那里需求更多。这也意味着组织在拥有熟练的员工方面都会看到更大的upsides。

“但是,这方面的缺点是,这款工具可能非常难以用于那些不是最高传单的人,所以吸引和保留顶级人才绝对是一个挑战,”他说。

邓尼比说,邓恩赫比对员工保留了很多努力,不仅关注工作环境等实际方面,还关注提供刺激的持续发展。

“我们试图建立和维护一个非常活跃的学习界,所以人们觉得他们自己正在进步,”他说。“我们真的强烈推动了社区的事情,所以人们可以相互支持,这极其重要。”


返回科技金融网首页 >>

版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“科技金融网”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场,如有侵权,请联系我们删除。


相关文章