四年前,谷歌面临着难题:如果所有用户每天都有三分钟的语音识别服务,该公司需要加倍数据中心的数量只是为了处理机器学习系统供电的所有请求这些服务。
该公司而不是购买一堆新的房地产和服务器,而不是为此目的而开始创建专用硬件,用于运行语音识别等机器学习应用程序。
结果是张量处理单元(TPU),旨在加速深神经网络的推断阶段的芯片。谷歌周三发布了一篇论文,铺设了公司在对比CPU和GPU上看到的业绩,无论是对原始的力量还是每瓦所消耗的功率的性能。
TPU在测试的机器学习推理任务中平均平均为15至30倍,而不是比较的服务器类英特尔·哈维尔CPU或NVIDIA K80 GPU测试。重要的是,TPU的每个瓦特的性能比用CPU和GPU找到的谷歌的差价为25至80倍。
考虑到公司强调建筑机器学习应用,驾驶这种性能增加对谷歌非常重要。这些收益验证了公司在建筑机器学习硬件时验证,这是一个难以获得传统硅的大规模性能升高的时间。
这不仅仅是学术练习。自2015年以来,谷歌在其数据中心中使用了TPU,他们已经使用了改进应用程序的性能,包括翻译和图像识别。TPUS在能效时特别有用,这是与在大规模尺度上使用硬件的成本相关的重要指标。
谷歌目的的其他关键指标之一是延迟,这是TPUS Excel与其他硅选项相比的位置。谷歌的一个杰出硬件工程师常规Jouppi表示,机器学习系统需要快速响应,以提供良好的用户体验。
“关键是,互联网需要时间,所以如果你使用基于因特网的服务器,需要从您的设备到云需要时间,所以返回所需时间,”Jouppi说。“网络和云中的各种东西 - 在数据中心 - 他们需要一些时间。如果你想要接近瞬间的反应,那就不会留下很多[时间]。“
谷歌在六种不同的神经网络推理应用中测试了芯片,代表谷歌的数据中心中所有这些应用的95%。所测试的应用程序包括DeepMind alphago,该系统在去年在五场比赛中击败了李塞托。
该公司测试了TPUS对阵硬件的TPU,在大致相同的时间内释放,以试图获得苹果对苹果性能比较。它可能的是较新的硬件至少将缩小性能差距。
TPU还有TPU的空间也是为了改善。使用NVIDIA K80 GPU中存在的GDDR5内存与TPU应提供Google测试的现有配置的性能改进。根据该公司的研究,几个应用程序的性能受到内存带宽的限制。
此外,谷歌文件的作者声称有更多的软件优化的空间,以提高性能。作者称为其中一个经过测试的卷积神经网络应用(作为CNN1中的称为CNN1)作为候选者。但是,由于使用TPU的现有性能获得,如果将进行这些优化,则不清楚。
虽然神经网络模仿神经元在人类中发射信息的方式,但CNNS专门针对大脑如何处理视觉信息而建模。
“由于CNN1目前在TPU上运行超过70倍而不是CPU,CNN1开发人员已经很开心,因此目前尚不清楚是否会执行此类优化时,”“作者写道。
TPU是Chip Lingo作为特定应用集成电路(ASIC)所熟知的。它们是为一项任务构建的自定义芯片,用指令集硬编码到芯片本身中。Jouppi表示,他没有过于关切,并指出TPU足以处理机器学习模型的变化。
“它不像它是为一个型号设计的,如果有人提出了一个新的模型,我们就必须夹在筹码或那样的东西中,”他说。
Google不是唯一专注于使用专用硬件进行机器学习的公司。Jouppi表示,他知道在空间中工作的几个启动,Microsoft在其数据中心部署了一个现场可编程门阵列,以加速网络和机器学习应用程序。
版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“科技金融网”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场,如有侵权,请联系我们删除。