【亚博网站多少 www.dancerocketcity.com】探秘天下未解之谜 分享全球奇闻趣事

手机版 - 繁体中文 - 今天是

亚博网app:比CPU、GPU快30倍?谷歌TPU内部架构藏有什么秘密

发布时间:2020-09-29 00:15:01来源:亚博网站多少编辑:亚博网站多少阅读: 当前位置:首页 > 野史传说 > 手机阅读

亚博网站多少

亚博网站多少-在2016年5月的I/O开发者大会上,谷歌首次向外透漏了其机器学习专用芯片Tensor处理单元(TPU)。之后,谷歌除了发布它们是环绕公司自身展开优化的TensorFlow机器学习框架之外,就再未透漏更好的细节。2020-03-30 ,这款机器学习自定义芯片的谜样面纱再一被揭露了。

4月5日,谷歌资深硬件工程师NormanJouppi刊文回应,谷歌的专用机器学习芯片TPU处理速度要比GPU和CPU慢15-30倍(和TPU对比的是英特尔HaswellCPU以及NvidiaTeslaK80GPU),而在能效上,TPU堪称提高了30到80倍。值得注意的是,这些数字是关于在生产中用于机器学习模型的,而不是首次创立模型。

从这次公布的测试结果来看,TPU或许早已远超过了业界的预期,但是藏在这一芯片背后的内部架构到底有什么秘密呢,我们从Jouppi此前公布的论文当中,可以寻找答案。据理解,早于在四年前,谷歌内部就开始用于消耗大量计算资源的深度自学模型,这对CPU、GPU人组而言是一个极大的挑战,谷歌自知如果基于现有硬件,他们将被迫将数据中心数量翻一番来反对这些简单的计算出来任务。所以谷歌开始研发一种新的架构,Jouppi称作“下一个平台”。

Jouppi曾是MIPS处理器的首席架构师之一,他首创了内存系统中的新技术。三年前他重新加入谷歌的时候,公司上下正在用CPU、GPU混合架构上来展开深度自学的训练。

Jouppi回应,谷歌的硬件工程团队在改向自定义ASIC之前,早期还曾用FPGA来解决问题廉价、高效和高性能推理小说的问题。但他认为,FPGA的性能和每瓦性能比起ASIC都有相当大的差距。

他说明说道,“TPU可以像CPU或GPU一样可编程,它可以在有所不同的网络(卷积神经网络,LSTM模型和大规模几乎相连的模型)上继续执行CISC指令,而不是为某个专用的神经网络模型设计的。一言以蔽之,TPU兼备了CPU和ASIC的有点,它不仅是可编程的,而且比CPU、GPU和FPGA享有更高的效率和更加较低的能耗。TPU的内部架构该图表明了TPU上的内部结构,除了外挂的DDR3内存,左侧是主机界面。

指令从主机发送到队列中(没循环)。这些转录掌控逻辑可以根据指令多次运营完全相同的指令。TPU并非一款简单的硬件,它看上去看起来雷达应用于的信号处理引擎,而不是标准的X86派生架构。

Jouppi说道,尽管它有众多的矩阵乘法单元,但是它GPU更加善于浮点单元的协处置。另外,必须留意的是,TPU没任何存储的程序,它可以必要从主机发送到指令。TPU上的DRAM作为一个单元分段运营,因为必须提供更好的权重以馈送到矩阵乘法单元(算下来,吞吐量超过了64,000)。Jouppi并没提及是他们是如何图形(systolic)数据流的,但他回应,用于主机软件加速器都将沦为瓶颈。

亚博网站多少

256×256阵列图形数据流引擎,经过矩阵乘法累积后构建非线性输入从第二张图片可以显现出,TPU有两个内存单元,以及一个用作模型中参数的外部DDR3DRAM。参数进去后,可从顶部读取到矩阵乘法单元中。同时,可以从左边读取转录(或从“神经元”输入)。

那些以膨胀的方式转入矩阵单元以产生矩阵乘法,它可以在每个周期中展开64,000次相加。毋庸置疑,谷歌有可能用于了一些新的技巧和技术来减缓TPU的性能和效率。例如,用于高带宽内存或混合3D内存。然而,谷歌的问题在于维持分布式硬件的一致性。

本文来源:亚博网站多少-www.dancerocketcity.com

标签:亚博网站多少 亚博的官网地址 亚博网app

小编推荐:如果您对本文《亚博网app:比CPU、GPU快30倍?谷歌TPU内部架构藏有什么秘密》感兴趣,还可以看看《亚博网app-薄膜卡盘的两种应用案例》这篇文章。

野史传说排行

野史传说精选

野史传说推荐