日本96在线精品视频免费观看,色综合合久久天天给综看,噜色

谷歌TPU叫板Nvidia GPU，誰才是人工智能芯片的未來？

2017.06.20

來源：內(nèi)容來自數(shù)位時(shí)代，謝謝。

為了讓機(jī)器學(xué)習(xí)演算效率提高、因應(yīng)更大量的運(yùn)算需求，Google自行開發(fā)了專用的伺服器芯片「TPU」（Tensor Processing Unit），自2015年起在內(nèi)部使用。去年五月，Google曾在I/O開發(fā)者大會(huì)提及TPU，今天首度公開更多細(xì)節(jié)及效能評估報(bào)告，發(fā)表在一篇論文中。

過去幾年來，處理機(jī)器學(xué)習(xí)演算較為經(jīng)濟(jì)實(shí)惠的標(biāo)準(zhǔn)配備主要是像AMD和Nvidia等品牌的GPU。不過，Google從2006年就開始研究如何在數(shù)據(jù)中心使用GPU、FPGA與客制化特殊規(guī)格的ASIC（其實(shí)就是TPU）。

據(jù)Google表示，當(dāng)時(shí)這種特殊硬體并沒有太大用處，就算是負(fù)荷較大的運(yùn)算，只要利用數(shù)據(jù)中心原先多余的硬體就夠了。不過到了2013年，情況改變，Google預(yù)期深度神經(jīng)網(wǎng)路的使用會(huì)變得非常普遍，可能會(huì)使數(shù)據(jù)中心計(jì)算需求倍增，要是使用傳統(tǒng)CPU就會(huì)非常昂貴。因此，Google優(yōu)先進(jìn)行相關(guān)研發(fā)計(jì)畫，目標(biāo)將性能提高至GPU的10倍以上。

Google開發(fā)的Tensor Processing Unit是針對自家的「TensorFlow」機(jī)器學(xué)習(xí)框架最佳化的芯片，主要用于機(jī)器學(xué)習(xí)演算的后半階段。以大量數(shù)據(jù)對神經(jīng)網(wǎng)路進(jìn)行訓(xùn)練時(shí)，通常是在GPU加速的伺服器上進(jìn)行。之后對新數(shù)據(jù)進(jìn)行推測的階段，Google則開始使用TPU，處理效率更高。

據(jù)論文中Google對自家芯片的測試，TPU在執(zhí)行Google常規(guī)的機(jī)器學(xué)習(xí)運(yùn)算時(shí)，速度比現(xiàn)行標(biāo)準(zhǔn)的GPU/CPU組合（Intel Haswell處理器與Nvidia K80 GPU）平均快上15-30倍?？剂繑?shù)據(jù)中心的功耗，使用TPU的效能功耗比也高了30-80倍（將來使用更快的記憶體，或許還會(huì)更高）。

但正是這個(gè)GPU對你，讓Nvidia的創(chuàng)始人黃仁勛不爽了，他撰文表示：Nvidia P40 比TPU 速度快2 倍、頻寬是10 倍。

Nvidia認(rèn)為GPU是人工智能的更好選擇

他指出，以Google 為例。Google 在深度學(xué)習(xí)里突破性的工作引發(fā)全球關(guān)注：Google Now 語音互動(dòng)系統(tǒng)令人吃驚的精確性、AlphaGo 在圍棋領(lǐng)域歷史性的勝利、Google 翻譯應(yīng)用于100 種語言。

深度學(xué)習(xí)已經(jīng)達(dá)到不可思議的效果。但是深度學(xué)習(xí)的方法，要求電腦在摩爾定律放緩的時(shí)代背景下，精確處理海量資料。深度學(xué)習(xí)是一種全新的計(jì)算模型，也需要一種全新計(jì)算架構(gòu)的誕生。

一段時(shí)間以來，這種AI計(jì)算模型都是在Nvidia芯片上執(zhí)行。2010年，研究員Dan Ciresan當(dāng)時(shí)在瑞士Juergen Schmidhuber教授的AI實(shí)驗(yàn)室工作，他發(fā)現(xiàn)NvidiaGPU芯片可用來訓(xùn)練深度神經(jīng)網(wǎng)路，比CPU的速度快50倍。一年之后，Schmidhuber教授的實(shí)驗(yàn)室又使用GPU開發(fā)了世界上首個(gè)純深度神經(jīng)網(wǎng)路，一舉贏得國際手寫辨識(shí)和電腦視覺比賽的冠軍。接著2012年，多倫多大學(xué)的碩士生Alex Krizhevsky使用了兩個(gè)GPU，贏得如今蜚聲國際的ImageNet影像辨識(shí)競賽。（Schmidhuber教授曾經(jīng)寫過一篇文章，全面梳理了于GPU上執(zhí)行的深度學(xué)習(xí)對于當(dāng)代電腦視覺的影響。）

全球AI 研究員都發(fā)現(xiàn)了，Nvidia為電腦圖形和超級計(jì)算應(yīng)用設(shè)計(jì)的GPU 加速計(jì)算模型，是深度學(xué)習(xí)的理想之選。深度學(xué)習(xí)應(yīng)用，比如3D 圖形、醫(yī)療成像、分子動(dòng)力學(xué)、量子化學(xué)和氣象模擬等，都是一種線性代數(shù)演算法，需要進(jìn)行大規(guī)模并列張量或多維向量計(jì)算。誕生于2009 年的NvidiaKepler GPU 架構(gòu)，雖然幫助喚醒了世界在深度學(xué)習(xí)中使用GPU 加速計(jì)算，但其誕生之初并非為深度學(xué)習(xí)量身訂做。

所以，我們必須開發(fā)出新一代GPU 架構(gòu)，首先是Maxwell，接著是Pascal，這兩種架構(gòu)都對深度學(xué)習(xí)進(jìn)行特定最佳化。在Kepler Tesla K80 之后 4 年，基于Pascal 架構(gòu)的Tesla P40 推理加速器誕生了，它的推理效能是前者的26 倍，遠(yuǎn)遠(yuǎn)超過摩爾定律的預(yù)期。

在這時(shí)期，Google 也設(shè)計(jì)了一款自訂化的加速器芯片，名為「張量處理單元」，即TPU。具體針對資料推理，于2015 年部署。

上周Google 團(tuán)隊(duì)釋出了關(guān)于TPU 優(yōu)越性的一些資訊，稱TPU 比K80 的推理效能高出13 倍。但是，Google并沒有拿TPU 與如今最新一代的Pascal P40 比較。

英偉達(dá)方面建立了如下圖表，量化K80、TPU 和P40 的效能，看看TPU 與如今Nvidia技術(shù)間的較量。

P40 在計(jì)算精度和吞吐量、片內(nèi)儲(chǔ)存和儲(chǔ)存頻寬間達(dá)到良好平衡，不僅在訓(xùn)練階段，也在推理階段達(dá)到前所未有的效能表現(xiàn)。對于訓(xùn)練階段，P40 擁有10 倍于TPU 的頻寬，32 位浮點(diǎn)效能達(dá)到12個(gè)TFLOPS 。至于推理階段，P40 具高吞吐的8 位整數(shù)和高儲(chǔ)存頻寬。

雖然Google 和Nvidia選了不同的發(fā)展路徑，我們有一些共同關(guān)切的主題。具體包括：

AI 需要加速計(jì)算。在摩爾定律變慢的時(shí)代背景下，加速器滿足了深度學(xué)習(xí)大量資料處理需求。

張量處理處于深度學(xué)習(xí)訓(xùn)練和推理效能的核心位置。

張量處理是一個(gè)重要的新工作負(fù)載，企業(yè)在建立現(xiàn)代資料中心的時(shí)候，要考慮這一問題。

加速張量處理可以顯著減少現(xiàn)代資料中心的建設(shè)成本。

究竟誰才是人工智能芯片的未來？

如何比較TPU的效能呢？把TPU跟Intel的Haswell CPU及NVIDIA Tesla K80 GPU這兩款CPU與GPU的效能表現(xiàn)比較，數(shù)據(jù)顯示TPU的速度快他們15至30倍。

但是，NVIDIA Tesla K80 GPU是NVIDIA五年前的產(chǎn)品，而且Google雖說TPU能用在任何人工智能的深度學(xué)習(xí)運(yùn)算，然而，TPU不但沒對其他系統(tǒng)做最佳化，還設(shè)定只能做犧牲精確度的推理運(yùn)算。

深度學(xué)習(xí)需要的大量運(yùn)算訓(xùn)練，還是需要GPU或是CPU來處理，所以Google最后還是說了，TPU需要搭配GPU或是CPU。

這次Google的說法，就好比告訴大家，我針對某種狀況特殊設(shè)計(jì)的東西，比別人的東西（NVIDIA Tesla K80 GPU）表現(xiàn)強(qiáng)15至30倍，但是，Google沒說的是，他把別人五年前的產(chǎn)品拿來比。

無怪乎黃仁勛立刻跳出來撰文，輔以數(shù)據(jù)說明，現(xiàn)在的主力產(chǎn)品P40比這顆TPU快達(dá)2倍，頻寬10倍。他的動(dòng)作，其實(shí)是一個(gè)很不錯(cuò)的公關(guān)回應(yīng)：避免產(chǎn)品被誤解，而且是在NVIDIA現(xiàn)在領(lǐng)先業(yè)界最多的人工智能運(yùn)算芯片產(chǎn)品線上。

不過，也因?yàn)門PU是硬體特制，無法修改，才能做到最低耗能，這樣的芯片比起NVIDIA GPU P40自然省電很多。

TPU是專門針對TensorFlow最佳化所推出的芯片，我認(rèn)為Google這個(gè)宣告主要是想告訴使用TensorFlow的開發(fā)者社群「我現(xiàn)在用的東西很不錯(cuò)」，公關(guān)宣傳意味濃厚。再加上Google之前雇用李飛飛，并打算收購最大的資料科學(xué)家、機(jī)器學(xué)習(xí)開發(fā)者社群Kaggle，一連串動(dòng)作，都在強(qiáng)化Google在人工智能開發(fā)者社群的地位與認(rèn)同。

其實(shí)，Google主打開發(fā)者社群，與NVIDIA主攻各種商用人工智能（特別是無人車用的訓(xùn)練）其實(shí)并不一樣，兩者各有所長。但是為了公關(guān)效果，這次雙方都出了招。

Google也強(qiáng)調(diào)，它不會(huì)對外販?zhǔn)跿PU，僅供內(nèi)部使用。如同《數(shù)位時(shí)代》2017年4月號所強(qiáng)調(diào)的，Google未來10年會(huì)強(qiáng)化云端運(yùn)算與人工智能為主要策略方向。TPU，其實(shí)就是這個(gè)策略的展現(xiàn)。

TPU的運(yùn)算效能不錯(cuò)，也說明了原本專長CPU與次專長的GPU的Intel，發(fā)現(xiàn)自己在人工智能落后NVIDIA后，為什么決定改往人工智能專用芯片方向上努力的最大原因，是為了能在人工智能運(yùn)算芯片戰(zhàn)場上突破現(xiàn)有的困境。

深度學(xué)習(xí)的訓(xùn)練需要非常大量的資料，需要非常多的運(yùn)算單元來做運(yùn)算，不管是GPU、CPU或TPU，如何相互搭配，才能達(dá)到又快又省電的目的，會(huì)是接下來各大深度學(xué)習(xí)應(yīng)用硬體架構(gòu)方面的重點(diǎn)。從這次Google、NVIDIA及Intel在人工智能運(yùn)算芯片的態(tài)度與作法，可以預(yù)見，在物聯(lián)網(wǎng)前端產(chǎn)品芯片之外，這會(huì)是各大運(yùn)算單元芯片廠的另一個(gè)戰(zhàn)場。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

都是瞄準(zhǔn)人工智能市場，谷歌TPU與GPU、FPGA到底有啥不同？

帶你窺探一下人工智能下的——TPU/NPU/CPU/GPU

鯨準(zhǔn)研究院 | 人工智能歷史之AI芯片元年回顧

人工智能前沿——人工智能芯片掃描

人機(jī)大戰(zhàn)柯潔勝算不到一成，AlphaGo 身后的 TPU 殺傷力究竟有多強(qiáng)大？

英偉達(dá)：游戲即將成為副業(yè)，人工智能驅(qū)動(dòng)增長

更多類似文章 >>

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区