OSC開(kāi)源社區(qū) 昨天
喜歡就關(guān)注我們吧!
01英偉達(dá)顛覆CPU!長(zhǎng)發(fā)黃仁勛殺入英特爾地盤(pán),ARM架構(gòu)CPU性能高10倍
英偉達(dá)凡爾賽一號(hào)玩家黃仁勛來(lái)了!他帶著自家ARM架構(gòu)CPU從加速器輔路殺進(jìn)了CPU三環(huán)主路,戰(zhàn)火直接燒到了英特爾后院,帕特·基辛格同志要小心了!
今年,「GPU大哥」英偉達(dá)居然「不講武德」,發(fā)布一個(gè)基于Arm架構(gòu)的新數(shù)據(jù)中心CPU Nvidia Grace,它將直接挑戰(zhàn)英特爾在服務(wù)器和數(shù)據(jù)中心計(jì)算領(lǐng)域的主導(dǎo)地位。
隨著英偉達(dá)進(jìn)軍CPU領(lǐng)域,且能大大超越Intel和AMD的處理器,英特爾和AMD或?qū)⒃谶@一技術(shù)領(lǐng)域輸?shù)舾?jìng)爭(zhēng)? 先來(lái)看看英偉達(dá)的CPU有多強(qiáng)。
這款名為Grace的CPU使用了節(jié)能 Arm 核心—— Neoverse,為系統(tǒng)訓(xùn)練大型人工智能模型提供了巨大的性能飛躍。 具體講,基于Grace的系統(tǒng)與NVIDIA GPU緊密結(jié)合,性能將比目前最先進(jìn)的NVIDIA DGX系統(tǒng)(在x86 CPU上運(yùn)行)高出10倍。 它能夠滿足世界上最先進(jìn)應(yīng)用的計(jì)算需求,包括自然語(yǔ)言處理、推薦系統(tǒng)和人工智能超級(jí)計(jì)算,這些應(yīng)用分析需要超快計(jì)算性能和大容量?jī)?nèi)存中的巨大數(shù)據(jù)集。 Grace還是一款高度專用型處理器,主要面向大型數(shù)據(jù)密集型HPC和AI應(yīng)用。新一代NLP模型的訓(xùn)練會(huì)有超過(guò)一萬(wàn)億的參數(shù)。
這款CPU的基本性能是第四代Nvidia NVLink互連技術(shù),該技術(shù)在Grace和Nvidia圖形處理單元之間提供每秒900 GB的連接,使總帶寬比目前領(lǐng)先的服務(wù)器高出30倍。 英偉達(dá)表示,新產(chǎn)品將于2023年初上市。
信息來(lái)源:
新智元02CPU 比 GPU 訓(xùn)練神經(jīng)網(wǎng)絡(luò)快十幾倍,英特爾:別用矩陣運(yùn)算了
神經(jīng)網(wǎng)絡(luò)訓(xùn)練通常是 GPU 大顯身手的領(lǐng)域,然而萊斯大學(xué)和英特爾等機(jī)構(gòu)對(duì) GPU 的地位發(fā)起了挑戰(zhàn)。
在深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)領(lǐng)域,研究人員通常離不開(kāi) GPU。得益于 GPU 極高內(nèi)存帶寬和較多核心數(shù),研究人員可以更快地獲得模型訓(xùn)練的結(jié)果。與此同時(shí),CPU 受限于自身較少的核心數(shù),計(jì)算運(yùn)行需要較長(zhǎng)的時(shí)間,因而不適用于深度學(xué)習(xí)模型以及神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。
但近日,萊斯大學(xué)、螞蟻集團(tuán)和英特爾等機(jī)構(gòu)的研究者發(fā)表了一篇論文,表明了在消費(fèi)級(jí) CPU 上運(yùn)行的 AI 軟件,其訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的速度是 GPU 的 15 倍。這篇論文已被 MLSys 2021 會(huì)議接收。
論文鏈接:https://proceedings.mlsys.org/paper/2021/file/3636638817772e42b59d74cff571fbb3-Paper.pdf
Shrivastava 領(lǐng)導(dǎo)的實(shí)驗(yàn)室在 2019 年做到了這一點(diǎn),將 DNN 訓(xùn)練轉(zhuǎn)換為可以用哈希表解決的搜索問(wèn)題。他們?cè)O(shè)計(jì)的亞線性深度學(xué)習(xí)引擎(sub-linear deep learning engine, SLIDE)是專門(mén)為運(yùn)行在消費(fèi)級(jí) CPU 上而設(shè)計(jì)的,Shrivastava 和英特爾的合作伙伴在 MLSys 2020 會(huì)議上就公布了該技術(shù)。他們表示,該技術(shù)可以超越基于 GPU 的訓(xùn)練。
信息來(lái)源:
Python視界03飛槳分布式訓(xùn)練又推新品,4D混合并行可訓(xùn)千億級(jí)AI模型
最近,飛槳提出了4D混合并行策略,以訓(xùn)練千億級(jí)稠密參數(shù)模型。
近幾年,深度學(xué)習(xí)領(lǐng)域的開(kāi)發(fā)者們對(duì)模型效果的追求愈演愈烈,各大榜單紀(jì)錄不斷刷新,而這個(gè)現(xiàn)象的背后都有著 “大規(guī)模訓(xùn)練” 的身影。在數(shù)據(jù)和參數(shù)規(guī)模增長(zhǎng)的過(guò)程中,常規(guī)的單機(jī)訓(xùn)練由于硬件資源的限制漸漸顯得捉襟見(jiàn)肘,而分布式訓(xùn)練則成為了廣大開(kāi)發(fā)者的必然選擇。
歷經(jīng)搜索推薦業(yè)務(wù)磨煉
最成熟萬(wàn)億稀疏參數(shù)模型訓(xùn)練技術(shù)一騎絕塵
搜索推薦場(chǎng)景經(jīng)常面臨數(shù)據(jù)量大、特征維度高且稀疏化的問(wèn)題。而分布式訓(xùn)練的參數(shù)服務(wù)器模式采用了一種將模型參數(shù)中心化管理的方式來(lái)實(shí)現(xiàn)模型參數(shù)的分布式存儲(chǔ)和更新,該模式有兩個(gè)角色 Server 與 Worker:Worker 用于執(zhí)行模型的前向與反向計(jì)算;Server 負(fù)責(zé)從各個(gè) Worker 收集匯總梯度并更新參數(shù),因此對(duì)于存儲(chǔ)超大規(guī)模模型參數(shù)的訓(xùn)練場(chǎng)景十分友好,常被用于訓(xùn)練擁有海量稀疏參數(shù)的搜索推薦領(lǐng)域模型。從傳統(tǒng)純CPU參數(shù)服務(wù)器
到純GPU參數(shù)服務(wù)器
傳統(tǒng)的純 CPU 參數(shù)服務(wù)器,由高性能異步訓(xùn)練 Worker、高效通信策略和高性能 Server 組成。通常可以使用的 CPU 數(shù)量較多,訓(xùn)練中能夠充分展示 CPU 多核的吞吐量?jī)?yōu)勢(shì)。在異步訓(xùn)練模式下訓(xùn)練簡(jiǎn)單模型可以極大提升數(shù)據(jù)吞吐量,整體訓(xùn)練速度非常出色。從傳統(tǒng)純GPU參數(shù)服務(wù)器
到異構(gòu)參數(shù)服務(wù)器
在純 GPU 的參數(shù)服務(wù)器下,所有的訓(xùn)練都在 GPU 中,當(dāng)模型中部分網(wǎng)絡(luò)層比較復(fù)雜的時(shí)候,GPU 利用率很難被打滿,而 GPU 機(jī)器中 CPU 與 GPU 的硬件配比是固定的,無(wú)法靈活調(diào)整。針對(duì)這種情況,有兩種解決方案:定制化 GPU 機(jī)型,調(diào)整機(jī)器內(nèi) CPU 與 GPU 的硬件配比。
混布 CPU 和 GPU 機(jī)器節(jié)點(diǎn),來(lái)調(diào)整機(jī)器間的硬件配比。
4D 混合并行策略支持
文心ERNIE千億語(yǔ)言模型訓(xùn)練
當(dāng)前飛槳集合通信模式已經(jīng)可以支持文心 ERNIE 千億語(yǔ)言模型的訓(xùn)練能力,其 Sharding-DP 策略更是在近期助力文心 ERNIE 的多項(xiàng)任務(wù)分?jǐn)?shù)刷新 GLUE 榜單。而這個(gè) Sharding-DP 策略正是飛槳集合通信模式為了訓(xùn)練 ERNIE 這樣的大規(guī)模復(fù)雜模型所支持的多種并行策略中的一種。寫(xiě)在最后
如今飛槳已經(jīng)開(kāi)始研究下一代分布式技術(shù),來(lái)同時(shí)兼容超大規(guī)模稠密參數(shù)和稀疏參數(shù)模型的訓(xùn)練。相信在實(shí)際產(chǎn)業(yè)應(yīng)用這個(gè)核心驅(qū)動(dòng)力推動(dòng)下,飛槳分布式訓(xùn)練必將成為星辰大海上的那顆北極星,為廣大開(kāi)發(fā)者們指引航向。
信息來(lái)源:
飛槳PaddlePaddle04AI一鍵去紋身,幾秒鐘讓你看見(jiàn)明星「真面目」
深度學(xué)習(xí)去紋身的應(yīng)用,看起來(lái)有不小的應(yīng)用潛力。有些時(shí)候,我們需要把一些人身上的紋身覆蓋掉,以避免引人效仿。有的時(shí)候人們只是單純地好奇,想知道一些大明星如果沒(méi)有紋身會(huì)是什么樣子。來(lái)自印度的機(jī)器學(xué)習(xí)研究者 Vijish Madhavan 最近開(kāi)源的一個(gè)機(jī)器學(xué)習(xí)工具 SkinDeep 滿足了我們的需求。
該項(xiàng)目的作者 Vijish Madhavan 在看完加拿大歌手賈斯汀 · 比伯的 MV《Anyone》后,萌生了做這個(gè)項(xiàng)目的計(jì)劃。賈斯汀 · 比伯在化妝師的幫助下花了好幾個(gè)小時(shí)的時(shí)間才把他的一身紋身覆蓋掉。
MV 視頻的效果非常完美,因?yàn)橹谱饕曨l輸出是非常困難的,因此項(xiàng)目作者選擇圖像來(lái)處理。該項(xiàng)目的起點(diǎn)是深度學(xué)習(xí)能否勝任這項(xiàng)工作,與 photoshop 相比又如何?
項(xiàng)目地址:https://github.com/vijishmadhavan/SkinDeep
與專業(yè)圖像處理軟件 photoshop 相比,效果也不錯(cuò):
看起來(lái) SkinDeep 的效果還不錯(cuò),但如果紋身是彩色的,還會(huì)有一些殘留的痕跡。
信息來(lái)源:
機(jī)器之心0595%PyTorch庫(kù)都會(huì)中招的bug!特斯拉AI總監(jiān)都沒(méi)能幸免
到底是怎樣的一個(gè)bug,能讓95%的Pytorch庫(kù)中招,就連特斯拉AI總監(jiān)深受困擾?還別說(shuō),這個(gè)bug雖小,但有夠“狡猾”的。這就是最近Reddit上熱議的一個(gè)話題,是一位網(wǎng)友在使用再平常不過(guò)的Pytorch+Numpy組合時(shí)發(fā)現(xiàn)。最主要的是,在代碼能夠跑通的情況下,它甚至還會(huì)影響模型的準(zhǔn)確率!事情的起因是一位網(wǎng)友發(fā)現(xiàn),在PyTorch中用NumPy來(lái)生成隨機(jī)數(shù)時(shí),受到數(shù)據(jù)預(yù)處理的限制,會(huì)多進(jìn)程并行加載數(shù)據(jù),但最后每個(gè)進(jìn)程返回的隨機(jī)數(shù)卻是相同的。他還舉出例子證實(shí)了自己的說(shuō)法:如下是一個(gè)示例數(shù)據(jù)集,它會(huì)返回三個(gè)元素的隨機(jī)向量。這里采用的批量大小分別為2,工作進(jìn)程為4個(gè)。然后神奇的事情發(fā)生了:每個(gè)進(jìn)程返回的隨機(jī)數(shù)都是一樣的。這個(gè)結(jié)果會(huì)著實(shí)讓人有點(diǎn)一頭霧水,就好像數(shù)學(xué)應(yīng)用題求小明走一段路程需要花費(fèi)多少時(shí)間,而你卻算出來(lái)了負(fù)數(shù)。發(fā)現(xiàn)了問(wèn)題后,這位網(wǎng)友還在GitHub上下載了超過(guò)10萬(wàn)個(gè)PyTorch庫(kù),用同樣的方法產(chǎn)生隨機(jī)數(shù)。結(jié)果更加令人震驚:居然有超過(guò)95%的庫(kù)都受到這個(gè)問(wèn)題的困擾!這其中不乏PyTorch的官方教程和OpenAI的代碼,連特斯拉AI總監(jiān)Karpathy也承認(rèn)自己“被坑過(guò)”!但有一說(shuō)一,這個(gè)bug想要解決也不難:只需要在每個(gè)epoch都重新設(shè)置seed,或者用python內(nèi)置的隨機(jī)數(shù)生成器就可以避免這個(gè)問(wèn)題。
這到底是不是一個(gè)bug?
在Reddit上有人認(rèn)為:這不是一個(gè)bug。雖然這個(gè)問(wèn)題非常常見(jiàn),但它并不算是一個(gè)bug,而是一個(gè)在調(diào)試時(shí)不可以忽略的點(diǎn)。就是這個(gè)觀點(diǎn),激起了千層浪花,許多人都認(rèn)為他忽略了問(wèn)題的關(guān)鍵所在。這不是產(chǎn)生偽隨機(jī)數(shù)的問(wèn)題,也不是numpy的問(wèn)題,問(wèn)題的核心是在于PyTorch中的DataLoader的實(shí)現(xiàn)
也有用戶補(bǔ)充說(shuō),如果 95% 以上的用戶使用時(shí)出現(xiàn)錯(cuò)誤,那么代碼就是錯(cuò)的。
順便一提,這提供了Karpathy定律的另一個(gè)例子:即使你搞砸了一些非?;敬a,“neural nets want to work”。
信息來(lái)源:
量子位yyds!用深度學(xué)習(xí)框架玩明日方舟,高端!2021-04-17為什么Python是機(jī)器學(xué)習(xí)的最佳選擇?2021-04-18Edge瀏覽器提供性能模式,專為高性能用戶設(shè)計(jì)2021-04-19呀
閱讀 1174
贊2在看1
分享此內(nèi)容的人還喜歡
終于有人把Python講的這么明白了
終于有人把Python講的這么明白了
...
閱讀 2412
Python那些事
不喜歡
不看的原因
確定
內(nèi)容質(zhì)量低
不看此公眾號(hào)
英偉達(dá)首款 CPU 面世,性能提升十倍,全面擁抱 ARM 生態(tài)
英偉達(dá)首款 CPU 面世,性能提升十倍,全面擁抱 ARM 生態(tài)
...
贊 16
SegmentFault
不喜歡
不看的原因
確定
內(nèi)容質(zhì)量低
不看此公眾號(hào)
GNU正式推出協(xié)作開(kāi)發(fā)平臺(tái)GNU Assembly
GNU正式推出協(xié)作開(kāi)發(fā)平臺(tái)GNU Assembly
...
贊 10
OSC開(kāi)源社區(qū)
不喜歡
不看的原因
確定
內(nèi)容質(zhì)量低
不看此公眾號(hào)
寫(xiě)下你的留言