日本96在线精品视频免费观看,国产成人福利

大家好，我是小 G。

提到訓(xùn)練 AI 大模型，總能讓人想起動(dòng)輒幾百上千塊 GPU、天價(jià)訓(xùn)練費(fèi)用、只有幾家大廠才玩得起，普通 AI 玩家看著鋪天蓋地的大模型新聞只能默默流淚～

現(xiàn)在，僅有一塊 GPU 的個(gè)人 PC 也可以訓(xùn)練高達(dá) 180 億參數(shù) GPT；普通的筆記本電腦，也能訓(xùn)練十幾億參數(shù)的模型，相比現(xiàn)有主流方案，可提升參數(shù)容量十余倍！

如此顯著的提升來自 GitHub 上的一個(gè)國產(chǎn)項(xiàng)目：Colossal-AI，一個(gè)通用 AI 大模型高效訓(xùn)練系統(tǒng)。最重要的是，它完全開源，僅需極少量修改，即可讓現(xiàn)有深度學(xué)習(xí)項(xiàng)目在單張消費(fèi)級顯卡上使用大得多的模型進(jìn)行訓(xùn)練，每個(gè)人都可以在家訓(xùn)練 AI 大模型！尤其是大幅度降低了 AI 大模型微調(diào)和推理等下游任務(wù)和應(yīng)用部署的門檻！

Colossal-AI 還可將現(xiàn)有項(xiàng)目便捷擴(kuò)展到大規(guī)模計(jì)算集群，使用高效并行技術(shù)進(jìn)一步加速。

GitHub 地址：https://github.com/hpcaitech/ColossalAI

巨頭角力，爭煉 AI 大模型

從 2018 年谷歌提出的 3 億參數(shù) BERT 起，大模型記錄在短短幾年時(shí)間內(nèi)被不斷刷新，OpenAI 1750 億參數(shù)的 GPT-3，微軟和英偉達(dá)聯(lián)手發(fā)布的 5300 億參數(shù) MT-NLG ......

稠密單體模型已達(dá)千億參數(shù)，而稀疏混合模型，如谷歌 2021 年發(fā)布的 Switch Transformer，更是將參數(shù)量推至萬億級別。

然而，從頭訓(xùn)練如此之大的模型費(fèi)用極高，通常需要同時(shí)使用數(shù)百甚至上千張 NVIDIA A100 等專業(yè)高性能計(jì)算 GPU，使用專用的 InfiniBand 高速網(wǎng)絡(luò)互聯(lián)組成超級計(jì)算機(jī)集群，單次訓(xùn)練成本可達(dá)千萬美元。

使用單張消費(fèi)級顯卡訓(xùn)練 AI 大模型

對于在校學(xué)生和個(gè)人開發(fā)者等普通 AI 玩家來說，顯然無法承擔(dān)上述如此高昂的費(fèi)用，最方便獲得的計(jì)算資源還是個(gè)人電腦中的英偉達(dá) RTX 系列消費(fèi)級 GPU。

為了解放 AI 生產(chǎn)力，讓大模型普惠到更多開發(fā)人員，真正實(shí)現(xiàn) '多快好省' 的使用 AI 大模型，Colossal-AI 僅需幾行代碼，便可實(shí)現(xiàn)提升單卡訓(xùn)練模型容量十幾倍的提升。

在各類型硬件上，Colossal-AI 的表現(xiàn)均遠(yuǎn)超原生 PyTorch 和主流的微軟 DeepSpeed 方案。

對于大模型的代表 GPT，使用 Colossal-AI 在搭載 RTX 2060 6GB 的普通游戲筆記本上，也足以訓(xùn)練高達(dá) 15 億參數(shù)模型；對于搭載 RTX3090 24GB 的個(gè)人電腦，更是可以直接訓(xùn)練 180 億參數(shù)的模型；對于 Tesla V100 等專業(yè)計(jì)算卡，Colossal-AI 也能顯示出顯著改善。

Colossal-AI 還成功復(fù)現(xiàn)了谷歌的最新研究成果 PaLM (Pathways Language Model)，在各類硬件上也體現(xiàn)出卓越的性能提升，而微軟 DeepSpeed 尚不支持 PaLM 模型。

關(guān)鍵技術(shù)：異構(gòu)訓(xùn)練再升級

使用單張消費(fèi)級顯卡訓(xùn)練 AI 大模型的最大困難在于顯存容量極其有限，嚴(yán)重限制了可容納的模型參數(shù)量。微軟 DeepSpeed 的提出 ZeRO-offload 方法，嘗試將模型切分，利用更大容量、更低成本的內(nèi)存。目前已經(jīng)出現(xiàn)了多個(gè)基于 DeepSpeed 的魔改版本。但如下圖左邊所示，當(dāng) GPU 內(nèi)存不足以滿足其相應(yīng)的模型數(shù)據(jù)要求時(shí)，即使當(dāng)時(shí) CPU 上仍有可用內(nèi)存，系統(tǒng)也會(huì)崩潰。

不同于基于 DeepSpeed 的各種魔改方案，Colossal-AI 團(tuán)隊(duì)從頭搭建了如 ZeRO 等核心關(guān)鍵技術(shù)，并針對 DeepSpeed 在 CPU 和 GPU 內(nèi)存之間僅使用靜態(tài)劃分模型數(shù)據(jù)、對不同訓(xùn)練配置使用固定內(nèi)存布局等問題做了諸多改進(jìn)，進(jìn)一步挖掘高效的 GPU 與 CPU 內(nèi)存高效協(xié)同方案，畢竟內(nèi)存條可比大顯存的高端顯卡便宜太多～

Colossal-AI 設(shè)計(jì)的 Gemini，就像雙子星一樣，高效管理和利用 GPU 與 CPU 的異構(gòu)內(nèi)存，讓張量在訓(xùn)練過程中動(dòng)態(tài)分布在 CPU-GPU 的存儲(chǔ)空間內(nèi)，從而讓模型訓(xùn)練突破 GPU 的內(nèi)存墻。

我們利用深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練過程的迭代特性，按迭代次數(shù)將訓(xùn)練分為 warmup 和 non-warmup 兩個(gè)階段。在初期 warmup 階段，監(jiān)測內(nèi)存信息；在 non-warmup 階段利用已收集的信息來高效移動(dòng)張量，以達(dá)到最小化 CPU-GPU 數(shù)據(jù)移動(dòng)的目的。

聽起來容易，實(shí)現(xiàn)起來卻并不簡單。非模型的內(nèi)存使用量其實(shí)難以獲取，因?yàn)榉悄Ｐ蛿?shù)據(jù)的生存周期并不歸用戶管理，現(xiàn)有的深度學(xué)習(xí)框架沒有暴露非模型數(shù)據(jù)的追蹤接口給用戶。其次，CUDA context 等非框架開銷也需要統(tǒng)計(jì)。

Colossal-AI 通過采樣方式在 warmup 階段獲得 CPU 和 GPU 內(nèi)存的使用情況。非模型數(shù)據(jù)的使用可以通過統(tǒng)計(jì)兩個(gè)時(shí)刻之間系統(tǒng)最大內(nèi)存使用 - 模型內(nèi)存使用獲得。模型的內(nèi)存使用情況可以通過查詢內(nèi)存管理器得知，如下圖黑色實(shí)線所示。

而所有模型數(shù)據(jù)張量則交給內(nèi)存管理器管理，每個(gè)張量標(biāo)記一個(gè)狀態(tài)信息，包括 HOLD，COMPUTE，F(xiàn)REE 等。并根據(jù)動(dòng)態(tài)查詢到的內(nèi)存使用情況，不斷動(dòng)態(tài)轉(zhuǎn)換張量狀態(tài)，調(diào)整張量位置，最終實(shí)現(xiàn)對 GPU 顯存和 CPU 內(nèi)存的高效利用，實(shí)現(xiàn)在硬件極其有限的情況下，最大化模型容量和平衡訓(xùn)練速度，對于 AI 民主化和低成本微調(diào)大模型下游任務(wù)等意義巨大。

更進(jìn)一步：便捷高效并行擴(kuò)展

并行分布式技術(shù)是進(jìn)一步加速模型訓(xùn)練的重要手段，想要以最短時(shí)間訓(xùn)練當(dāng)今世界最大最前沿的 AI 模型，仍離不開高效的分布式并行擴(kuò)展。針對現(xiàn)有方案并行維度有限、效率不高、通用性差、部署困難、缺乏維護(hù)等痛點(diǎn)，Colossal-AI 通過高效多維并行和異構(gòu)并行等技術(shù)，讓用戶僅需極少量修改，即可高效快速部署 AI 大模型訓(xùn)練。

例如對于 GPT-3 這樣的超大 AI 模型，相比英偉達(dá)方案，Colossal-AI 僅需一半的計(jì)算資源，即可啟動(dòng)訓(xùn)練；若使用相同計(jì)算資源，則能提速 11%，可降低 GPT-3 訓(xùn)練成本超百萬美元。

對于蛋白質(zhì)結(jié)構(gòu)預(yù)測應(yīng)用 AlphaFold，基于 Colossal-AI 的加速方案的 FastFold，成功超越谷歌和哥倫比亞大學(xué)的方案，將 AlphaFold 訓(xùn)練時(shí)間從 11 天減少到 67 小時(shí)，且總成本更低，在長序列推理中也實(shí)現(xiàn) 9.3～11.6 倍的速度提升。

Colossal-AI 注重開源社區(qū)建設(shè)，提供中文教程，開放用戶社群及論壇，對于用戶反饋進(jìn)行高效交流與迭代更新，不斷添加 PaLM、AlphaFold 等前沿應(yīng)用。

自開源以來，Colossal-AI 已經(jīng)多次登頂 GitHub 熱榜 Python 方向世界第一，與眾多已有數(shù)萬 star 的明星開源項(xiàng)目一起受到海內(nèi)外關(guān)注！

項(xiàng)目團(tuán)隊(duì)

潞晨技術(shù)團(tuán)隊(duì)的核心成員均來自美國加州大學(xué)伯克利分校，斯坦福大學(xué)，清華大學(xué)，北京大學(xué)，新加坡國立大學(xué)，新加坡南洋理工大學(xué)等國內(nèi)外知名高校；擁有 Google Brain、IBM、Intel、 Microsoft、NVIDIA 等知名廠商工作經(jīng)歷。公司成立即獲得創(chuàng)新工場、真格基金等多家頂尖 VC 機(jī)構(gòu)種子輪投資。

潞晨科技創(chuàng)始人尤洋教授：加州大學(xué)伯克利分校博士、IPDPS/ICPP 最佳論文、ACM/IEEE George Michael HPC Fellowship、福布斯 30 歲以下精英 (亞洲 2021)、IEEE-CS 超算杰出新人獎(jiǎng)、UC 伯克利 EECS Lotfi A. Zadeh 優(yōu)秀畢業(yè)生獎(jiǎng)

潞晨 CSO Prof. James Demmel：加州大學(xué)伯克利分校杰出教授、ACM/IEEE Fellow，美國科學(xué)院、工程院、藝術(shù)與科學(xué)院三院院士

傳送門

GitHub 地址：https://github.com/hpcaitech/ColossalAI

參考鏈接：

https://medium.com/@hpcaitech/train-18-billion-parameter-gpt-models-with-a-single-gpu-on-your-personal-computer-8793d08332dc

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

更進(jìn)一步：便捷高效并行擴(kuò)展