757午夜视频国产精品,国产福利毛片,天天色亚洲

我們正在邁向多語言多模態(tài)大模型時(shí)代

2023.07.10 廣東

隨著GPT-4、StableDiffusion等模型多模態(tài)能力的快速發(fā)展，多模態(tài)大模型已成為大模型邁向通用人工智能（AGI）目標(biāo)的下一個(gè)前沿焦點(diǎn)?？傮w而言，面向圖像和文本的多模態(tài)生成能力可以大致分為兩類：

（1）在圖像到文本生成方面，以GPT-4為代表的多模態(tài)大模型可以對(duì)圖像進(jìn)行開放域?qū)υ捄蜕疃韧评恚?/span>

（2）在文本到圖像的生成方面，以StableDiffusion為代表的多模態(tài)模型可以基于文本生成圖像內(nèi)容。這些多模態(tài)模式掀起的AIGC浪潮廣泛而深刻地改變了學(xué)術(shù)界和工業(yè)界的思想實(shí)踐。

然而，目前多模態(tài)大規(guī)模模型的成功很大程度上僅限于英語世界，而中文等其他非英語語言的多模態(tài)能力則明顯落后。這是因?yàn)榕c英語世界相比，中文等非英語語言的多模態(tài)數(shù)據(jù)嚴(yán)重匱乏，難以滿足多模態(tài)大模型對(duì)大規(guī)模高質(zhì)量圖文數(shù)據(jù)的需求。這些問題使得多語言和多模式大型模型的構(gòu)建極具挑戰(zhàn)性。

為了解決上述挑戰(zhàn)，我們提出利用高資源語言（如英語）作為圖像信號(hào)與低資源語言（如中文）之間的橋梁，實(shí)現(xiàn)多語言、多模態(tài)大數(shù)據(jù)的快速泛化。模型功能，從而減輕對(duì)低資源語言的需求。較低模態(tài)對(duì)齊數(shù)據(jù)（圖形和文本對(duì)數(shù)據(jù)）的依賴性。

通過類比人類的學(xué)習(xí)過程，我們可以直觀地理解方法：人類學(xué)習(xí)者只需通過母語與視覺信號(hào)之間的對(duì)應(yīng)關(guān)系，以及母語與不同語言之間的對(duì)應(yīng)關(guān)系，就可以自然地建立不同語言的視覺信號(hào)語言統(tǒng)一認(rèn)知。這是由于不同的自然語言符號(hào)系統(tǒng)在很大程度上已經(jīng)進(jìn)化到描述同一個(gè)客觀世界，這為多語言和多模態(tài)能力的快速泛化提供了基礎(chǔ)。

我們?cè)?/span>LLaVA標(biāo)準(zhǔn)英語測試集和翻譯的中文測試集上評(píng)估了模型。評(píng)估基準(zhǔn)考察模型在開放域?qū)υ挕D像細(xì)節(jié)描述和復(fù)雜推理方面的表現(xiàn)，并使用GPT-4進(jìn)行評(píng)分。

可以觀察到，VisCPM-Chat在不使用任何中文圖文對(duì)預(yù)訓(xùn)練數(shù)據(jù)的情況下，在中文多模態(tài)能力上取得了最好的平均性能，并且在一般領(lǐng)域?qū)υ捄蛷?fù)雜推理中表現(xiàn)良好，同時(shí)也表現(xiàn)出了良好的英語多模態(tài)能力。

在上述平衡的中英雙語能力（VisCPM-Chat-balance）的基礎(chǔ)上，我們?cè)陬A(yù)訓(xùn)練階段額外添加了20M個(gè)清洗后的原生中文圖文對(duì)和120M個(gè)翻譯成中文的圖文對(duì)，可以實(shí)現(xiàn)多語言Modal能力的進(jìn)一步增強(qiáng)（VisCPM-Chat-zhplus）。

VisCPM-Chat展示了令人印象深刻的圖像理解能力，并且能夠在對(duì)話中運(yùn)用世界知識(shí)和常識(shí)知識(shí)。例如下圖中，VisCPM可以識(shí)別染色的地圖和肖像，并正確理解染色所代表的不同含義。此外，VisCPM-Chat也具有良好的中國特色。比如可以用李白的詩來描述和解讀黃河的景象。

漢英雙語學(xué)生圖模型

VisCPM-繪制

VisCPM-Paint使用CPM-Bee（10B）作為文本編碼器，UNet作為圖像解碼器，通過擴(kuò)散模型訓(xùn)練目標(biāo)融合語言和視覺模型。在訓(xùn)練過程中，語言模型參數(shù)始終保持固定。我們使用StableDiffusion2.1的UNet參數(shù)初始化視覺解碼器，并通過逐漸解凍關(guān)鍵橋接參數(shù)將其與語言模型融合。該模型在LAION2B英語文本到文本數(shù)據(jù)上進(jìn)行訓(xùn)練。

我們?cè)跇?biāo)準(zhǔn)圖像生成測試集MSCOCO上采樣了30000張圖像，并計(jì)算了常用的評(píng)價(jià)圖像生成指標(biāo)FID（FréchetInceptionDistance）來評(píng)價(jià)生成圖像的質(zhì)量。與VisCPM類似，我們發(fā)現(xiàn)得益于CPM-Bee的雙語能力，VisCPM-Paint可以僅通過英文圖像-文本對(duì)進(jìn)行訓(xùn)練，并泛化以實(shí)現(xiàn)良好的中文文本到圖像生成能力，達(dá)到了最佳效果中國開源模型。在中英文平衡能力（VisCPM-Paint-balance）的基礎(chǔ)上，進(jìn)一步添加20M清洗后的原生中文圖文數(shù)據(jù)和120M翻譯成中文的圖文數(shù)據(jù)，實(shí)現(xiàn)了中文文本到圖像的生成能力。模型可以得到進(jìn)一步的提升（VisCPM-Paint-zhplus）。

為了促進(jìn)多模態(tài)大模型開源社區(qū)及相關(guān)研究領(lǐng)域的發(fā)展，我們免費(fèi)開源VisCPM系列的所有模型，歡迎個(gè)人和研究用途。未來我們還將把VisCPM集成到huggingface代碼框架中，并逐步完善安全模型、支持快速網(wǎng)頁部署、支持模型量化功能、支持模型微調(diào)等功能，歡迎繼續(xù)關(guān)注。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

清華系面壁智能開源中文多模態(tài)大模型VisCPM ：支持對(duì)話文圖雙向生成，吟詩作畫能力驚艷

今天探討一下VisCPM這個(gè)多語言多模態(tài)大模型

GPT4多模態(tài)預(yù)期落空關(guān)于AIGC還有什么值得暢想？

一次性搞懂什么是AIGC?。ㄒ黄恼?2個(gè)基本概念）

中金 | AI十年展望（五）：從ChatGPT到通用智能，新長征上的新變化

LVS2023 | 從 AIGC 到 MMLM

更多類似文章 >>

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区