九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
我們正在邁向多語言多模態(tài)大模型時(shí)代

隨著GPT-4StableDiffusion等模型多模態(tài)能力的快速發(fā)展,多模態(tài)大模型已成為大模型邁向通用人工智能(AGI)目標(biāo)的下一個(gè)前沿焦點(diǎn)??傮w而言,面向圖像和文本的多模態(tài)生成能力可以大致分為兩類:

1)在圖像到文本生成方面,以GPT-4為代表的多模態(tài)大模型可以對(duì)圖像進(jìn)行開放域?qū)υ捄蜕疃韧评恚?/span>

2)在文本到圖像的生成方面,以StableDiffusion為代表的多模態(tài)模型可以基于文本生成圖像內(nèi)容。這些多模態(tài)模式掀起的AIGC浪潮廣泛而深刻地改變了學(xué)術(shù)界和工業(yè)界的思想實(shí)踐。

然而,目前多模態(tài)大規(guī)模模型的成功很大程度上僅限于英語世界,而中文等其他非英語語言的多模態(tài)能力則明顯落后。這是因?yàn)榕c英語世界相比,中文等非英語語言的多模態(tài)數(shù)據(jù)嚴(yán)重匱乏,難以滿足多模態(tài)大模型對(duì)大規(guī)模高質(zhì)量圖文數(shù)據(jù)的需求。這些問題使得多語言和多模式大型模型的構(gòu)建極具挑戰(zhàn)性。

為了解決上述挑戰(zhàn),我們提出利用高資源語言(如英語)作為圖像信號(hào)與低資源語言(如中文)之間的橋梁,實(shí)現(xiàn)多語言、多模態(tài)大數(shù)據(jù)的快速泛化。模型功能,從而減輕對(duì)低資源語言的需求。較低模態(tài)對(duì)齊數(shù)據(jù)(圖形和文本對(duì)數(shù)據(jù))的依賴性。

通過類比人類的學(xué)習(xí)過程,我們可以直觀地理解方法:人類學(xué)習(xí)者只需通過母語與視覺信號(hào)之間的對(duì)應(yīng)關(guān)系,以及母語與不同語言之間的對(duì)應(yīng)關(guān)系,就可以自然地建立不同語言的視覺信號(hào)語言統(tǒng)一認(rèn)知。這是由于不同的自然語言符號(hào)系統(tǒng)在很大程度上已經(jīng)進(jìn)化到描述同一個(gè)客觀世界,這為多語言和多模態(tài)能力的快速泛化提供了基礎(chǔ)。

我們?cè)?/span>LLaVA標(biāo)準(zhǔn)英語測試集和翻譯的中文測試集上評(píng)估了模型。評(píng)估基準(zhǔn)考察模型在開放域?qū)υ挕D像細(xì)節(jié)描述和復(fù)雜推理方面的表現(xiàn),并使用GPT-4進(jìn)行評(píng)分。

可以觀察到,VisCPM-Chat在不使用任何中文圖文對(duì)預(yù)訓(xùn)練數(shù)據(jù)的情況下,在中文多模態(tài)能力上取得了最好的平均性能,并且在一般領(lǐng)域?qū)υ捄蛷?fù)雜推理中表現(xiàn)良好,同時(shí)也表現(xiàn)出了良好的英語多模態(tài)能力。

在上述平衡的中英雙語能力(VisCPM-Chat-balance)的基礎(chǔ)上,我們?cè)陬A(yù)訓(xùn)練階段額外添加了20M個(gè)清洗后的原生中文圖文對(duì)和120M個(gè)翻譯成中文的圖文對(duì),可以實(shí)現(xiàn)多語言Modal能力的進(jìn)一步增強(qiáng)(VisCPM-Chat-zhplus)。

VisCPM-Chat展示了令人印象深刻的圖像理解能力,并且能夠在對(duì)話中運(yùn)用世界知識(shí)和常識(shí)知識(shí)。例如下圖中,VisCPM可以識(shí)別染色的地圖和肖像,并正確理解染色所代表的不同含義。此外,VisCPM-Chat也具有良好的中國特色。比如可以用李白的詩來描述和解讀黃河的景象。

漢英雙語學(xué)生圖模型

VisCPM-繪制

VisCPM-Paint使用CPM-Bee10B)作為文本編碼器,UNet作為圖像解碼器,通過擴(kuò)散模型訓(xùn)練目標(biāo)融合語言和視覺模型。在訓(xùn)練過程中,語言模型參數(shù)始終保持固定。我們使用StableDiffusion2.1UNet參數(shù)初始化視覺解碼器,并通過逐漸解凍關(guān)鍵橋接參數(shù)將其與語言模型融合。該模型在LAION2B英語文本到文本數(shù)據(jù)上進(jìn)行訓(xùn)練。

我們?cè)跇?biāo)準(zhǔn)圖像生成測試集MSCOCO上采樣了30000張圖像,并計(jì)算了常用的評(píng)價(jià)圖像生成指標(biāo)FIDFréchetInceptionDistance)來評(píng)價(jià)生成圖像的質(zhì)量。與VisCPM類似,我們發(fā)現(xiàn)得益于CPM-Bee的雙語能力,VisCPM-Paint可以僅通過英文圖像-文本對(duì)進(jìn)行訓(xùn)練,并泛化以實(shí)現(xiàn)良好的中文文本到圖像生成能力,達(dá)到了最佳效果中國開源模型。在中英文平衡能力(VisCPM-Paint-balance)的基礎(chǔ)上,進(jìn)一步添加20M清洗后的原生中文圖文數(shù)據(jù)和120M翻譯成中文的圖文數(shù)據(jù),實(shí)現(xiàn)了中文文本到圖像的生成能力。模型可以得到進(jìn)一步的提升(VisCPM-Paint-zhplus)。

為了促進(jìn)多模態(tài)大模型開源社區(qū)及相關(guān)研究領(lǐng)域的發(fā)展,我們免費(fèi)開源VisCPM系列的所有模型,歡迎個(gè)人和研究用途。未來我們還將把VisCPM集成到huggingface代碼框架中,并逐步完善安全模型、支持快速網(wǎng)頁部署、支持模型量化功能、支持模型微調(diào)等功能,歡迎繼續(xù)關(guān)注。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
清華系面壁智能開源中文多模態(tài)大模型VisCPM :支持對(duì)話文圖雙向生成,吟詩作畫能力驚艷
今天探討一下VisCPM這個(gè)多語言多模態(tài)大模型
GPT4多模態(tài)預(yù)期落空 關(guān)于AIGC還有什么值得暢想?
一次性搞懂什么是AIGC?。ㄒ黄恼?2個(gè)基本概念)
中金 | AI十年展望(五):從ChatGPT到通用智能,新長征上的新變化
LVS2023 | 從 AIGC 到 MMLM
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服