鳳凰網(wǎng)科技 《新視界》出品
從卷參數(shù)、卷文本長(zhǎng)度再到開(kāi)卷多模態(tài),國(guó)產(chǎn)大模型的角逐賽打的愈發(fā)激烈。
特別是2024年初以來(lái),“長(zhǎng)文本”悄然走入大眾視野,在眾多晦澀技術(shù)用詞之外,讓不少用戶眼前一亮。
今年3月,月之暗面的Kimi智能助手宣布可支持200萬(wàn)字上下文,緊隨其后,通義千問(wèn)免費(fèi)開(kāi)放1000萬(wàn)字的長(zhǎng)文檔處理功能;4月,訊飛星火也可支持長(zhǎng)文本、長(zhǎng)圖文、長(zhǎng)語(yǔ)音,甚至還能進(jìn)行超擬人語(yǔ)音對(duì)話、一句話聲音復(fù)刻。5月14日凌晨,OpenAI推出最新旗艦大模型GPT-4o,能夠?qū)ξ谋尽⒁纛l、圖像的任意組合作為輸入,并生成文本、音頻和圖像輸出。
大模型能力競(jìng)爭(zhēng)來(lái)到了新的水平線。
不過(guò),不論是模型參數(shù),還是長(zhǎng)文本能力,都并非以數(shù)字取勝。簡(jiǎn)言之,大模型并非參數(shù)越大越好用,文本也并非越長(zhǎng),效果就越好。
大模型到底好不好用,長(zhǎng)文本的價(jià)值究竟幾何?為了解答這些疑問(wèn),鳳凰網(wǎng)科技對(duì)多款國(guó)產(chǎn)大模型進(jìn)行了實(shí)測(cè),橫向比較了Kimi、文心一言3.5、通義千問(wèn)、訊飛星火3.5、智譜清言與商湯商量共6款國(guó)產(chǎn)大模型,以日常合同、保險(xiǎn)賠付、學(xué)習(xí)輔導(dǎo)、會(huì)議資料整理與日常生活等垂直應(yīng)用行業(yè)為具體案例,呈現(xiàn)6大國(guó)產(chǎn)大模型的差異之處。
01
長(zhǎng)文本,好用還是雞肋?
起初將長(zhǎng)文本概念帶火的正是月之暗面,其旗下的Kimi智能助手主打的就是長(zhǎng)文本。
在月之暗面創(chuàng)始人楊植麟看來(lái),通往通用人工智能(AGI)之路,無(wú)損的長(zhǎng)上下文將會(huì)是一個(gè)很關(guān)鍵的基礎(chǔ)技術(shù)。
目前,Kimi支持200萬(wàn)字超長(zhǎng)無(wú)損上下文,其相關(guān)負(fù)責(zé)人表示,長(zhǎng)文本可進(jìn)一步幫助打開(kāi)對(duì)AI應(yīng)用場(chǎng)景的想象力,包括完整代碼庫(kù)分析理解、可自主幫人類完成多步驟復(fù)雜任務(wù)的智能體Agent、不會(huì)遺忘關(guān)鍵信息的終身助理、真正統(tǒng)一架構(gòu)的多模態(tài)模型等。
當(dāng)然,理論說(shuō)明并不直觀,既然Kimi號(hào)稱有超強(qiáng)長(zhǎng)文本能力,我們就來(lái)橫向?qū)Ρ认拢匀粘:贤?、保險(xiǎn)賠付、日常會(huì)議等為例,Kimi與文心一言、通義千問(wèn)、訊飛星火、商湯商量、智譜清言的差別所在。
● 長(zhǎng)文本識(shí)別及篩選能力實(shí)測(cè):
我們?cè)谌粘I钪杏蟹浅6嗪贤褂玫膱?chǎng)景,而快速閱讀字?jǐn)?shù)繁多的合同、整理要點(diǎn)是普遍痛點(diǎn),我們以房屋租賃合同為例,測(cè)試了以上幾款產(chǎn)品在處理長(zhǎng)文本上的能力。得到的結(jié)果如下:
Kimi的回答詳盡且條理清晰,重點(diǎn)信息也做了突出顯示,把注意事項(xiàng)一一列舉了出來(lái)。
訊飛星火的總結(jié)同樣對(duì)要點(diǎn)進(jìn)行了提煉,并一一列舉了注意事項(xiàng)。
通義千問(wèn)的列舉詳盡,也對(duì)重點(diǎn)內(nèi)容進(jìn)行了標(biāo)注。
而文心一言的表現(xiàn)就略顯差一些了,邏輯性不強(qiáng),對(duì)信息的提取不夠凝練。
智譜清言同樣交出了一份合格的回答,涵蓋了核心重點(diǎn)內(nèi)容。
商湯商量分為對(duì)話大模型和文檔大模型,合同需要發(fā)給文檔大模型處理,兩個(gè)模型入口可能對(duì)用戶來(lái)說(shuō)不是很方便,在處理結(jié)果上,商湯大模型給出的回答也較為全面。
● 長(zhǎng)文本問(wèn)答能力實(shí)測(cè):
我們以汽車出險(xiǎn)賠付為例,參照平安保險(xiǎn)機(jī)動(dòng)車商業(yè)保險(xiǎn)條款,了解事故發(fā)生后我們?cè)撊绾芜M(jìn)行保險(xiǎn)理賠。
Kimi的回答依舊條理清晰,可行性較高,基本上解決了機(jī)動(dòng)車出現(xiàn)事故后該具體如何操作問(wèn)題。
訊飛星火的回答同樣邏輯清晰,雖沒(méi)有Kimi的解答那么細(xì),但仍舊全盤列出了現(xiàn)場(chǎng)處理要點(diǎn)以及注意事項(xiàng)。
文心一言的回復(fù)相對(duì)而言比較泛泛而談,無(wú)法一步到位直接解決當(dāng)下的問(wèn)題。
通義千問(wèn)的回答同樣有著不錯(cuò)的實(shí)用性,基本涵蓋了事故發(fā)生后需要進(jìn)行的操作。
商湯商量的回答較為全面,依然需要在文檔大模型中單獨(dú)使用,操作上略有不便。
智譜清言在此問(wèn)題上的回答雖然相對(duì)簡(jiǎn)略,但同樣涵蓋了核心步驟。
● 長(zhǎng)文本生成能力實(shí)測(cè):
在具體的應(yīng)用場(chǎng)景中,長(zhǎng)文本除了識(shí)別與歸納,最核心的功能,就是生成功能了。這里我們?cè)O(shè)定需要這些大模型生成一份人工智能產(chǎn)業(yè)報(bào)告(2023)。
在長(zhǎng)文本生成方面,Kimi仍舊呈現(xiàn)出了顯著的專業(yè)性,不僅內(nèi)容探討方向更加豐富,且專業(yè)內(nèi)容扎實(shí),實(shí)用度高,幾乎可直接拿來(lái)做報(bào)告的初步提綱。
訊飛星火的文本生成能力同樣可圈可點(diǎn),雖在條理性上略遜Kimi一籌,但展現(xiàn)出了更強(qiáng)的文采能力。
相比較之下,文心一言的學(xué)術(shù)性能力就稍遜一籌,產(chǎn)出的內(nèi)容較為簡(jiǎn)單、基礎(chǔ),很難直接使用。
通義千問(wèn)的回答稍微有一點(diǎn)文不對(duì)題,雖然給出了一張封面,但具體內(nèi)容可用性較弱。
商湯商量生成的報(bào)告,在結(jié)構(gòu)上比較完整,并涵蓋了當(dāng)前領(lǐng)域中的專業(yè)術(shù)語(yǔ)。
在長(zhǎng)文本生成方面,智譜清言的回答中規(guī)中矩,有簡(jiǎn)單的基礎(chǔ)信息,但還是專業(yè)度不足。
02
長(zhǎng)圖文、長(zhǎng)語(yǔ)音,誰(shuí)在搶跑多模態(tài)大模型
在大模型參數(shù)已經(jīng)卷無(wú)可卷的當(dāng)下,越來(lái)越多企業(yè)正在從細(xì)分方向突出重圍,以讓人們感覺(jué)大模型的好用之處。除了前文提及的長(zhǎng)文本,多模態(tài)也是一個(gè)關(guān)鍵的研究方向。
對(duì)于人來(lái)說(shuō),多模態(tài)是一種十分自然的交互模式。但對(duì)于計(jì)算機(jī)來(lái)說(shuō),多模態(tài)卻是極其復(fù)雜且困難的。
例如,隨著CNN技術(shù)的突破,一度帶動(dòng)了人臉識(shí)別、視頻識(shí)別技術(shù)的廣泛應(yīng)用,準(zhǔn)確率可以遠(yuǎn)超人類,但該項(xiàng)技術(shù)卻難以在文本理解方面取得顯著的突破。直到2023年,大語(yǔ)言模型掀起了新一輪技術(shù)迭代,典型代表如ChatGPT,才使得AIGC再度向前邁進(jìn)了一步,但以上多項(xiàng)技術(shù)突破,仍舊是以單模態(tài)見(jiàn)長(zhǎng)。
所以可以認(rèn)為,當(dāng)下能夠處理更多模態(tài)信息的如文字、圖像、視頻、語(yǔ)音等多模態(tài)大模型,可以更加靈活自如的與人們交流互動(dòng),也就更加接近真正意義上的AGI。
4月底訊飛星火3.5的更新,就在努力朝這一方向演進(jìn)。不久前商湯日日新5.0也剛剛更新,提升的核心指標(biāo)也包括多模態(tài)能力,號(hào)稱圖文感知能力達(dá)到全球領(lǐng)先水平。通義千問(wèn)與文心一言目前也均有多模態(tài)模型。Kimi方面,實(shí)際上在Sora于今年初驚艷亮相之后,其內(nèi)部就在推進(jìn)多模態(tài)模型的研發(fā),其聯(lián)合創(chuàng)始人周昕宇表示,預(yù)計(jì)2024年會(huì)推出多模態(tài)模型及產(chǎn)品,但截至目前,相關(guān)產(chǎn)品仍未面世,可以說(shuō),在多模態(tài)能力方面,Kimi已經(jīng)晚了一步。
鳳凰網(wǎng)科技也就目前已經(jīng)發(fā)布的幾款大模型的多模態(tài)處理能力,進(jìn)行了綜合實(shí)測(cè)。
比如我們上傳了一張小米su7發(fā)布會(huì)的PPT實(shí)拍圖,讓大模型對(duì)該頁(yè)P(yáng)PT進(jìn)行重點(diǎn)總結(jié)。
訊飛星火準(zhǔn)確的識(shí)別出了該張PPT中的重點(diǎn)信息,與此同時(shí),對(duì)部分信息進(jìn)行了推理,在多模態(tài)能力上呈現(xiàn)出了部分優(yōu)勢(shì)。
智譜也準(zhǔn)確識(shí)別出PPT的信息,并在最后進(jìn)行總結(jié)。
商湯商量識(shí)別出了PPT中的主要文字信息,對(duì)于圖片的識(shí)別能力稍遜色了一點(diǎn)點(diǎn)。
通義千問(wèn)和商湯的表現(xiàn)相近,整理了圖片中的文字內(nèi)容,但分析和歸類能力較弱。
文心一言涉及了部分推理演繹,不過(guò)理解有部分錯(cuò)誤,比如將800cltc續(xù)航里程和時(shí)速搞混了。
再比如我們?cè)谌粘I钪杏蟹浅6噍o導(dǎo)孩子學(xué)習(xí)的場(chǎng)景,我們截取了一張初中數(shù)學(xué)題的圖片,交給大模型進(jìn)行識(shí)別并給出解題思路。
商湯商量識(shí)別出了文字內(nèi)容,并進(jìn)行了解題,但解題思路有誤,把長(zhǎng)方形的長(zhǎng)和寬搞錯(cuò)了,直接給出了錯(cuò)誤答案。
訊飛星火不僅精準(zhǔn)的識(shí)別出了圖片中的文字,并給出了十分精準(zhǔn)且正確的解題思路。如果在日常輔導(dǎo)孩子學(xué)習(xí)的場(chǎng)景下,非常實(shí)用。
通義千問(wèn)、文心一言和智譜清言的解題思路基本相近,但邏輯上不是特別清晰,對(duì)于輔導(dǎo)來(lái)說(shuō),比較難教給孩子清晰、有邏輯的解題思路。
同樣在圖文識(shí)別方面,我們上傳了2023年世界人工智能大會(huì)的議程,希望大模型能幫忙整理一份重點(diǎn)。
文心一言識(shí)別的很全面細(xì)致,但歸納重點(diǎn)的能力稍遜。
訊飛星火的內(nèi)容識(shí)別凝練且主次分明,看起來(lái)更加方便。
通義千問(wèn)的信息提取較為全面,但缺乏對(duì)重要信息的篩選和過(guò)濾。
商湯商量則將圖片中的所有文字進(jìn)行了提取,基本是原封不動(dòng)的進(jìn)行了復(fù)述。
智譜清言的識(shí)別最為豐富,對(duì)論壇信息進(jìn)行了突出顯示。
在音視頻識(shí)別層面,目前業(yè)內(nèi)布局尚不多:
我們上傳了2020東京奧運(yùn)會(huì),乒乓球男單決賽樊振東與馬龍對(duì)決的視頻片段,讓大模型為我們整理下視頻的核心內(nèi)容:
訊飛星火對(duì)該視頻內(nèi)容進(jìn)行了簡(jiǎn)要解析,并復(fù)述了該段落的核心內(nèi)容。
智譜清言則直接表示無(wú)視頻分析能力。
實(shí)際上,目前文心一言、通義千問(wèn)、商湯商量等均不支持音視頻的上傳與解析。
在音視頻這類十分多見(jiàn)的應(yīng)用場(chǎng)景中,訊飛星火已經(jīng)有了顯著的領(lǐng)先性。
03
基因雖不同,但好用才是正義
當(dāng)下,越來(lái)越多人開(kāi)始追求大模型實(shí)用與否,尤其是在學(xué)習(xí)、辦公、日常生活等常見(jiàn)場(chǎng)景下的具體應(yīng)用。
可以看到,在長(zhǎng)文本、長(zhǎng)圖文與長(zhǎng)語(yǔ)音方面,幾款國(guó)產(chǎn)大模型已經(jīng)基本上有了顯著差異,比如Kimi的確在長(zhǎng)文本方面展現(xiàn)出了較強(qiáng)的能力,但遺憾的是,多模態(tài)能力的缺失,讓Kimi的使用場(chǎng)景有顯著的短板。
此外,加強(qiáng)后的商湯商量、訊飛星火,在多模態(tài)上已經(jīng)比通義千問(wèn)、文心一言的表現(xiàn)更亮眼一些,尤其是訊飛星火,本就有更強(qiáng)的邏輯推理能力和數(shù)學(xué)能力,加上多模態(tài)能力的提升,除了準(zhǔn)確的識(shí)別文字,還能對(duì)音視頻文件進(jìn)行處理,應(yīng)用場(chǎng)景更為廣泛。
經(jīng)過(guò)長(zhǎng)文本識(shí)別與生成能力、多模態(tài)輸入和識(shí)別能力、數(shù)理能力等幾個(gè)維度,得出測(cè)試結(jié)果如下:
圖|鳳凰網(wǎng)科技作者制作(注:白色星星為半顆星)
隨著大模型的競(jìng)爭(zhēng)進(jìn)入新一層,各家已不再盲目追求參數(shù),對(duì)于許多人而言,大模型之爭(zhēng),歸根結(jié)底是要回歸可用性,不然就是對(duì)算力資源的極大浪費(fèi)。
當(dāng)下,不管是大人輔導(dǎo)小孩學(xué)習(xí)、打工人整理會(huì)議記錄、還是學(xué)生黨整理學(xué)習(xí)筆記等應(yīng)用場(chǎng)景,大模型正與人們的生活產(chǎn)生越來(lái)越多聯(lián)系,而告別無(wú)意義的內(nèi)卷,為人們創(chuàng)造更多實(shí)用價(jià)值,才是大模型技術(shù)發(fā)展所追求的目標(biāo)
聯(lián)系客服