昨天晚上,OpenAI 的主要競爭對手之一 Anthropic 正式推出了 Claude 3 系列模型。該系列包括三種最先進的型號:Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。不同的型號擁有不同的性能,允許用戶為其特定應(yīng)用選擇智能、速度和成本的最佳平衡。
更重要的是,Claude 3系列模型在多模態(tài)和語言能力等方面都表現(xiàn)出了超越GPT-4的能力。用Anthropic的話說,Claude 3系列模型在推理、數(shù)學、編碼、多語言理解和視覺方面,都樹立了新的行業(yè)基準。
Claude 3系列模型的推出,意味著Anthropic正在動搖此前以O(shè)penAl主導的AI壓制鏈。換言之,OpenAl急需發(fā)布新的模型,再次宣告其在AI領(lǐng)域的絕對優(yōu)勢,重演一次Sora打壓Gemini 1.5的故事。
/ 01 / 全球最強的大模型來了
根據(jù)Anthropic的說法,作為旗艦級別的Opus模型,展現(xiàn)出現(xiàn)了不俗的理解和表達能力。
從官方發(fā)布的成績單來看,在知識測試 MMLU、推理測試 GPQA、基礎(chǔ)數(shù)學測試 GSM8K 等一系列基準測試中,Claude 3 Opus 模型展現(xiàn)了卓越的性能,其每一項得分都全面超越了 GPT-4 以及 Gemini 1.0 Ultra。
除了智能能力提升外,Claude 3還擁有強大的視覺能力。Claude 3 型號具有與其他領(lǐng)先型號相當?shù)膹碗s視覺功能,可以處理各種視覺格式,包括照片、圖表、圖形和技術(shù)圖表。
響應(yīng)速度方面,Claude 3 模型可以支持實時客戶聊天、自動完成和數(shù)據(jù)提取任務(wù),這些任務(wù)的反映必須立即且實時。其中,作為智能類別市場上速度最快且最具成本效益的型號,Haiku可以在不到三秒的時間內(nèi)閱讀 arXiv 上包含圖表和圖形的信息和數(shù)據(jù)密集的研究論文(約 10k 代幣)。
對于絕大多數(shù)工作負載,Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。它擅長執(zhí)行需要快速響應(yīng)的任務(wù),例如知識檢索或銷售自動化。Opus 的速度與 Claude 2 和 2.1 相似,但智能水平更高。
同時,Claude 3還對此前用戶詬病較多的拒絕指令、準確性等問題做出了改善。
與前幾代模型相比,Opus、Sonnet 和 Haiku 拒絕回答接近系統(tǒng)護欄的提示的可能性明顯降低。如下所示,Claude 3 模型對請求表現(xiàn)出更細致的理解,能夠識別真正的傷害,并且拒絕回答無害提示的頻率要少得多。
而為了提高模型回答的準確性,Anthropic使用了大量復雜的事實問題來針對當前模型中已知的弱點。Claude 3會將答案分為正確答案、錯誤答案(或幻覺)和承認不確定性,其中模型表示它不知道答案,而不是提供不正確的信息。與 Claude 2.1 相比,Opus在這些具有挑戰(zhàn)性的開放式問題上的準確性(或正確答案)提高了一倍,同時也減少了錯誤答案的水平。
除了產(chǎn)生更值得信賴的回復之外,Anthropic很快還將在 Claude 3 模型中啟用引用,以便他們可以指向參考材料中的精確句子來驗證他們的答案。
上下文長度方面,Claude 3系列的3個模型,都將至少支持20萬token的上下文窗口。而且,這三個模型都能處理超過100萬token的輸入,Anthropic考慮為需要更大上下文窗口的特定客戶開放這個功能。
在200Ktoken的「大海撈針」(NIAH)測試中,Claude 3 Opus準確率超過99%。它甚至還能識別出測試本身的局限,比如發(fā)現(xiàn)某些「目標」句子明顯是后來人為添加進原始文本的。
在提升模型能力的同時,Claude 3模型系列兼顧了模型的安全性和可靠性,依然嚴格遵循人工智能安全等級 2(ASL-2)的標準。這是一個用于評估和分類人工智能系統(tǒng)潛在風險的等級體系中的一個級別。
ASL-2通常意味著該級別的AI系統(tǒng)具有中等的潛在風險,需要采取一定的安全措施來確保其安全運行,但這些風險是可控的,并且系統(tǒng)在大多數(shù)情況下不會對人類或環(huán)境構(gòu)成嚴重威脅。
/ 02 / Claude 3與GPT-4各有千秋
在Claude 3模型發(fā)布的第一時間,網(wǎng)友@op7418就測試了Claude 3,并與GPT-4做了對比。測試主要有三個:
首先,網(wǎng)友拿Claude 3 Opus嘗試了一下復雜英文內(nèi)容的翻譯。結(jié)論是,Claude 比GPT-4做的好,它會主動對沒有排版的內(nèi)容進行分段和排版時其更加的易讀。之前GPT-4從來沒有主動進行過這種操作,翻譯結(jié)果也比GPT-4更加順暢。
其次,該網(wǎng)友用一個樣式比較復雜的設(shè)計稿組件截圖讓Claude 3 Opus還原,在其強調(diào)了需要還原樣式之后,它對樣式細節(jié)處理的非常好,相當接近設(shè)計稿了,GPT-4之前一直搞不定設(shè)計稿細節(jié)。
最后,網(wǎng)友又考驗了Claude 3 Opus在多模態(tài)能力,他找了一個論文讓模型解讀,模型給出了清晰的分析。但相比GPT-4,Opus在信息豐富度上稍落下風。
與此同時,Anthropic的兩位工程師Emmanuel Ameisen和Erik Schluntz也用Opus進行了視頻轉(zhuǎn)文章測試,表示結(jié)果非常驚艷。
他們首先將大神Andrej Karpathy一則2小時13分鐘科普視頻的原始字幕、每5秒間隔拍攝的截圖、以及兩張體現(xiàn)Andrej寫作風格的博客和筆記截圖投喂給Opus,并給出了一些復雜的指令,包括:直接編寫HTML、過濾掉不相關(guān)的屏幕截圖、如果圖像中的代碼示例包含完整的示例,請轉(zhuǎn)錄它們。
基于所有這些指令,Opus制作出了一篇出色的格式化博客文章。Emmanuel稱“輸出文檔可讀性強、清晰明了,比我之前從任何大型語言模型得到的成果要好”。
不僅能力上與GPT-4更有千秋,Claude 3模型的定價與其形成明顯的差異化。其中,Opus定價高于GPT-Turbo,而Haiku模型的定價明顯低于GPT-3.5。
/ 03 / Anthropic打破AI打壓鏈
Claude 3 系列模型的發(fā)布,意味著在今年以來不到三個月的時間里,除了Meta外,國外主流的大模型玩家都發(fā)布了自己的最新模型產(chǎn)品。
2月16日大年初七,谷歌放出其大模型核彈——Gemini 1.5,并將上下文窗口長度擴展到100萬個tokens。Gemini 1.5 Pro可一次處理1小時的視頻、11小時的音頻、超過3萬行代碼或超過70萬字的代碼庫,向還沒發(fā)布的GPT-5發(fā)起挑戰(zhàn)。
隨后OpenAI發(fā)布文生視頻大模型Sora,引爆了整個AI界,一時風頭無二。各家大模型公司紛紛拿出自己的最新成果:
谷歌突然發(fā)布開源模型;被稱為“法國版 OpenAI”的Mistral AI,發(fā)布了其最新的頂級文本生成模型 Mistral Large;到了現(xiàn)在,Anthropic 又推出了 Claude 3 系列模型。
全球模型廠商如此頻繁地發(fā)布模型,揭示了一個事實:大模型領(lǐng)域的競爭正在被提高到一個新的高度。
根據(jù)張俊林說法,當下大模型巨頭混戰(zhàn)已經(jīng)形成了打壓鏈:OpenAl→Google &Anthropic & Mistral->Meta→其它大模型公司。OpenAl處于鏈條頂端,主要打壓有潛力追上它的競爭對手:谷歌和Anthropic,Mistral估計也正在被列入OpenAl的打壓列表中。
簡單來說,OpenAl需要通過新模型,來宣告其在AI領(lǐng)域的絕對優(yōu)勢,并打壓其他廠商。而其他大模型廠商則需要通過模型產(chǎn)品,不斷證明自己能夠跟隨且不斷縮小與OpenAl差距。
22年底發(fā)布的ChatGPT就是臨時趕工出來打壓Anthropic的Claude。到了現(xiàn)在,OpenAI的的文生視頻大模型Sora又把谷歌的Gemini 1.5的風頭全都搶走了。
此前市場普遍猜測,OpenAl應(yīng)該儲備了一個用于打壓對手的技術(shù)儲備庫,即使做得差不多了也隱而不發(fā),專等競爭對手發(fā)布新產(chǎn)品的時候扔出來,以形成宣傳優(yōu)勢,如果OpenAl判斷對手的產(chǎn)品對自己的威脅越強,就越可能把技術(shù)儲備庫里最強的扔出來。
隨著Anthropic 發(fā)布Claude 3 系列模型,意味著上述的打壓鏈正在被打破,也將迫使OpenAl改變新產(chǎn)品發(fā)布的節(jié)奏。接下來,OpenAl會給我們帶來怎樣的驚喜,可以一起拭目以待。
聯(lián)系客服