国产精品乱码免费一区二区,国产精品乱码免费一区二区

最強大模型易主！模型性能超越GPT-4，Anthropic打破了OpenAI壓制鏈

2024.03.05 北京

昨天晚上，OpenAI 的主要競爭對手之一 Anthropic 正式推出了 Claude 3 系列模型。該系列包括三種最先進的型號：Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。不同的型號擁有不同的性能，允許用戶為其特定應(yīng)用選擇智能、速度和成本的最佳平衡。

更重要的是，Claude 3系列模型在多模態(tài)和語言能力等方面都表現(xiàn)出了超越GPT-4的能力。用Anthropic的話說，Claude 3系列模型在推理、數(shù)學、編碼、多語言理解和視覺方面，都樹立了新的行業(yè)基準。

Claude 3系列模型的推出，意味著Anthropic正在動搖此前以O(shè)penAl主導的AI壓制鏈。換言之，OpenAl急需發(fā)布新的模型，再次宣告其在AI領(lǐng)域的絕對優(yōu)勢，重演一次Sora打壓Gemini 1.5的故事。

/ 01 / 全球最強的大模型來了

根據(jù)Anthropic的說法，作為旗艦級別的Opus模型，展現(xiàn)出現(xiàn)了不俗的理解和表達能力。

從官方發(fā)布的成績單來看，在知識測試 MMLU、推理測試 GPQA、基礎(chǔ)數(shù)學測試 GSM8K 等一系列基準測試中，Claude 3 Opus 模型展現(xiàn)了卓越的性能，其每一項得分都全面超越了 GPT-4 以及 Gemini 1.0 Ultra。

除了智能能力提升外，Claude 3還擁有強大的視覺能力。Claude 3 型號具有與其他領(lǐng)先型號相當?shù)膹碗s視覺功能，可以處理各種視覺格式，包括照片、圖表、圖形和技術(shù)圖表。

響應(yīng)速度方面，Claude 3 模型可以支持實時客戶聊天、自動完成和數(shù)據(jù)提取任務(wù)，這些任務(wù)的反映必須立即且實時。其中，作為智能類別市場上速度最快且最具成本效益的型號，Haiku可以在不到三秒的時間內(nèi)閱讀 arXiv 上包含圖表和圖形的信息和數(shù)據(jù)密集的研究論文（約 10k 代幣）。

對于絕大多數(shù)工作負載，Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍，且智能水平更高。它擅長執(zhí)行需要快速響應(yīng)的任務(wù)，例如知識檢索或銷售自動化。Opus 的速度與 Claude 2 和 2.1 相似，但智能水平更高。

同時，Claude 3還對此前用戶詬病較多的拒絕指令、準確性等問題做出了改善。

與前幾代模型相比，Opus、Sonnet 和 Haiku 拒絕回答接近系統(tǒng)護欄的提示的可能性明顯降低。如下所示，Claude 3 模型對請求表現(xiàn)出更細致的理解，能夠識別真正的傷害，并且拒絕回答無害提示的頻率要少得多。

而為了提高模型回答的準確性，Anthropic使用了大量復雜的事實問題來針對當前模型中已知的弱點。Claude 3會將答案分為正確答案、錯誤答案（或幻覺）和承認不確定性，其中模型表示它不知道答案，而不是提供不正確的信息。與 Claude 2.1 相比，Opus在這些具有挑戰(zhàn)性的開放式問題上的準確性（或正確答案）提高了一倍，同時也減少了錯誤答案的水平。

除了產(chǎn)生更值得信賴的回復之外，Anthropic很快還將在 Claude 3 模型中啟用引用，以便他們可以指向參考材料中的精確句子來驗證他們的答案。

上下文長度方面，Claude 3系列的3個模型，都將至少支持20萬token的上下文窗口。而且，這三個模型都能處理超過100萬token的輸入，Anthropic考慮為需要更大上下文窗口的特定客戶開放這個功能。

在200Ktoken的「大海撈針」（NIAH）測試中，Claude 3 Opus準確率超過99%。它甚至還能識別出測試本身的局限，比如發(fā)現(xiàn)某些「目標」句子明顯是后來人為添加進原始文本的。

在提升模型能力的同時，Claude 3模型系列兼顧了模型的安全性和可靠性，依然嚴格遵循人工智能安全等級 2（ASL-2）的標準。這是一個用于評估和分類人工智能系統(tǒng)潛在風險的等級體系中的一個級別。

ASL-2通常意味著該級別的AI系統(tǒng)具有中等的潛在風險，需要采取一定的安全措施來確保其安全運行，但這些風險是可控的，并且系統(tǒng)在大多數(shù)情況下不會對人類或環(huán)境構(gòu)成嚴重威脅。

/ 02 / Claude 3與GPT-4各有千秋

在Claude 3模型發(fā)布的第一時間，網(wǎng)友@op7418就測試了Claude 3，并與GPT-4做了對比。測試主要有三個：

首先，網(wǎng)友拿Claude 3 Opus嘗試了一下復雜英文內(nèi)容的翻譯。結(jié)論是，Claude 比GPT-4做的好，它會主動對沒有排版的內(nèi)容進行分段和排版時其更加的易讀。之前GPT-4從來沒有主動進行過這種操作，翻譯結(jié)果也比GPT-4更加順暢。

其次，該網(wǎng)友用一個樣式比較復雜的設(shè)計稿組件截圖讓Claude 3 Opus還原，在其強調(diào)了需要還原樣式之后，它對樣式細節(jié)處理的非常好，相當接近設(shè)計稿了，GPT-4之前一直搞不定設(shè)計稿細節(jié)。

最后，網(wǎng)友又考驗了Claude 3 Opus在多模態(tài)能力，他找了一個論文讓模型解讀，模型給出了清晰的分析。但相比GPT-4，Opus在信息豐富度上稍落下風。

與此同時，Anthropic的兩位工程師Emmanuel Ameisen和Erik Schluntz也用Opus進行了視頻轉(zhuǎn)文章測試，表示結(jié)果非常驚艷。

他們首先將大神Andrej Karpathy一則2小時13分鐘科普視頻的原始字幕、每5秒間隔拍攝的截圖、以及兩張體現(xiàn)Andrej寫作風格的博客和筆記截圖投喂給Opus，并給出了一些復雜的指令，包括：直接編寫HTML、過濾掉不相關(guān)的屏幕截圖、如果圖像中的代碼示例包含完整的示例，請轉(zhuǎn)錄它們。

基于所有這些指令，Opus制作出了一篇出色的格式化博客文章。Emmanuel稱“輸出文檔可讀性強、清晰明了，比我之前從任何大型語言模型得到的成果要好”。

不僅能力上與GPT-4更有千秋，Claude 3模型的定價與其形成明顯的差異化。其中，Opus定價高于GPT-Turbo，而Haiku模型的定價明顯低于GPT-3.5。

/ 03 / Anthropic打破AI打壓鏈

Claude 3 系列模型的發(fā)布，意味著在今年以來不到三個月的時間里，除了Meta外，國外主流的大模型玩家都發(fā)布了自己的最新模型產(chǎn)品。

2月16日大年初七，谷歌放出其大模型核彈——Gemini 1.5，并將上下文窗口長度擴展到100萬個tokens。Gemini 1.5 Pro可一次處理1小時的視頻、11小時的音頻、超過3萬行代碼或超過70萬字的代碼庫，向還沒發(fā)布的GPT-5發(fā)起挑戰(zhàn)。

隨后OpenAI發(fā)布文生視頻大模型Sora，引爆了整個AI界，一時風頭無二。各家大模型公司紛紛拿出自己的最新成果：

谷歌突然發(fā)布開源模型；被稱為“法國版 OpenAI”的Mistral AI，發(fā)布了其最新的頂級文本生成模型 Mistral Large；到了現(xiàn)在，Anthropic 又推出了 Claude 3 系列模型。

全球模型廠商如此頻繁地發(fā)布模型，揭示了一個事實：大模型領(lǐng)域的競爭正在被提高到一個新的高度。

根據(jù)張俊林說法，當下大模型巨頭混戰(zhàn)已經(jīng)形成了打壓鏈：OpenAl→Google &Anthropic & Mistral->Meta→其它大模型公司。OpenAl處于鏈條頂端，主要打壓有潛力追上它的競爭對手：谷歌和Anthropic，Mistral估計也正在被列入OpenAl的打壓列表中。

簡單來說，OpenAl需要通過新模型，來宣告其在AI領(lǐng)域的絕對優(yōu)勢，并打壓其他廠商。而其他大模型廠商則需要通過模型產(chǎn)品，不斷證明自己能夠跟隨且不斷縮小與OpenAl差距。

22年底發(fā)布的ChatGPT就是臨時趕工出來打壓Anthropic的Claude。到了現(xiàn)在，OpenAI的的文生視頻大模型Sora又把谷歌的Gemini 1.5的風頭全都搶走了。

此前市場普遍猜測，OpenAl應(yīng)該儲備了一個用于打壓對手的技術(shù)儲備庫，即使做得差不多了也隱而不發(fā)，專等競爭對手發(fā)布新產(chǎn)品的時候扔出來，以形成宣傳優(yōu)勢，如果OpenAl判斷對手的產(chǎn)品對自己的威脅越強，就越可能把技術(shù)儲備庫里最強的扔出來。

隨著Anthropic 發(fā)布Claude 3 系列模型，意味著上述的打壓鏈正在被打破，也將迫使OpenAl改變新產(chǎn)品發(fā)布的節(jié)奏。接下來，OpenAl會給我們帶來怎樣的驚喜，可以一起拭目以待。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

海外生成式AI投資潮爆發(fā)！創(chuàng)企開年融資超7億美元，上市公司股價飆漲700%

一口氣看完《哈利波特》：AI大模型「量子速讀」，一分鐘抵人類五小時

一次10萬Token！GPT4最強對手史詩升級，百頁資料一分鐘總結(jié)完畢

不要只盯著ChatGPT了，盤點2023年全球十大大模型，僅開源占了半邊天！

這一周，全世界都興奮麻了

OpenAI、谷歌雙標玩得溜：訓練大模型用他人數(shù)據(jù)，卻決不允許自身數(shù)據(jù)外流

更多類似文章 >>

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区