【新智元導(dǎo)讀】GPT-4 32K還沒(méi)用上,ChatGPT最強(qiáng)競(jìng)品已經(jīng)秒讀「了不起的蓋茨比」了。
在GPT-4 32K還在內(nèi)測(cè)階段,OpenAI的勁敵直接把上下文長(zhǎng)度打了上去。就在今天,初創(chuàng)公司Anthropic宣布,Claude已經(jīng)能夠支持100K的上下文token長(zhǎng)度,也就是大約75,000個(gè)單詞。一般人用時(shí)大約5個(gè)小時(shí)讀完等量?jī)?nèi)容后,還得用更多的時(shí)間去消化、記憶、分析。把「了不起的蓋茨比」整本書(shū)扔給它,大約有72k token,并將其中的一句話進(jìn)行改動(dòng):Mr. Carraway是一個(gè)在Anthropic從事機(jī)器學(xué)習(xí)工具的軟件工程師。
你敢相信?Claude僅花了22秒,就把改動(dòng)的這句話找出來(lái)了。眾路網(wǎng)友紛紛表示,有了Claude 100K,手里的GPT-4 32K已經(jīng)不香了。
前段時(shí)間,在OpenAI的開(kāi)發(fā)者社區(qū)中,許多人討論GPT-4 32K正在推出。而且,不少GPT-4的用戶已經(jīng)可以在自己的PlayGround上看到GPT-4 32k的選項(xiàng)。已經(jīng)解鎖這一版本的網(wǎng)友,讓其訪問(wèn)了數(shù)百個(gè)來(lái)自卸載HyperWrite用戶的數(shù)據(jù)點(diǎn),GPT-4便準(zhǔn)確地告訴他接下來(lái)該做怎樣的改進(jìn)。他稱贊道,GPT-4 32k是世界上最好的產(chǎn)品經(jīng)理。32k都這么厲害了,那么,有了100K豈不更強(qiáng)了。顯然,OpenAI的強(qiáng)大對(duì)手Anthropic最先占據(jù)了優(yōu)勢(shì)。100K token的上下文長(zhǎng)度,意味著,你可以在Claude上傳數(shù)百頁(yè)的文本分析。并且對(duì)話的持續(xù)時(shí)間也被大大拉長(zhǎng),延長(zhǎng)到數(shù)小時(shí),甚至數(shù)天。當(dāng)然,除了長(zhǎng)文本閱讀之外,Claude還可以從文檔中快速檢索出你所需的信息。你可以把多個(gè)文檔,甚至一本書(shū)的內(nèi)容當(dāng)作prompt,然后提問(wèn)。以后遇到論文,甚至巨長(zhǎng)篇幅的直接讓Claude總結(jié)吧,這簡(jiǎn)直就是啃論文后輩們的福音。這種綜合性的問(wèn)題通常需要對(duì)文本中很多部分的內(nèi)容有一個(gè)全面的認(rèn)識(shí),而在處理這種問(wèn)題上,Claude可以說(shuō)要比基于向量搜索的辦法要強(qiáng)。Claude還可以是你的「代碼伴侶」,分分鐘就能做個(gè)演示。比如,上傳一個(gè)240頁(yè)的Langchain API文檔,讓它基于這個(gè)文檔,用Anthropic的語(yǔ)言模型做一個(gè)Langchain的簡(jiǎn)單演示。還可以把85頁(yè)的公司年度報(bào)表(10k)喂給Claude。然后,要求突出對(duì)潛在投資者最重要的項(xiàng)目,并解釋其重要性。此外,Claude 100k還能處理大約6小時(shí)的音頻量。比如說(shuō),AssemblyAI把一個(gè)卡馬克的播客的內(nèi)容轉(zhuǎn)錄成了58k個(gè)token量的文本,然后用Claude進(jìn)行了總結(jié)和問(wèn)答。最后,Claude總結(jié)了一下自己能干的事,覆蓋可以說(shuō)是非常全面了。- 理解、總結(jié)和解釋密集的文件,如財(cái)務(wù)報(bào)表、研究論文等- 根據(jù)年報(bào)分析公司的戰(zhàn)略風(fēng)險(xiǎn)和機(jī)遇- 識(shí)別法律文件中的風(fēng)險(xiǎn)、主題和不同形式的爭(zhēng)論- 閱讀數(shù)百頁(yè)的開(kāi)發(fā)文檔,回答技術(shù)問(wèn)題- 通過(guò)將整個(gè)代碼庫(kù)放入上下文中,并智能地構(gòu)建或修改它來(lái)快速制作原型當(dāng)然,現(xiàn)在,Anthropic表示100K上下文還是一個(gè)測(cè)試版功能,在此期間將按照標(biāo)準(zhǔn)API定價(jià)來(lái)收費(fèi)。Claude Instant
Prompt:$0.00163 / 1K tokens
Completion:$0.00551 / 1K tokensClaude-v1
Prompt:$0.01102 / 1K tokens
Completion:$0.03268 / 1K tokens比起OpenAI,這價(jià)格已經(jīng)非常親民了。據(jù)OpenAI官網(wǎng),GPT-4 32k的Prompt需要$0.06,Completion需要$0.12。相當(dāng)于,你得花5-6倍的價(jià)格給模型prompt。網(wǎng)友稱,Claude 100k比GPT-4 32k更快速、更便宜。
這么重磅級(jí)的更新,一定少不了網(wǎng)友的體驗(yàn)。有網(wǎng)友稱100k簡(jiǎn)直難以置信,能夠處理多篇完整的論文,部分完整的代碼庫(kù),甚至一本250頁(yè)的小說(shuō)。順便提一句,許多網(wǎng)友最先用Claude測(cè)試了一番,發(fā)現(xiàn)效果還不錯(cuò)。最初,100K僅限在API中,Claude應(yīng)用的默認(rèn)模型仍然是9K。但很快,Claude應(yīng)用界面也支持100K了。
一位網(wǎng)友用100頁(yè)的「GPT-4技術(shù)報(bào)告」測(cè)試,結(jié)果只能用amazing來(lái)形容。還有人直接把太宰治的「人間失格」喂給了Claude,并用英文問(wèn)故事中情節(jié),完全給出了準(zhǔn)確的回答。同時(shí),這位網(wǎng)友把自己開(kāi)發(fā)的Toolformer Zero完整源代碼丟給它,Claude精準(zhǔn)描述出這是用來(lái)做什么。并且,Claude還稱贊了代碼的模塊化,提供增加一些單元測(cè)試的建議。把「貝奧武夫」詩(shī)扔進(jìn)去,分析下貝奧武夫這個(gè)人物性格,也是非常準(zhǔn)確。英偉達(dá)科學(xué)家Jim Fan表示,這是Anthropic拋出的殺手锏。未來(lái)在上下文長(zhǎng)度的軍備賽正快速升溫。對(duì)于支持100k的意義,網(wǎng)友稱,泰褲辣!這很好地展示了為什么長(zhǎng)文本對(duì)LLM很重要。Claude-100K的誕生,讓AnthropicAI正式成為OpenAI的真正競(jìng)爭(zhēng)者。「許多人還在排隊(duì)等候32k的GPT-4。這次,Claude將上下文窗口擴(kuò)展到10萬(wàn)token,直接大幅躍升。這也意味著包括OpenAI、谷歌在內(nèi)的公司都要在這一領(lǐng)域競(jìng)爭(zhēng),這對(duì)用戶來(lái)說(shuō)是一個(gè)巨大的勝利?!?/span>還有網(wǎng)友感慨時(shí)代進(jìn)步太快了。谷歌宣布PaLM 2擅長(zhǎng)高級(jí)推理任務(wù)不到一天,而Anthropic的Claude現(xiàn)在可以在不到一分鐘的時(shí)間內(nèi)消化10萬(wàn)個(gè)token。人工智能的進(jìn)步確實(shí)令人矚目。不過(guò),如果你輸入的token少于9K,Antropic調(diào)用的似乎就是之前的模型了。過(guò)去幾年,斯坦福大學(xué)Hazy Research實(shí)驗(yàn)室一直在從事一項(xiàng)重要的工作,就是增加模型的序列長(zhǎng)度。在他們看來(lái),這將開(kāi)啟機(jī)器學(xué)習(xí)基礎(chǔ)模型的新時(shí)代。研究人員在22年提出的FlashAttention算法證明了32k可行性。就連Sam Altman稱我們要的是32k token。其實(shí),不僅是32k,現(xiàn)在100k都實(shí)現(xiàn)了,百萬(wàn)token也不遠(yuǎn)了。「絕對(duì)太野了!幾年后,支持100萬(wàn)的token上下文長(zhǎng)度會(huì)不會(huì)成為可能?」前段時(shí)間,來(lái)自DeepPavlov、AIRI、倫敦?cái)?shù)學(xué)科學(xué)研究所的研究人員發(fā)布了一篇技術(shù)報(bào)告,使用循環(huán)記憶Transformer(RMT)將BERT的有效上下文長(zhǎng)度提升到「前所未有的200萬(wàn)tokens」,同時(shí)保持了很高的記憶檢索準(zhǔn)確性。論文地址:https://arxiv.org/abs/2304.11062該方法可以存儲(chǔ)和處理局部和全局信息,并通過(guò)使用循環(huán)讓信息在輸入序列的各segment之間流動(dòng)。不過(guò),雖然RMT可以不增加內(nèi)存消耗,可以擴(kuò)展到近乎無(wú)限的序列長(zhǎng)度,但仍然存在RNN中的記憶衰減問(wèn)題,并且需要更長(zhǎng)的推理時(shí)間。實(shí)際上,RMT背后是一個(gè)全新的記憶機(jī)制。具體操作方法是,在不改變?cè)糡ransformer模型的前提下,通過(guò)在輸入或輸出序列中添加一個(gè)特殊的memory token,然后對(duì)模型進(jìn)行訓(xùn)練以控制記憶操作和序列表征處理。與Transformer-XL相比,RMT需要的內(nèi)存更少,并可以處理更長(zhǎng)序列的任務(wù)。當(dāng)然,在最終實(shí)現(xiàn)百萬(wàn)token之前,Claude 100k已經(jīng)是相當(dāng)大的起步了。https://www.anthropic.com/index/100k-context-windows
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。