九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
吳恩達(dá)最新演講:AI Agent驅(qū)動(dòng)下一個(gè)創(chuàng)新浪潮

在2024年Snowflake峰會(huì)開(kāi)發(fā)者日的Luminary演講中,Landing AI創(chuàng)始人兼CEO吳恩達(dá)詳細(xì)介紹了AI智能體工作流及其潛力。吳恩達(dá)認(rèn)為,AI智能體工作流可能比下一代基礎(chǔ)模型帶來(lái)更大的AI進(jìn)展。吳恩達(dá)在演講中重點(diǎn)講述了AI智能體工作流如何迭代地進(jìn)行任務(wù),從而比傳統(tǒng)的零樣本提示方式產(chǎn)生更優(yōu)質(zhì)的結(jié)果。

吳恩達(dá)還分享了Landing AI團(tuán)隊(duì)在視覺(jué)智能體方面的最新進(jìn)展,并展示了視覺(jué)智能體在復(fù)雜任務(wù)中的應(yīng)用,進(jìn)一步證明了智能體工作流的有效性和廣泛應(yīng)用前景,并就其局限性和未來(lái)發(fā)展方向進(jìn)行了分析和展望。他呼吁開(kāi)發(fā)者們關(guān)注和參與AI智能體技術(shù)的發(fā)展,共同推動(dòng)這一激動(dòng)人心的趨勢(shì)。

他表示,雖然目前技術(shù)依舊有缺陷,但AI智能體工作流已經(jīng)開(kāi)始從一種新奇的“玩具”過(guò)渡到真正的實(shí)用階段,未來(lái)必將為開(kāi)發(fā)者帶來(lái)前所未有的高效創(chuàng)新體驗(yàn)。吳恩達(dá)相信,通過(guò)開(kāi)源和社區(qū)合作,這些技術(shù)將不斷進(jìn)步,顯著提升開(kāi)發(fā)者的能力。

以下是演講內(nèi)容目錄:

01 AI智能體工作流

02 視覺(jué)智能體

03 視覺(jué)智能體當(dāng)前的技術(shù)不足

/ 01 / AI智能體工作流

因?yàn)檫@是一個(gè)開(kāi)發(fā)者大會(huì),我想借此機(jī)會(huì)和大家分享一些我對(duì)人工智能體 (AI agent) 感到興奮的事情。實(shí)際上,我將分享一些從未公開(kāi)過(guò)的新內(nèi)容。大家都知道人工智能代理,對(duì)吧?我們很多人習(xí)慣于使用大型語(yǔ)言模型進(jìn)行所謂的零樣本提示,這意味著讓它寫(xiě)一篇文章或者對(duì)提示做出回應(yīng)。這有點(diǎn)像你去找一個(gè)人,對(duì)他說(shuō),請(qǐng)你寫(xiě)一篇關(guān)于某個(gè)主題的文章,從頭到尾一次性寫(xiě)完,不允許使用退格鍵。盡管以這種方式寫(xiě)作是很困難的——我自己就不能這樣寫(xiě)——但大型語(yǔ)言模型表現(xiàn)得相當(dāng)不錯(cuò)。

相比之下,智能體工作流 (agentic workflow) 的工作流程要迭代得多。你可能會(huì)讓一個(gè)語(yǔ)言模型先寫(xiě)一個(gè)文章大綱,然后問(wèn)它是否需要進(jìn)行網(wǎng)絡(luò)搜索。如果需要,它會(huì)去網(wǎng)上搜索,獲取一些信息,然后寫(xiě)出初稿。然后再讀自己的初稿,看是否可以改進(jìn),之后再進(jìn)行修改。

所以,智能體的工作流程看起來(lái)更像這樣:模型可能會(huì)先思考一下,做一些研究,然后進(jìn)行修改,再做更多的思考。

這種迭代循環(huán)實(shí)際上會(huì)產(chǎn)生更好的最終產(chǎn)品。如果你考慮用代理來(lái)寫(xiě)代碼也是同樣的情況,今天我們往往讓一個(gè)模型直接寫(xiě)代碼,這就像讓一個(gè)開(kāi)發(fā)者從頭到尾一次性打出程序,并且運(yùn)行代碼,第一次和最后一次字符都是這樣,雖然這樣做效果也出奇的好。但是,代理的工作流程同樣可以使工作效果更好。

我的團(tuán)隊(duì)收集了一些數(shù)據(jù),這些數(shù)據(jù)基于一個(gè)叫做Human Eval的編碼基準(zhǔn),這是OpenAI幾年前發(fā)布的一個(gè)標(biāo)準(zhǔn)基準(zhǔn),里面有一些像這樣的編碼難題,比如給定一個(gè)非負(fù)整數(shù)數(shù)組,返回某些數(shù)據(jù),結(jié)果是這樣的解答。

事實(shí)證明,GPT-3.5在這個(gè)評(píng)價(jià)指標(biāo)上的通過(guò)率是48%,也就是零樣本提示下讓它直接寫(xiě)出代碼的準(zhǔn)確率是48%。而GPT-4則好得多,準(zhǔn)確率達(dá)到67%。但事實(shí)證明,如果你把GPT-3.5放入一個(gè)代理工作流程中,它的表現(xiàn)會(huì)更好。而GPT-4在這個(gè)流程中的表現(xiàn)也非常好。因此,我希望你們從中了解到的一點(diǎn)是,雖然從GPT-3.5到GPT-4的進(jìn)步是巨大的,但與GPT-3.5在代理工作流程中的進(jìn)步相比,這種進(jìn)步其實(shí)顯得相形見(jiàn)絀。對(duì)于所有正在構(gòu)建應(yīng)用程序的人來(lái)說(shuō),我認(rèn)為這可能表明了代理工作流程的巨大潛力。

/ 02 / 視覺(jué)智能體

我的團(tuán)隊(duì)在Landing AI從事視覺(jué)AI的工作,我想與大家分享一些最新的進(jìn)展,這是我以前從未展示過(guò)的。我們幾天前剛剛開(kāi)源了這個(gè)項(xiàng)目,我對(duì)此非常興奮,即構(gòu)建一個(gè)視覺(jué)智能體(visual agent)。

這個(gè)項(xiàng)目的負(fù)責(zé)人Dillon Laird是一個(gè)狂熱的沖浪愛(ài)好者,他經(jīng)??歹忯~(yú)視頻。這是一條鯊魚(yú),而這是一位沖浪者在游動(dòng)。Dillon對(duì)這類視頻很感興趣,比如這些鯊魚(yú)離沖浪者有多近。這個(gè)視頻是生成的,例如鯊魚(yú)離沖浪者6.07米,7.2米,9.4米?,F(xiàn)在鯊魚(yú)離沖浪者足夠遠(yuǎn)了,所以我們把顏色從紅色變?yōu)榫G色。當(dāng)沖浪者離鯊魚(yú)超過(guò)10米時(shí),顏色就變成綠色。

如果你想寫(xiě)代碼來(lái)實(shí)現(xiàn)這一點(diǎn),你需要進(jìn)行對(duì)象檢測(cè),進(jìn)行一些測(cè)量,找到邊界框,繪制一些東西。你可以做到,但這很麻煩,需要幾個(gè)小時(shí)來(lái)寫(xiě)代碼。現(xiàn)在我想展示一下我們構(gòu)建這個(gè)視頻的方式,我們編寫(xiě)了一個(gè)提示:你能在視頻中檢測(cè)到任何圓圈或鯊魚(yú)嗎?在視頻中畫(huà)一條綠色線表示沖浪者,假設(shè)30像素為1米,多條紅線,等等。

這就是給視覺(jué)智能體的指令。根據(jù)這個(gè)自然語(yǔ)言提示,它會(huì)分解成一系列步驟的指令集,比如使用extract_frames工具來(lái)提取視頻幀等等。這就是完成該任務(wù)所需的一系列步驟。之后會(huì)檢索工具,也就是函數(shù)調(diào)用。比如save_video,這是一個(gè)實(shí)用函數(shù),可以保存一系列幀。然后我們會(huì)檢索save_video工具或save_video函數(shù)的詳細(xì)說(shuō)明。對(duì)于其他工具如closest_box_distance來(lái)測(cè)量鯊魚(yú)和沖浪員之間的距離,也是如此?;诖耍覀冏罱K生成了代碼,當(dāng)運(yùn)行這段自動(dòng)生成的代碼時(shí),就會(huì)產(chǎn)生你之前看到的那段視頻。所以我想再深入一些,解釋這是如何實(shí)現(xiàn)的。

所以,我們構(gòu)建的視覺(jué)代理是這樣工作的。你輸入一個(gè)提示。這是一個(gè)比我剛才用的提示稍微簡(jiǎn)單一點(diǎn)的提示,例如計(jì)算鯊魚(yú)和最近的圓圈之間的距離。我們視覺(jué)代理的目標(biāo)是編寫(xiě)代碼來(lái)執(zhí)行你提示的任務(wù),這樣你就可以輸入單個(gè)圖像,并生成所需的結(jié)果。

類似于編寫(xiě)非圖像代碼的代理工作流程,我們發(fā)現(xiàn)對(duì)于許多應(yīng)用來(lái)說(shuō),這種方法比零樣本提示要好得多。此外,我們還發(fā)現(xiàn),對(duì)于許多圖像用戶來(lái)說(shuō),比如在Snowflake中如果你有10萬(wàn)張圖像,那么擁有可以非常高效地在大量圖像上運(yùn)行的代碼也很重要,因?yàn)橐坏┠阌辛舜a,你就可以處理大量圖像或視頻幀,并通過(guò)相對(duì)高效的代碼處理得到答案。

我想和大家分享一下視覺(jué)代理的工作原理。這是開(kāi)源的,所以請(qǐng)看看,給我們反饋,也許可以幫助我們改進(jìn)。視覺(jué)代理是用兩個(gè)代理構(gòu)建的。一個(gè)是編寫(xiě)代碼的代理,另一個(gè)是測(cè)試代碼的代理。給出一個(gè)像這樣的提示,編寫(xiě)代碼的代理首先運(yùn)行一個(gè)計(jì)劃程序,生成一個(gè)完成任務(wù)所需步驟的計(jì)劃。比如加載圖像,使用工具檢測(cè)對(duì)象,計(jì)算距離等等。然后它會(huì)檢索這些工具(即函數(shù))的詳細(xì)描述,最后生成代碼。

不知道這一切聽(tīng)起來(lái)是否有點(diǎn)像魔法,但所有代碼都在GitHub上??梢钥纯矗纯次覀兪褂玫木唧w提示。當(dāng)你看到細(xì)節(jié)時(shí),可能會(huì)感到驚訝,雖然第一次看可能覺(jué)得這些東西像魔法,但看看代碼和提示,也許你會(huì)發(fā)現(xiàn)其中的原理。當(dāng)你這樣做時(shí),還有其他一些演示。比如檢測(cè)每個(gè)人是否戴口罩,并將結(jié)果生成一個(gè)Python字典。生成了一堆代碼,這是一個(gè)Python字典,八個(gè)人戴了口罩,兩個(gè)人沒(méi)有戴。

這是一個(gè)不同的提示,實(shí)際上生成了一個(gè)可視化,繪制了檢測(cè)結(jié)果。所以這是自動(dòng)生成的新代碼。比如它漏掉了一些未戴口罩的人,未能檢測(cè)到未戴口罩的人。

再舉一個(gè)例子,這很有趣。分析視頻,每?jī)擅腌姺诸愐淮危词欠裼熊嚨?。輸出一個(gè)JSON,顯示是否有車禍。這個(gè)視頻有16秒,我認(rèn)為沒(méi)有人受傷。當(dāng)你這樣做時(shí),右邊的代碼會(huì)處理視頻并生成一個(gè)JSON,顯示在這個(gè)時(shí)間點(diǎn)沒(méi)有車禍,在這個(gè)時(shí)間點(diǎn)有車禍。我的內(nèi)部團(tuán)隊(duì)和一些用戶給我的反饋是,雖然我自己也可以寫(xiě)這段代碼,但這會(huì)花我?guī)讉€(gè)小時(shí)?,F(xiàn)在可以很快完成。

在計(jì)算機(jī)視覺(jué)領(lǐng)域,我們使用很多不同的函數(shù)。說(shuō)實(shí)話,我經(jīng)常記不住要用哪個(gè)函數(shù),語(yǔ)法是什么。而這真的讓構(gòu)建視覺(jué)AI應(yīng)用的過(guò)程變得更容易,只要它能正常工作。

我還想分享一個(gè)提高性能的其他方法,使用了測(cè)試代理。我展示了編寫(xiě)代碼的代理,事實(shí)證明你可以提示一個(gè)語(yǔ)言模型來(lái)編寫(xiě)測(cè)試代碼或測(cè)試腳本?;谶@些,它可以執(zhí)行測(cè)試代碼。

現(xiàn)在我們的測(cè)試代碼主要是類型檢查,所以有些有限,但即便如此,我們也可以執(zhí)行測(cè)試代碼,如果測(cè)試代碼失敗,就把輸出反饋給編寫(xiě)代碼的代理,讓它反思并重寫(xiě)代碼。這可以進(jìn)一步提高性能。

在學(xué)術(shù)文獻(xiàn)方面,我們參考最多的兩篇論文是Huang等人的代理代碼論文和Huang等人的數(shù)據(jù)解釋器論文。如果你想了解更多這些技術(shù),可以看看這些論文。

最后展示一個(gè)演示,這是每?jī)擅腌姍z測(cè)一次視頻中的摩托車,并高亮顯示。實(shí)際上這是為了處理閉路電視監(jiān)控視頻而制作的,就像特斯拉汽車那樣拼接成視頻,普通人認(rèn)為需要高亮顯示有趣的地方。

所以這是一個(gè)很長(zhǎng)的提示和YouTube鏈接。它創(chuàng)建了指令,檢索了工具。結(jié)果發(fā)現(xiàn)代碼沒(méi)有正常工作,對(duì)吧?所以這段代碼實(shí)際上失敗了幾次。你可以看到這里有個(gè)索引錯(cuò)誤的回溯。它將所有這些錯(cuò)誤信息反饋給了大型語(yǔ)言模型。第三次失敗時(shí),沒(méi)有名為PyTube的模塊。

最后通過(guò)Pip安裝PyTube解決了這個(gè)問(wèn)題,成功運(yùn)行了代碼,并生成了突出顯示監(jiān)控?cái)z像頭視頻中四個(gè)包含超過(guò) 10 輛車的視頻片段的效果。我對(duì)這個(gè)方向非常感興趣,它適用于許多應(yīng)用,包括編程和視覺(jué)智能體。

/ 03 / 視覺(jué)智能體當(dāng)前的技術(shù)不足

我也想分享一些限制。在我們的實(shí)驗(yàn)中,失敗是常見(jiàn)的。我們使用通用對(duì)象檢測(cè)系統(tǒng),有時(shí)未能檢測(cè)到對(duì)象。比如漏掉了一些黃色番茄。這是常見(jiàn)的錯(cuò)誤之一。

我對(duì)Landing AI和Snowflake的合作非常興奮,我們最近構(gòu)建了Landing Lens,這是一個(gè)Snowflake原生應(yīng)用的監(jiān)督學(xué)習(xí)計(jì)算機(jī)視覺(jué)系統(tǒng)。我認(rèn)為通過(guò)監(jiān)督學(xué)習(xí),我們可以減少一些錯(cuò)誤。但它在復(fù)雜推理上表現(xiàn)不好。比如說(shuō)每只鳥(niǎo)重半公斤,柵欄上一共承重多少。系統(tǒng)會(huì)天真地檢測(cè)到所有鳥(niǎo),但不會(huì)意識(shí)到有一只鳥(niǎo)在飛,不會(huì)施加重量。但如果你修改提示,說(shuō)忽略飛翔的鳥(niǎo),它就能正確識(shí)別。我覺(jué)得今天發(fā)布的視覺(jué)智能體是beta版,有時(shí)能正常工作,有時(shí)不能,對(duì)提示的措辭也有些挑剔,有時(shí)需要更具體地描述步驟。

所以,我不會(huì)說(shuō)這是非常出色的軟件,但有時(shí)它能工作,我對(duì)結(jié)果感到非常高興和驚訝。團(tuán)隊(duì)的成員其實(shí)今天也在這里。希望你們能和他們聊聊,不論是在這里還是在Landing AI展臺(tái),也可以在線訪問(wèn)landing.ai。我們還將核心引擎開(kāi)源了。我覺(jué)得AI智能體是非常重要且令人興奮的趨勢(shì),我們做出了這一小小的開(kāi)源貢獻(xiàn),希望能幫助大家。我希望我們能一起讓智能體變得更好,這將顯著提高我們作為開(kāi)發(fā)者的能力。

我看到AI智能體正在被用于許多不同的應(yīng)用。我覺(jué)得你們中的一些人可能在社交媒體上看到了Devin做的演示,我看到有些團(tuán)隊(duì)在做法律工作,例如分析復(fù)雜的法律文件,使用智能體來(lái)分析復(fù)雜的法律文件。

我認(rèn)為AI研究智能體已經(jīng)可以上網(wǎng)進(jìn)行網(wǎng)頁(yè)搜索,綜合大量信息并寫(xiě)出一份深入的研究文檔。這確實(shí)已經(jīng)開(kāi)始流行起來(lái)了。我其實(shí)也經(jīng)常玩一些Agentic平臺(tái),比如Quora、AutoGen,有時(shí)還有LandGraph和其他平臺(tái)。很多人基于這些框架構(gòu)建了很多應(yīng)用。目前,我發(fā)現(xiàn)很多智能體都是為特定目的構(gòu)建的,但看看是否會(huì)有一個(gè)非常通用的智能體是很有趣的。我認(rèn)為這很令人興奮。

對(duì)于很多智能體,我認(rèn)為我們剛剛跨過(guò)了從玩具新奇到實(shí)用的門(mén)檻。例如,AI研究智能體,幾個(gè)月前我還只是玩玩,上網(wǎng)搜索信息,為你寫(xiě)研究論文。大約三個(gè)月前,這還是很有趣的玩具。但就在過(guò)去幾個(gè)月里,我的朋友,斯坦福大學(xué)的Monica Lam,她的研究實(shí)驗(yàn)室發(fā)布了Storm,這是一個(gè)開(kāi)源軟件,我感覺(jué)這個(gè)確實(shí)開(kāi)始變得有用。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
2024斯坦福AI Agent最新綜述:多模態(tài)互動(dòng)領(lǐng)域的新視角探索
多模態(tài)AI崛起,2022年人工智能5大發(fā)展趨勢(shì)
人工智能技術(shù)已死,人工智能商業(yè)剛剛開(kāi)始,中國(guó)人工智能仍然會(huì)重蹈AI四小龍老路
微信讀書(shū)工具箱
前瞻2024人工智能四大趨勢(shì)
2024人工智能四大趨勢(shì)→
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服