大語(yǔ)言模型最近太火了,大家都在各個(gè)方向上應(yīng)用它。自動(dòng)駕駛也是當(dāng)下一個(gè)熱門(mén)領(lǐng)域,兩個(gè)熱門(mén)領(lǐng)域的結(jié)合自然非常令人期待。AIGCer在讀了一些相關(guān)文獻(xiàn)后,感覺(jué)在自動(dòng)駕駛這個(gè)熱點(diǎn)方向上應(yīng)用大語(yǔ)言模型,也將是一個(gè)很有前途的方向。
這里AIGCer分享一個(gè)基于大語(yǔ)言模型的自動(dòng)駕駛規(guī)劃任務(wù)新框架LaMPilot。它重新思考規(guī)劃任務(wù)為一個(gè)利用已有的行為原語(yǔ)的代碼生成過(guò)程。這種方法旨在解決解釋和執(zhí)行用戶指令(如“overtake the car ahead”)的難題,這些指令通常會(huì)給現(xiàn)有框架帶來(lái)困難。LaMPilot基準(zhǔn),專門(mén)設(shè)計(jì)用于定量評(píng)估大語(yǔ)言模型(LLMs)在將人類指令轉(zhuǎn)化為可執(zhí)行駕駛策略方面的效力。然后,又評(píng)估了一系列最先進(jìn)的代碼生成語(yǔ)言模型在LaMPilot基準(zhǔn)任務(wù)上的表現(xiàn)。實(shí)驗(yàn)結(jié)果顯示,GPT-4在人類反饋的支持下,實(shí)現(xiàn)了令人印象深刻的92.7%的任務(wù)完成率和0.9%的最小碰撞率。
在復(fù)雜的交通場(chǎng)景中做出明智的決策對(duì)于自動(dòng)駕駛汽車至關(guān)重要。這需要有交通常識(shí)以及對(duì)周圍環(huán)境理解的知識(shí)。因此,由于其對(duì)世界的全面了解和強(qiáng)大的推理能力,大語(yǔ)言模型(LLMs)在自動(dòng)駕駛中的應(yīng)用,特別是在決策和運(yùn)動(dòng)規(guī)劃中,正在獲得越來(lái)越多的關(guān)注。
為了為自動(dòng)駕駛車輛生成特定的任務(wù)規(guī)劃,現(xiàn)有的規(guī)劃器依賴于明確的目標(biāo)和約束來(lái)指導(dǎo)它們的決策。然而,當(dāng)面臨像“overtake the car in front of me,”這樣的命令時(shí),現(xiàn)有的規(guī)劃器往往難以有效處理。這突顯了LLMs解決此類挑戰(zhàn)的潛力。
然而,在自動(dòng)駕駛中使用LLMs存在一些限制:
缺乏專門(mén)用于在自動(dòng)駕駛背景下評(píng)估和比較基于LLM的模型能力的數(shù)據(jù)集。
控制自動(dòng)駕駛車輛需要謹(jǐn)慎考慮,因?yàn)樗哂嘘P(guān)鍵的安全性質(zhì)?,F(xiàn)有框架通常優(yōu)先考慮LLMs預(yù)測(cè)的動(dòng)作的成功執(zhí)行,而未充分解決安全問(wèn)題。
為了填補(bǔ)這些空白并在自動(dòng)駕駛中有效地實(shí)施LLMs,本文提出了一個(gè)新穎的框架,稱為L(zhǎng)aMPilot。LaMPilot是第一個(gè)專為在駕駛環(huán)境中評(píng)估基于LLM的agents而設(shè)計(jì)的交互環(huán)境和數(shù)據(jù)集。該數(shù)據(jù)集包含4.9K個(gè)人工標(biāo)注的指令-場(chǎng)景對(duì),具有多種語(yǔ)言風(fēng)格,包括完整的句子和簡(jiǎn)潔的命令。
受到《Code as Policy》的啟發(fā),該文利用編寫(xiě)代碼的語(yǔ)言模型(LLMs)來(lái)編寫(xiě)機(jī)器人策略代碼,LaMPilot采用了語(yǔ)言模型程序(LMPs)作為行動(dòng)空間,而不是低級(jí)別的控制命令(如加速和轉(zhuǎn)向)。這一決策的動(dòng)機(jī)在于程序的固有能力,能夠表示時(shí)間上延伸和組合的動(dòng)作,這對(duì)于解決復(fù)雜的、長(zhǎng)期的駕駛?cè)蝿?wù),如超車,至關(guān)重要。
具體而言,為基于LLM的agents配備了涵蓋各種功能駕駛原語(yǔ)的API,包括與感知相關(guān)的功能,如目標(biāo)檢測(cè)和車輛控制功能,如車道保持。LaMPilot框架的關(guān)鍵思想是使LLMagents能夠通過(guò)代碼生成將自然語(yǔ)言指令連接到詳細(xì)的戰(zhàn)略行動(dòng)。代碼片段具有三個(gè)主要目的:
與感知API進(jìn)行交互,收集相關(guān)環(huán)境信息。
規(guī)劃未來(lái)的運(yùn)動(dòng)以完成人類命令(任務(wù))。
參數(shù)化控制API以執(zhí)行規(guī)劃。
在LaMPilot框架中運(yùn)行的agents的總體目標(biāo)是以安全高效的方式完成分配的任務(wù)。此外,LaMPilot包含一個(gè)用于評(píng)估目的的交互式仿真器,具有程序化評(píng)分機(jī)制來(lái)評(píng)估策略性能。此外,該仿真器具有生成可以根據(jù)需要進(jìn)行控制和調(diào)整的情景的靈活性。LaMPilot是在自動(dòng)駕駛中執(zhí)行和評(píng)估語(yǔ)言模型程序的首創(chuàng)性工作。
貢獻(xiàn)總結(jié)如下:
「LaMPilot基準(zhǔn)」:引入了在自動(dòng)駕駛環(huán)境中評(píng)估基于LLMagents的第一個(gè)基準(zhǔn)。
「交互式仿真環(huán)境」:該框架包括一個(gè)用于執(zhí)行策略的公開(kāi)仿真器,配備有評(píng)分機(jī)制。
「駕駛原語(yǔ)的綜合API套件」:LaMPilot為L(zhǎng)LMagents提供了一組API,涵蓋了關(guān)鍵的駕駛功能,其中安全標(biāo)準(zhǔn)被加載到API中。
「將自然語(yǔ)言連接到策略行動(dòng)」:LaMPilot通過(guò)代碼生成實(shí)現(xiàn)了自然語(yǔ)言指令到可執(zhí)行策略的翻譯。
在機(jī)器人學(xué)中,語(yǔ)言在規(guī)劃任務(wù)中的應(yīng)用有著悠久的歷史,可以追溯到在人機(jī)交互的早期演示中使用自然語(yǔ)言的詞法分析,并且已經(jīng)在機(jī)器人領(lǐng)域廣泛研究。關(guān)于這個(gè)主題存在著廣泛的綜述性工作。機(jī)器人系統(tǒng)通過(guò)基于語(yǔ)言的規(guī)劃和控制來(lái)推廣到新任務(wù)的能力已經(jīng)在各種工作中得到了證明。對(duì)于實(shí)現(xiàn)特定的規(guī)劃或控制任務(wù)或策略,包括基于模型、模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等方面進(jìn)行了廣泛的探討。
最近,使用LLMs進(jìn)行機(jī)器人規(guī)劃中的代碼生成引起了越來(lái)越多的關(guān)注。Voyager引入了終身學(xué)習(xí),通過(guò)結(jié)合三個(gè)關(guān)鍵組件實(shí)現(xiàn):最大化探索的自動(dòng)課程表,用于存儲(chǔ)和檢索復(fù)雜行為的技能庫(kù),以及一種新的迭代提示機(jī)制,用于生成具有體現(xiàn)控制的可執(zhí)行代碼。Socratic Models則利用視覺(jué)語(yǔ)言模型來(lái)替代用于機(jī)器人動(dòng)作代碼生成的語(yǔ)言提示中的感知信息。提出了一種方法,使用LLMs直接生成機(jī)器人執(zhí)行控制任務(wù)的策略代碼,指定反饋循環(huán),并編寫(xiě)低級(jí)別的控制原語(yǔ)。然而,LLMs在自動(dòng)駕駛領(lǐng)域中用于代碼生成的利用仍然相對(duì)未被充分探索。本文主要目標(biāo)是開(kāi)創(chuàng)這一領(lǐng)域并彌合現(xiàn)有的差距。
最近的研究突出了語(yǔ)言交互在提升自動(dòng)駕駛技術(shù)方面的重要作用。像Wayve這樣的公司正在利用自然語(yǔ)言來(lái)改善駕駛模型的學(xué)習(xí)能力和可解釋性,他們的LINGO-1系統(tǒng)整合了視覺(jué)、語(yǔ)言和行動(dòng)。其他方法在自動(dòng)駕駛的各個(gè)方面使用LLMs,從車輛控制和軌跡規(guī)劃到整合詳細(xì)圖像和語(yǔ)言以進(jìn)行更好的決策。在這些應(yīng)用中,安全性和可解釋性也是關(guān)鍵的考慮因素。例如,Talk2Car 展示了使用LLMs根據(jù)自然語(yǔ)言命令識(shí)別特定對(duì)象的能力。LanguageMPC 結(jié)合LLMs來(lái)解釋規(guī)劃中的行動(dòng)或調(diào)整低級(jí)別的控制參數(shù)。然而,大多數(shù)現(xiàn)有模型要么提供高層次的、不可執(zhí)行的指令,如轉(zhuǎn)彎和變道,要么涉及非常詳細(xì)的規(guī)劃和控制任務(wù),比如調(diào)整轉(zhuǎn)向角。本工作獨(dú)特之處在于利用LLMs生成控制自動(dòng)駕駛操作的代碼,充分發(fā)揮它們的推理能力,以實(shí)現(xiàn)更高效的駕駛體驗(yàn)。
隨著強(qiáng)大的大語(yǔ)言模型的出現(xiàn),編程語(yǔ)言能夠在許多領(lǐng)域執(zhí)行各種任務(wù),如代碼生成、信息提取、機(jī)器人和視覺(jué)。此外,代碼為邏輯規(guī)劃提供了基礎(chǔ),當(dāng)被大語(yǔ)言模型利用時(shí),在許多縱向任務(wù)中取得了突破性的結(jié)果。LLMs和代碼的這種結(jié)合揭示了一個(gè)可以應(yīng)用于許多工程和科學(xué)領(lǐng)域的新范式。
將基準(zhǔn)B定義為元組?S,A,T,I?,包括:
· S:所有可能狀態(tài)的全面集合。
· A:由自動(dòng)駕駛車輛執(zhí)行的動(dòng)作集合。
· T:過(guò)渡模型,表示為T(mén):S×A→S,封裝了環(huán)境的動(dòng)態(tài)性。
· I:指導(dǎo)自動(dòng)駕駛車輛規(guī)劃的高級(jí)指令。
對(duì)于基準(zhǔn)B中的每個(gè)任務(wù),從初始狀態(tài)b開(kāi)始,目標(biāo)是在g∈G中達(dá)到目標(biāo)狀態(tài)。該基準(zhǔn)為每個(gè)任務(wù)概述了一個(gè)策略展開(kāi)。此展開(kāi)由條件概率引導(dǎo),并在到達(dá)目標(biāo)狀態(tài)g ∈ G時(shí)結(jié)束。請(qǐng)注意,agents無(wú)法直接訪問(wèn)目標(biāo)狀態(tài)g,而只有高級(jí)指令I(lǐng)。
考慮指令I(lǐng) =“Make a right lane change”。如果初始狀態(tài)s包括當(dāng)前車道l∈s中的自動(dòng)駕駛車輛,則策略set_target_lane(get_right_lane(ego))將執(zhí)行一系列狀態(tài)-動(dòng)作對(duì)。該過(guò)程將車輛從其當(dāng)前狀態(tài)l∈s轉(zhuǎn)換到新?tīng)顟B(tài)l′∈s′,其中l(wèi)′是l右側(cè)的車道,假設(shè)這樣的車道存在。在這種情況下,目標(biāo)狀態(tài)g∈G可以通過(guò)特定標(biāo)準(zhǔn)來(lái)定義,以確認(rèn)自動(dòng)駕駛車輛在右側(cè)車道l′中的適當(dāng)位置。這將表明動(dòng)作序列成功地將車輛從∈s轉(zhuǎn)換到′∈s',與指令I(lǐng)一致。
基于問(wèn)題陳述,本文提出LaMPilot,這是一個(gè)新的基準(zhǔn),旨在評(píng)估自動(dòng)駕駛車輛中的指令遵循情況。LaMPilot由三個(gè)關(guān)鍵組成部分組成:仿真器、數(shù)據(jù)集和評(píng)估器。在LaMPilot中,駕駛策略通過(guò)Python語(yǔ)言模型程序(LMPs)來(lái)表達(dá)。主要方法涉及基于LaMPilot中的人工標(biāo)注指令創(chuàng)建提示。這些提示由LLMs處理,生成相應(yīng)的代碼。然后在LaMPilot框架內(nèi)執(zhí)行此代碼,并評(píng)估其性能,如下圖1所示。
「仿真器」 仿真器是LaMPilot環(huán)境的一個(gè)關(guān)鍵組件,基于廣泛用于自動(dòng)駕駛和戰(zhàn)術(shù)決策相關(guān)研究的HighwayEnv構(gòu)建。它提供了各種駕駛模型,并模擬了多車輛之間的真實(shí)交互。HighwayEnv最初設(shè)計(jì)用于訓(xùn)練強(qiáng)化學(xué)習(xí)agents,本研究在LaMPilot中對(duì)其進(jìn)行擴(kuò)展,以包括適用于LLMagents的接口。此外,還實(shí)現(xiàn)了具有不同配置的自定義交叉口,以增加決策情景的多樣性。這種擴(kuò)展補(bǔ)充了現(xiàn)有的“高速公路”環(huán)境,并增強(qiáng)了仿真器的整體功能,使得能夠評(píng)估更廣泛的駕駛情景。仿真包括具有各種密度設(shè)置的隨機(jī)生成的交通模式,涵蓋了擁擠的交通高峰時(shí)段和較為寬松的道路條件。
「數(shù)據(jù)集」 LaMPilot數(shù)據(jù)集包含4,900個(gè)人工標(biāo)注的交通場(chǎng)景,每個(gè)數(shù)據(jù)樣本包括三個(gè)元素: · 一個(gè)指令I(lǐng),即高級(jí)任務(wù)描述。
· 一個(gè)初始狀態(tài)b,用于初始化仿真器。
· 一組用于確定目標(biāo)狀態(tài)G的標(biāo)準(zhǔn),與I一致。
數(shù)據(jù)集分為三個(gè)集合:訓(xùn)練集(3,900個(gè)樣本)、驗(yàn)證集(500個(gè)樣本)和測(cè)試集(500個(gè)樣本)。數(shù)據(jù)集包含各種指令,反映了真實(shí)世界需求的多樣性和不可預(yù)測(cè)性。這些指令根據(jù)操作類型(如轉(zhuǎn)彎、變道和超車)以及場(chǎng)景類型(包括高速公路和交叉口設(shè)置)進(jìn)行分類。下圖2顯示了指令中前四個(gè)詞的分布,突顯了我們數(shù)據(jù)集中指令的多樣性。詳細(xì)的統(tǒng)計(jì)信息顯示在下表1中。
駕駛策略涉及對(duì)功能原語(yǔ)的API調(diào)用,這些功能原語(yǔ)是專門(mén)設(shè)計(jì)為支持LLMs生成基于指令的可操作規(guī)劃的特殊API。主要目標(biāo)是利用LLMs進(jìn)行戰(zhàn)略規(guī)劃,同時(shí)有意避免它們直接參與低級(jí)別的控制任務(wù)。由于LLMs的自回歸特性,生成較長(zhǎng)的補(bǔ)全可能會(huì)引入顯著的延遲。這一特性使它們不太適用于需要快速響應(yīng)的對(duì)象避讓等時(shí)間關(guān)鍵任務(wù)。為了解決這個(gè)問(wèn)題,我們的API設(shè)計(jì)戰(zhàn)略性地卸載安全關(guān)鍵任務(wù),允許LLMs專注于基于常識(shí)的決策,這與它們的能力更好地契合。
功能原語(yǔ)套件是根據(jù)Responsibility-Sensitive Safety(RSS)的見(jiàn)解開(kāi)發(fā)的。這些API有助于構(gòu)建最小化由于不當(dāng)策略而導(dǎo)致事故風(fēng)險(xiǎn)的駕駛策略。這種方法使我們的工作與許多現(xiàn)有的可能更加強(qiáng)調(diào)安全可行性的API功能有所區(qū)別。
API套件分為四個(gè)主要類型:
(1) 「Ego APIs」 這些API提供有關(guān)自動(dòng)駕駛車輛狀態(tài)的信息,如其速度和位置;
(2) 「Perception APIs」 這些API包括目標(biāo)和車道檢測(cè)等功能,可用于獲取周圍環(huán)境的信息;
(3) 「Planning APIs」 這些API在提供目的地時(shí)具備生成路徑的能力;
(4 )「Control APIs」 這些API將LLM生成的代碼轉(zhuǎn)換為車輛的低級(jí)命令,實(shí)施適當(dāng)?shù)捻憫?yīng)以避免碰撞。在執(zhí)行生成的策略期間,如果出現(xiàn)異常情況,自動(dòng)駕駛車輛將自動(dòng)切換到預(yù)定義的autopilot模式,以防止未定義的行為。API的完整列表在附錄中提供。
除了主要的指令之外,我們還提供環(huán)境背景和API文檔作為L(zhǎng)LMs的輸入提示的一部分。
「環(huán)境背景」:環(huán)境背景包括有關(guān)駕駛環(huán)境的相關(guān)信息。這些詳細(xì)信息在仿真器中表示為數(shù)值向量。開(kāi)發(fā)了一個(gè)接口,允許LLMs使用這些信息,將數(shù)值向量轉(zhuǎn)換為自然語(yǔ)言描述。這些向量包含來(lái)自仿真的語(yǔ)義屬性,如道路上其他車輛、自動(dòng)駕駛車輛和地圖的信息。這種方法使我們的工作與該領(lǐng)域中其他最近的進(jìn)展有所區(qū)別,在那里數(shù)值向量直接輸入LLMs而沒(méi)有進(jìn)行任何上下文翻譯。具體而言,采用了一個(gè)結(jié)構(gòu)化的語(yǔ)言生成器,如下所示:
此函數(shù)將狀態(tài)向量的數(shù)值數(shù)據(jù)轉(zhuǎn)換為敘述格式。這個(gè)敘述不需要額外的微調(diào)就能夠被LLM解釋。它提供了有關(guān)agents環(huán)境的全面信息,包括其他道路用戶、自動(dòng)駕駛車輛狀態(tài)和相關(guān)地圖信息。
「API文檔」:考慮一個(gè)例子指令“向右變道”,LLM可能建議執(zhí)行動(dòng)作change_lane_right。然而,控制器可能不直接支持這個(gè)作為基本動(dòng)作。為了彌合這個(gè)差距,我們?cè)谔崾局邪珹PI文檔。這些文檔為L(zhǎng)LMs提供了有關(guān)可用API的基本信息,并指導(dǎo)它們的正確使用。這些文檔不僅包括輸入和輸出規(guī)范,還提供了它們的用法描述和這些功能背后邏輯的說(shuō)明。通過(guò)將API文檔整合到提示中,確保LLM生成的策略代碼與自動(dòng)駕駛車輛的實(shí)際能力相符,從而促使可執(zhí)行的行動(dòng)規(guī)劃。
如前面圖1所示,LLM接收提示并負(fù)責(zé)生成一個(gè)完成。由LLMs生成的完成預(yù)計(jì)是有效的函數(shù),使用提供的API編寫(xiě)。這些函數(shù)可以從簡(jiǎn)單的一次性函數(shù)到更復(fù)雜的生成器函數(shù)。下面演示了一個(gè)簡(jiǎn)單的例子,其中更改了自動(dòng)駕駛車輛的目標(biāo)速度:
此外,LaMPilot支持使用控制結(jié)構(gòu),如if-else和循環(huán)語(yǔ)句,使LLM能夠創(chuàng)建動(dòng)態(tài)反饋策略。一個(gè)示例是用于進(jìn)行左變道的while循環(huán):
在這個(gè)例子中,策略持續(xù)評(píng)估變道到左車道的可行性。當(dāng)條件安全時(shí),它執(zhí)行車道變換;否則,它將默認(rèn)為autopilot函數(shù)。
要在LaMPilot中執(zhí)行LMP,使用Python的exec函數(shù)。此函數(shù)以LMP代碼作為輸入字符串,以及兩個(gè)定義執(zhí)行范圍的字典:(i) apis,其中包括代碼可能調(diào)用的所有APIs,和 (ii) policies,一個(gè)最初為空的字典,最終將包含合成的函數(shù)和一個(gè)策略變量。如果LMP設(shè)計(jì)為返回生成器,那么在exec函數(shù)執(zhí)行后,這個(gè)生成器將從locals字典中提取出來(lái)。
本文框架使用三個(gè)關(guān)鍵指標(biāo)(安全性、舒適性和效率)從初始狀態(tài)b評(píng)估駕駛性能到目標(biāo)狀態(tài)g∈G。
「安全性指標(biāo)」:本文采用碰撞時(shí)間(TTC)作為主要安全性指標(biāo)。它通過(guò)評(píng)估車輛維持安全距離和適當(dāng)反應(yīng)以避免碰撞的能力,來(lái)衡量車輛與交通規(guī)則和人類駕駛行為的相似性。在包括自動(dòng)駕駛車輛在內(nèi)的n+1車輛的場(chǎng)景中,使用標(biāo)簽i來(lái)具體指代每輛車,其中0是自動(dòng)駕駛車輛。對(duì)于具有狀態(tài)s的單個(gè)時(shí)間步長(zhǎng),使用其速度∈s和位置∈s,與具有速度∈s和位置∈s的另一輛車進(jìn)行比較,計(jì)算與車輛i的碰撞時(shí)間(),其中1 ≤ i ≤ n。公式為:
為計(jì)算TTC分?jǐn)?shù),從所有n輛其他車輛和所有時(shí)間步中選擇表示最近潛在碰撞的最短正碰撞時(shí)間值。使用t來(lái)索引每個(gè)時(shí)間步長(zhǎng),T表示實(shí)際任務(wù)完成時(shí)間。因此,對(duì)于所有,其中i范圍從1到n,t范圍從1到T,可以計(jì)算如下:
根據(jù)實(shí)證數(shù)據(jù),TTC分?jǐn)?shù)基于2秒的安全余地,超過(guò)2秒的分?jǐn)?shù)被認(rèn)為是安全的,并評(píng)為100。具體而言,TTC分?jǐn)?shù)的計(jì)算如下:
「舒適性指標(biāo)」:速度方差(SV)用于評(píng)估速度過(guò)渡的平穩(wěn)性,反映了駕駛策略的舒適水平。
首先,需要計(jì)算自動(dòng)駕駛車輛的速度標(biāo)準(zhǔn)差。對(duì)于每個(gè)時(shí)間步t,其中1 ≤ t ≤ T,計(jì)算如下:
其中,是自動(dòng)駕駛車輛的平均速度:
然后,速度方差(SV)分?jǐn)?shù)定義為:
其中,是最大舒適速度偏差。
效率指標(biāo):時(shí)間效率(TE)分?jǐn)?shù)評(píng)估策略代碼的時(shí)間效率,計(jì)算如下:
在這里,T表示實(shí)際任務(wù)完成時(shí)間,而是預(yù)定義的時(shí)間限制。
任務(wù)完成標(biāo)準(zhǔn):當(dāng)自動(dòng)駕駛車輛成功地從初始狀態(tài)b轉(zhuǎn)換到目標(biāo)狀態(tài)g∈G時(shí),任務(wù)被認(rèn)為完成。具體來(lái)說(shuō),它需要滿足具體的條件。例如,變道任務(wù)在車輛進(jìn)入目標(biāo)車道,并且其航向與車道方向?qū)R在一個(gè)定義的閾值內(nèi)時(shí)被視為完成。所有標(biāo)準(zhǔn)的完整列表概述在附錄中。
整體評(píng)分:最終分?jǐn)?shù)是所有單個(gè)指標(biāo)的綜合:
每個(gè)指標(biāo)對(duì)總體分?jǐn)?shù)的貢獻(xiàn)由其各自的權(quán)重W決定。
在自動(dòng)駕駛領(lǐng)域,基于規(guī)則的模型因其確定性和可解釋性而備受青睞。在這個(gè)背景下,采用兩種基于規(guī)則的基準(zhǔn)策略:智能駕駛模型(IDM)和最小化變道引起的整體制動(dòng)(MOBIL)原則。IDM描述了一種根據(jù)車輛與直接在前方的物體的接近程度和相對(duì)速度來(lái)避免碰撞的加速度更新規(guī)則。根據(jù)MOBIL,僅當(dāng)新的車道提供更有利的駕駛場(chǎng)景且該操作可以安全進(jìn)行時(shí),才執(zhí)行變道。這些基線可以被視為基于隨機(jī)機(jī)會(huì)運(yùn)行,因?yàn)椴呗元?dú)立于用戶指令,而是遵循預(yù)定義的規(guī)則。
此外,還包括一個(gè)human performance基線,其中由有駕照的人類駕駛員使用鍵盤(pán)上的箭頭鍵控制車輛,根據(jù)顯示的命令和可視化信息進(jìn)行仿真。這個(gè)基線為L(zhǎng)aMPilot基準(zhǔn)上的人類水平性能提供了一個(gè)參考。
使用廣泛的最新大語(yǔ)言模型進(jìn)行基準(zhǔn)測(cè)試,其中包括開(kāi)源和專有的解決方案。評(píng)估的模型包括:Llama 2,PaLM 2,ChatGPT,GPT-4和GPT-4 Turbo。零樣本設(shè)置配置了從API描述(A),用戶指令(I)和駕駛環(huán)境(C)到可執(zhí)行程序代碼(P)的映射,其中輸入提示包括由公式(1)中的結(jié)構(gòu)化語(yǔ)言生成器生成的(A),(I)和(C)的連接標(biāo)記。輸出旨在提供符合給定駕駛上下文中用戶指令的可執(zhí)行程序代碼(P)。在少樣本設(shè)置中,遵循標(biāo)準(zhǔn)范例,在測(cè)試實(shí)例之前包含k個(gè)人工編寫(xiě)的例子{} 這些上下文示例有助于模型適應(yīng)LaMPilot基準(zhǔn)中的任務(wù)。
大語(yǔ)言模型已經(jīng)展示了在各種任務(wù)中生成一致解決方案的熟練能力,無(wú)需額外的微調(diào)。然而,在代碼生成方面,特別是對(duì)于復(fù)雜場(chǎng)景,它們可能會(huì)產(chǎn)生次優(yōu)結(jié)果。這些模型的自回歸性質(zhì)構(gòu)成了一個(gè)重要挑戰(zhàn),因?yàn)樵谛蛄械脑缙谏傻臉?biāo)記不能在同一迭代中修改。這種約束限制了模型在細(xì)化初始響應(yīng)方面的能力,可能影響生成代碼的有效性。
為了解決這些挑戰(zhàn)并提高LLM在LaMPilot基準(zhǔn)任務(wù)中的性能,引入了一種人機(jī)協(xié)同的方法。這種方法與大多數(shù)僅依賴經(jīng)驗(yàn)學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)自動(dòng)駕駛系統(tǒng)不同。相反,它將實(shí)際經(jīng)驗(yàn)與理論知識(shí)相結(jié)合,類似于人類駕駛員如何培養(yǎng)駕駛技能。在這種方法中,LLMs不僅充當(dāng)規(guī)劃者,還作為整合人類反饋的平臺(tái)。如下圖3所示,人類反饋融入到學(xué)習(xí)過(guò)程中,將其從一個(gè)靜態(tài)的、開(kāi)環(huán)系統(tǒng)轉(zhuǎn)變?yōu)橐粋€(gè)動(dòng)態(tài)的、不斷演化的反饋循環(huán)。在LLM生成策略程序(P)后,它可以集成人類反饋(F)以獲得特定上下文的指導(dǎo),使LLM能夠細(xì)化其輸出。
例如,人類可能建議在交叉路口車流量繁忙的情況下,在無(wú)信號(hào)燈的左轉(zhuǎn)時(shí)采取更為果斷的策略。這些建議幫助LLM調(diào)整其策略,使其更好地與人類喜好和情境需求保持一致。
這種方法不涉及計(jì)算梯度或修改模型權(quán)重,因?yàn)檫@些過(guò)程在計(jì)算上是昂貴的。相反,引入了一個(gè)代碼存儲(chǔ)庫(kù)模塊,它充當(dāng)矢量數(shù)據(jù)庫(kù)。該存儲(chǔ)庫(kù)允許存儲(chǔ)和檢索有效代碼片段,以在類似情況下重復(fù)使用。遵循中的方法,LLM生成一個(gè)函數(shù)描述,然后將其轉(zhuǎn)換為一個(gè)矢量,用作數(shù)據(jù)庫(kù)鍵。此鍵與相應(yīng)的函數(shù)代碼配對(duì),作為其值。一旦人類評(píng)論者對(duì)策略滿意,代碼就會(huì)提交到存儲(chǔ)庫(kù)以供將來(lái)重用。
實(shí)驗(yàn)設(shè)置旨在為提出的LaMPilot基準(zhǔn)建立基線。主要目標(biāo)是評(píng)估生成代碼的LLMs在理解駕駛場(chǎng)景中的人類口頭指令方面的性能。還旨在評(píng)估這些LLMs生成用于車輛控制的代碼的能力,其中使用了預(yù)定義的行為原語(yǔ)。此外,調(diào)查了具有記憶增強(qiáng)的LLMs在整合人類反饋方面的效果。
為每個(gè)場(chǎng)景設(shè)置了60秒的時(shí)間限制。如果在此時(shí)間范圍內(nèi)未完成任務(wù),則將考慮測(cè)試用例失敗,并終止仿真,導(dǎo)致駕駛得分為0。對(duì)于成功的案例,駕駛得分使用以下公式計(jì)算:
這里, 代表成功測(cè)試案例的數(shù)量,α 是成功率(從 0 到 1),β 是碰撞率(也在 0 到 1 之間), 是碰撞的懲罰因子(在我們的實(shí)驗(yàn)中設(shè)置為 500)。每個(gè)單獨(dú)樣本的 根據(jù)公式(9)計(jì)算,其中權(quán)重 分別設(shè)置為 0.5,0.3 和 0.2。TTC 得分,SV 得分和 TE 得分分別計(jì)算為所有成功測(cè)試案例的相應(yīng)指標(biāo)的平均值。
一個(gè)熟練使用 Python 的標(biāo)注者創(chuàng)建了上下文示例。他們獲得 API 描述,并有機(jī)會(huì)使用驗(yàn)證集編寫(xiě)和測(cè)試他們的代碼。對(duì)于few-shot設(shè)置,使用了一組在所有測(cè)試案例中都相同的三個(gè)示例。API 文檔在所有測(cè)試案例中也是相同的。
在本節(jié)中,介紹了LaMPilot基準(zhǔn)的實(shí)驗(yàn)結(jié)果,總結(jié)了各種方法的性能,包括啟發(fā)式基線,零樣本和少樣本基線以及人類反饋基線。這些結(jié)果在下表2中詳細(xì)說(shuō)明。
基于規(guī)則的方法 首先評(píng)估基于規(guī)則的方法的性能,具體而言是IDM和MOBIL算法。這兩種基于規(guī)則的方法在LaMPilot基準(zhǔn)中都實(shí)現(xiàn)了零碰撞率。這個(gè)結(jié)果突顯了它們作為成熟駕駛策略的可靠性和有效性。重要的是要注意,這些方法獨(dú)立于提供的指令運(yùn)行。具體而言,不考慮人類指令的情況下,這些方法的成功率在15%到20%之間。這為評(píng)估LLM-basedagents在遵循人類指令方面的有效性提供了重要的參考點(diǎn)。
「人類表現(xiàn)」 在各種評(píng)估指標(biāo)方面,人類始終優(yōu)于所有基線模型。他們保持了零碰撞率,并在完成率方面相對(duì)于表現(xiàn)最好的帶有人類反饋的 LLM-based agents表現(xiàn)出明顯優(yōu)勢(shì)。這種差距突顯了未來(lái)研究的潛在領(lǐng)域。值得注意的是,即使是人類駕駛員也不能取得完美的分?jǐn)?shù),這強(qiáng)調(diào)了 LaMPilot 基準(zhǔn)中特定場(chǎng)景的復(fù)雜性。例如,在規(guī)定的時(shí)間內(nèi)在繁忙交通中進(jìn)行不受保護(hù)的左轉(zhuǎn)可能特別具有挑戰(zhàn)性。
「大語(yǔ)言模型」 評(píng)估了大量預(yù)訓(xùn)練對(duì)LLMs具有使用常識(shí)進(jìn)行推理以及遵循人類指令的能力的影響。
在零樣本設(shè)置中,OpenAI 的 GPT 模型和 PaLM 2(沒(méi)有任何微調(diào),僅提供 API 文檔、駕駛上下文和指令)與基于規(guī)則的方法相比取得了顯著的性能優(yōu)勢(shì)。然而,這也導(dǎo)致了碰撞率的增加(1%-4%),表明它們生成的代碼策略并沒(méi)有完全捕捉到駕駛?cè)蝿?wù)的復(fù)雜性。
當(dāng)提供包含演示代碼的訓(xùn)練示例時(shí),所有評(píng)估的LLMs在完成率上都表現(xiàn)出顯著的改善。將 GPT 模型與人在回路學(xué)習(xí)相結(jié)合進(jìn)一步提高了它們?cè)隈{駛?cè)蝿?wù)中的性能。值得注意的是,GPT-4 實(shí)現(xiàn)了一個(gè)最先進(jìn)的結(jié)果,完成率為 92.7%,最小碰撞率為 0.9%,相比之下,人的成功率為 98%,突顯了LLMs在駕駛背景下遵循指令的巨大潛力。
本文介紹了 LaMPilot,一個(gè)包含 4.9K 場(chǎng)景的新穎基準(zhǔn)數(shù)據(jù)集,專門(mén)設(shè)計(jì)用于評(píng)估自動(dòng)駕駛中的指令執(zhí)行情況。這是第一個(gè)旨在評(píng)估LLMs在這個(gè)應(yīng)用中能力的數(shù)據(jù)集。LaMPilot上測(cè)試了各種最先進(jìn)的LLMs。主要關(guān)注點(diǎn)是探索使用LLMs生成符合駕駛指令的代碼的可行性。實(shí)驗(yàn)表明,帶有人類反饋的GPT-4實(shí)現(xiàn)了令人印象深刻的任務(wù)完成率,為92.7%,最小碰撞率為0.9%。
雖然框架代表了一個(gè)重大的進(jìn)步,但也強(qiáng)調(diào)了LLMs在更好地支持駕駛?cè)蝿?wù)中的指令跟隨方面仍然需要重大改進(jìn)。盡管完成率令人鼓舞,但仍然存在顯著的碰撞率。值得注意的是,在我們的研究中,LLMs沒(méi)有進(jìn)行任何特定的微調(diào)或參數(shù)調(diào)整。然而,LaMPilot包含了一系列適合交互式學(xué)習(xí)的場(chǎng)景,為未來(lái)的探索提供了一個(gè)有希望的方向。
總的來(lái)說(shuō),研究為這一領(lǐng)域的進(jìn)一步研究奠定了基礎(chǔ)。預(yù)計(jì)我們的基準(zhǔn)和框架將對(duì)那些有興趣利用LLMs在自動(dòng)駕駛中不斷發(fā)展的能力的研究人員非常有價(jià)值。
[1] LaMPilot: An Open Benchmark Dataset for Autonomous Driving with Language Model Programs
鏈接:https://arxiv.org/pdf/2312.04372
更多精彩內(nèi)容,請(qǐng)關(guān)注公眾號(hào):AI生成未來(lái)
聯(lián)系客服