成人福利在线观看,亚洲日韩男人网在线,激情文学亚洲色图

大語(yǔ)言模型最近太火了，大家都在各個(gè)方向上應(yīng)用它。自動(dòng)駕駛也是當(dāng)下一個(gè)熱門(mén)領(lǐng)域，兩個(gè)熱門(mén)領(lǐng)域的結(jié)合自然非常令人期待。AIGCer在讀了一些相關(guān)文獻(xiàn)后，感覺(jué)在自動(dòng)駕駛這個(gè)熱點(diǎn)方向上應(yīng)用大語(yǔ)言模型，也將是一個(gè)很有前途的方向。

這里AIGCer分享一個(gè)基于大語(yǔ)言模型的自動(dòng)駕駛規(guī)劃任務(wù)新框架LaMPilot。它重新思考規(guī)劃任務(wù)為一個(gè)利用已有的行為原語(yǔ)的代碼生成過(guò)程。這種方法旨在解決解釋和執(zhí)行用戶指令（如“overtake the car ahead”）的難題，這些指令通常會(huì)給現(xiàn)有框架帶來(lái)困難。LaMPilot基準(zhǔn)，專門(mén)設(shè)計(jì)用于定量評(píng)估大語(yǔ)言模型（LLMs）在將人類指令轉(zhuǎn)化為可執(zhí)行駕駛策略方面的效力。然后，又評(píng)估了一系列最先進(jìn)的代碼生成語(yǔ)言模型在LaMPilot基準(zhǔn)任務(wù)上的表現(xiàn)。實(shí)驗(yàn)結(jié)果顯示，GPT-4在人類反饋的支持下，實(shí)現(xiàn)了令人印象深刻的92.7%的任務(wù)完成率和0.9%的最小碰撞率。

引言

在復(fù)雜的交通場(chǎng)景中做出明智的決策對(duì)于自動(dòng)駕駛汽車至關(guān)重要。這需要有交通常識(shí)以及對(duì)周圍環(huán)境理解的知識(shí)。因此，由于其對(duì)世界的全面了解和強(qiáng)大的推理能力，大語(yǔ)言模型（LLMs）在自動(dòng)駕駛中的應(yīng)用，特別是在決策和運(yùn)動(dòng)規(guī)劃中，正在獲得越來(lái)越多的關(guān)注。

為了為自動(dòng)駕駛車輛生成特定的任務(wù)規(guī)劃，現(xiàn)有的規(guī)劃器依賴于明確的目標(biāo)和約束來(lái)指導(dǎo)它們的決策。然而，當(dāng)面臨像“overtake the car in front of me,”這樣的命令時(shí)，現(xiàn)有的規(guī)劃器往往難以有效處理。這突顯了LLMs解決此類挑戰(zhàn)的潛力。

然而，在自動(dòng)駕駛中使用LLMs存在一些限制：

缺乏專門(mén)用于在自動(dòng)駕駛背景下評(píng)估和比較基于LLM的模型能力的數(shù)據(jù)集。
控制自動(dòng)駕駛車輛需要謹(jǐn)慎考慮，因?yàn)樗哂嘘P(guān)鍵的安全性質(zhì)?，F(xiàn)有框架通常優(yōu)先考慮LLMs預(yù)測(cè)的動(dòng)作的成功執(zhí)行，而未充分解決安全問(wèn)題。

為了填補(bǔ)這些空白并在自動(dòng)駕駛中有效地實(shí)施LLMs，本文提出了一個(gè)新穎的框架，稱為L(zhǎng)aMPilot。LaMPilot是第一個(gè)專為在駕駛環(huán)境中評(píng)估基于LLM的agents而設(shè)計(jì)的交互環(huán)境和數(shù)據(jù)集。該數(shù)據(jù)集包含4.9K個(gè)人工標(biāo)注的指令-場(chǎng)景對(duì)，具有多種語(yǔ)言風(fēng)格，包括完整的句子和簡(jiǎn)潔的命令。

受到《Code as Policy》的啟發(fā)，該文利用編寫(xiě)代碼的語(yǔ)言模型（LLMs）來(lái)編寫(xiě)機(jī)器人策略代碼，LaMPilot采用了語(yǔ)言模型程序（LMPs）作為行動(dòng)空間，而不是低級(jí)別的控制命令（如加速和轉(zhuǎn)向）。這一決策的動(dòng)機(jī)在于程序的固有能力，能夠表示時(shí)間上延伸和組合的動(dòng)作，這對(duì)于解決復(fù)雜的、長(zhǎng)期的駕駛?cè)蝿?wù)，如超車，至關(guān)重要。

具體而言，為基于LLM的agents配備了涵蓋各種功能駕駛原語(yǔ)的API，包括與感知相關(guān)的功能，如目標(biāo)檢測(cè)和車輛控制功能，如車道保持。LaMPilot框架的關(guān)鍵思想是使LLMagents能夠通過(guò)代碼生成將自然語(yǔ)言指令連接到詳細(xì)的戰(zhàn)略行動(dòng)。代碼片段具有三個(gè)主要目的：

與感知API進(jìn)行交互，收集相關(guān)環(huán)境信息。
規(guī)劃未來(lái)的運(yùn)動(dòng)以完成人類命令（任務(wù)）。
參數(shù)化控制API以執(zhí)行規(guī)劃。

在LaMPilot框架中運(yùn)行的agents的總體目標(biāo)是以安全高效的方式完成分配的任務(wù)。此外，LaMPilot包含一個(gè)用于評(píng)估目的的交互式仿真器，具有程序化評(píng)分機(jī)制來(lái)評(píng)估策略性能。此外，該仿真器具有生成可以根據(jù)需要進(jìn)行控制和調(diào)整的情景的靈活性。LaMPilot是在自動(dòng)駕駛中執(zhí)行和評(píng)估語(yǔ)言模型程序的首創(chuàng)性工作。

貢獻(xiàn)總結(jié)如下：

「LaMPilot基準(zhǔn)」：引入了在自動(dòng)駕駛環(huán)境中評(píng)估基于LLMagents的第一個(gè)基準(zhǔn)。
「交互式仿真環(huán)境」：該框架包括一個(gè)用于執(zhí)行策略的公開(kāi)仿真器，配備有評(píng)分機(jī)制。
「駕駛原語(yǔ)的綜合API套件」：LaMPilot為L(zhǎng)LMagents提供了一組API，涵蓋了關(guān)鍵的駕駛功能，其中安全標(biāo)準(zhǔn)被加載到API中。
「將自然語(yǔ)言連接到策略行動(dòng)」：LaMPilot通過(guò)代碼生成實(shí)現(xiàn)了自然語(yǔ)言指令到可執(zhí)行策略的翻譯。

LaMPilot基準(zhǔn)

問(wèn)題陳述

將基準(zhǔn)B定義為元組?S，A，T，I?，包括：

· S：所有可能狀態(tài)的全面集合。

· A：由自動(dòng)駕駛車輛執(zhí)行的動(dòng)作集合。

· T：過(guò)渡模型，表示為T(mén)：S×A→S，封裝了環(huán)境的動(dòng)態(tài)性。

· I：指導(dǎo)自動(dòng)駕駛車輛規(guī)劃的高級(jí)指令。

對(duì)于基準(zhǔn)B中的每個(gè)任務(wù)，從初始狀態(tài)b開(kāi)始，目標(biāo)是在g∈G中達(dá)到目標(biāo)狀態(tài)。該基準(zhǔn)為每個(gè)任務(wù)概述了一個(gè)策略展開(kāi)。此展開(kāi)由條件概率引導(dǎo)，并在到達(dá)目標(biāo)狀態(tài)g ∈ G時(shí)結(jié)束。請(qǐng)注意，agents無(wú)法直接訪問(wèn)目標(biāo)狀態(tài)g，而只有高級(jí)指令I(lǐng)。

考慮指令I(lǐng) =“Make a right lane change”。如果初始狀態(tài)s包括當(dāng)前車道l∈s中的自動(dòng)駕駛車輛，則策略set_target_lane(get_right_lane(ego))將執(zhí)行一系列狀態(tài)-動(dòng)作對(duì)。該過(guò)程將車輛從其當(dāng)前狀態(tài)l∈s轉(zhuǎn)換到新?tīng)顟B(tài)l′∈s′，其中l(wèi)′是l右側(cè)的車道，假設(shè)這樣的車道存在。在這種情況下，目標(biāo)狀態(tài)g∈G可以通過(guò)特定標(biāo)準(zhǔn)來(lái)定義，以確認(rèn)自動(dòng)駕駛車輛在右側(cè)車道l′中的適當(dāng)位置。這將表明動(dòng)作序列成功地將車輛從∈s轉(zhuǎn)換到′∈s'，與指令I(lǐng)一致。

LaMPilot

基于問(wèn)題陳述，本文提出LaMPilot，這是一個(gè)新的基準(zhǔn)，旨在評(píng)估自動(dòng)駕駛車輛中的指令遵循情況。LaMPilot由三個(gè)關(guān)鍵組成部分組成：仿真器、數(shù)據(jù)集和評(píng)估器。在LaMPilot中，駕駛策略通過(guò)Python語(yǔ)言模型程序（LMPs）來(lái)表達(dá)。主要方法涉及基于LaMPilot中的人工標(biāo)注指令創(chuàng)建提示。這些提示由LLMs處理，生成相應(yīng)的代碼。然后在LaMPilot框架內(nèi)執(zhí)行此代碼，并評(píng)估其性能，如下圖1所示。

「仿真器」 仿真器是LaMPilot環(huán)境的一個(gè)關(guān)鍵組件，基于廣泛用于自動(dòng)駕駛和戰(zhàn)術(shù)決策相關(guān)研究的HighwayEnv構(gòu)建。它提供了各種駕駛模型，并模擬了多車輛之間的真實(shí)交互。HighwayEnv最初設(shè)計(jì)用于訓(xùn)練強(qiáng)化學(xué)習(xí)agents，本研究在LaMPilot中對(duì)其進(jìn)行擴(kuò)展，以包括適用于LLMagents的接口。此外，還實(shí)現(xiàn)了具有不同配置的自定義交叉口，以增加決策情景的多樣性。這種擴(kuò)展補(bǔ)充了現(xiàn)有的“高速公路”環(huán)境，并增強(qiáng)了仿真器的整體功能，使得能夠評(píng)估更廣泛的駕駛情景。仿真包括具有各種密度設(shè)置的隨機(jī)生成的交通模式，涵蓋了擁擠的交通高峰時(shí)段和較為寬松的道路條件。

「數(shù)據(jù)集」 LaMPilot數(shù)據(jù)集包含4,900個(gè)人工標(biāo)注的交通場(chǎng)景，每個(gè)數(shù)據(jù)樣本包括三個(gè)元素： · 一個(gè)指令I(lǐng)，即高級(jí)任務(wù)描述。

· 一個(gè)初始狀態(tài)b，用于初始化仿真器。

· 一組用于確定目標(biāo)狀態(tài)G的標(biāo)準(zhǔn)，與I一致。

數(shù)據(jù)集分為三個(gè)集合：訓(xùn)練集（3,900個(gè)樣本）、驗(yàn)證集（500個(gè)樣本）和測(cè)試集（500個(gè)樣本）。數(shù)據(jù)集包含各種指令，反映了真實(shí)世界需求的多樣性和不可預(yù)測(cè)性。這些指令根據(jù)操作類型（如轉(zhuǎn)彎、變道和超車）以及場(chǎng)景類型（包括高速公路和交叉口設(shè)置）進(jìn)行分類。下圖2顯示了指令中前四個(gè)詞的分布，突顯了我們數(shù)據(jù)集中指令的多樣性。詳細(xì)的統(tǒng)計(jì)信息顯示在下表1中。

功能原語(yǔ)

駕駛策略涉及對(duì)功能原語(yǔ)的API調(diào)用，這些功能原語(yǔ)是專門(mén)設(shè)計(jì)為支持LLMs生成基于指令的可操作規(guī)劃的特殊API。主要目標(biāo)是利用LLMs進(jìn)行戰(zhàn)略規(guī)劃，同時(shí)有意避免它們直接參與低級(jí)別的控制任務(wù)。由于LLMs的自回歸特性，生成較長(zhǎng)的補(bǔ)全可能會(huì)引入顯著的延遲。這一特性使它們不太適用于需要快速響應(yīng)的對(duì)象避讓等時(shí)間關(guān)鍵任務(wù)。為了解決這個(gè)問(wèn)題，我們的API設(shè)計(jì)戰(zhàn)略性地卸載安全關(guān)鍵任務(wù)，允許LLMs專注于基于常識(shí)的決策，這與它們的能力更好地契合。

功能原語(yǔ)套件是根據(jù)Responsibility-Sensitive Safety（RSS）的見(jiàn)解開(kāi)發(fā)的。這些API有助于構(gòu)建最小化由于不當(dāng)策略而導(dǎo)致事故風(fēng)險(xiǎn)的駕駛策略。這種方法使我們的工作與許多現(xiàn)有的可能更加強(qiáng)調(diào)安全可行性的API功能有所區(qū)別。

API套件分為四個(gè)主要類型：

(1) 「Ego APIs」 這些API提供有關(guān)自動(dòng)駕駛車輛狀態(tài)的信息，如其速度和位置；

(2) 「Perception APIs」 這些API包括目標(biāo)和車道檢測(cè)等功能，可用于獲取周圍環(huán)境的信息；

(3) 「Planning APIs」 這些API在提供目的地時(shí)具備生成路徑的能力；

(4 )「Control APIs」 這些API將LLM生成的代碼轉(zhuǎn)換為車輛的低級(jí)命令，實(shí)施適當(dāng)?shù)捻憫?yīng)以避免碰撞。在執(zhí)行生成的策略期間，如果出現(xiàn)異常情況，自動(dòng)駕駛車輛將自動(dòng)切換到預(yù)定義的autopilot模式，以防止未定義的行為。API的完整列表在附錄中提供。

輸入提示

除了主要的指令之外，我們還提供環(huán)境背景和API文檔作為L(zhǎng)LMs的輸入提示的一部分。

「環(huán)境背景」：環(huán)境背景包括有關(guān)駕駛環(huán)境的相關(guān)信息。這些詳細(xì)信息在仿真器中表示為數(shù)值向量。開(kāi)發(fā)了一個(gè)接口，允許LLMs使用這些信息，將數(shù)值向量轉(zhuǎn)換為自然語(yǔ)言描述。這些向量包含來(lái)自仿真的語(yǔ)義屬性，如道路上其他車輛、自動(dòng)駕駛車輛和地圖的信息。這種方法使我們的工作與該領(lǐng)域中其他最近的進(jìn)展有所區(qū)別，在那里數(shù)值向量直接輸入LLMs而沒(méi)有進(jìn)行任何上下文翻譯。具體而言，采用了一個(gè)結(jié)構(gòu)化的語(yǔ)言生成器，如下所示：

此函數(shù)將狀態(tài)向量的數(shù)值數(shù)據(jù)轉(zhuǎn)換為敘述格式。這個(gè)敘述不需要額外的微調(diào)就能夠被LLM解釋。它提供了有關(guān)agents環(huán)境的全面信息，包括其他道路用戶、自動(dòng)駕駛車輛狀態(tài)和相關(guān)地圖信息。

「API文檔」：考慮一個(gè)例子指令“向右變道”，LLM可能建議執(zhí)行動(dòng)作change_lane_right。然而，控制器可能不直接支持這個(gè)作為基本動(dòng)作。為了彌合這個(gè)差距，我們?cè)谔崾局邪珹PI文檔。這些文檔為L(zhǎng)LMs提供了有關(guān)可用API的基本信息，并指導(dǎo)它們的正確使用。這些文檔不僅包括輸入和輸出規(guī)范，還提供了它們的用法描述和這些功能背后邏輯的說(shuō)明。通過(guò)將API文檔整合到提示中，確保LLM生成的策略代碼與自動(dòng)駕駛車輛的實(shí)際能力相符，從而促使可執(zhí)行的行動(dòng)規(guī)劃。

完成和執(zhí)行

如前面圖1所示，LLM接收提示并負(fù)責(zé)生成一個(gè)完成。由LLMs生成的完成預(yù)計(jì)是有效的函數(shù)，使用提供的API編寫(xiě)。這些函數(shù)可以從簡(jiǎn)單的一次性函數(shù)到更復(fù)雜的生成器函數(shù)。下面演示了一個(gè)簡(jiǎn)單的例子，其中更改了自動(dòng)駕駛車輛的目標(biāo)速度：

此外，LaMPilot支持使用控制結(jié)構(gòu)，如if-else和循環(huán)語(yǔ)句，使LLM能夠創(chuàng)建動(dòng)態(tài)反饋策略。一個(gè)示例是用于進(jìn)行左變道的while循環(huán)：

在這個(gè)例子中，策略持續(xù)評(píng)估變道到左車道的可行性。當(dāng)條件安全時(shí)，它執(zhí)行車道變換；否則，它將默認(rèn)為autopilot函數(shù)。

要在LaMPilot中執(zhí)行LMP，使用Python的exec函數(shù)。此函數(shù)以LMP代碼作為輸入字符串，以及兩個(gè)定義執(zhí)行范圍的字典：(i) apis，其中包括代碼可能調(diào)用的所有APIs，和 (ii) policies，一個(gè)最初為空的字典，最終將包含合成的函數(shù)和一個(gè)策略變量。如果LMP設(shè)計(jì)為返回生成器，那么在exec函數(shù)執(zhí)行后，這個(gè)生成器將從locals字典中提取出來(lái)。

評(píng)估

本文框架使用三個(gè)關(guān)鍵指標(biāo)（安全性、舒適性和效率）從初始狀態(tài)b評(píng)估駕駛性能到目標(biāo)狀態(tài)g∈G。

「安全性指標(biāo)」：本文采用碰撞時(shí)間（TTC）作為主要安全性指標(biāo)。它通過(guò)評(píng)估車輛維持安全距離和適當(dāng)反應(yīng)以避免碰撞的能力，來(lái)衡量車輛與交通規(guī)則和人類駕駛行為的相似性。在包括自動(dòng)駕駛車輛在內(nèi)的n+1車輛的場(chǎng)景中，使用標(biāo)簽i來(lái)具體指代每輛車，其中0是自動(dòng)駕駛車輛。對(duì)于具有狀態(tài)s的單個(gè)時(shí)間步長(zhǎng)，使用其速度∈s和位置∈s，與具有速度∈s和位置∈s的另一輛車進(jìn)行比較，計(jì)算與車輛i的碰撞時(shí)間（），其中1 ≤ i ≤ n。公式為：

為計(jì)算TTC分?jǐn)?shù)，從所有n輛其他車輛和所有時(shí)間步中選擇表示最近潛在碰撞的最短正碰撞時(shí)間值。使用t來(lái)索引每個(gè)時(shí)間步長(zhǎng)，T表示實(shí)際任務(wù)完成時(shí)間。因此，對(duì)于所有，其中i范圍從1到n，t范圍從1到T，可以計(jì)算如下：

根據(jù)實(shí)證數(shù)據(jù)，TTC分?jǐn)?shù)基于2秒的安全余地，超過(guò)2秒的分?jǐn)?shù)被認(rèn)為是安全的，并評(píng)為100。具體而言，TTC分?jǐn)?shù)的計(jì)算如下：

「舒適性指標(biāo)」：速度方差（SV）用于評(píng)估速度過(guò)渡的平穩(wěn)性，反映了駕駛策略的舒適水平。

首先，需要計(jì)算自動(dòng)駕駛車輛的速度標(biāo)準(zhǔn)差。對(duì)于每個(gè)時(shí)間步t，其中1 ≤ t ≤ T，計(jì)算如下：

其中，是自動(dòng)駕駛車輛的平均速度：

然后，速度方差（SV）分?jǐn)?shù)定義為：

其中，是最大舒適速度偏差。

效率指標(biāo)：時(shí)間效率（TE）分?jǐn)?shù)評(píng)估策略代碼的時(shí)間效率，計(jì)算如下：

在這里，T表示實(shí)際任務(wù)完成時(shí)間，而是預(yù)定義的時(shí)間限制。

任務(wù)完成標(biāo)準(zhǔn)：當(dāng)自動(dòng)駕駛車輛成功地從初始狀態(tài)b轉(zhuǎn)換到目標(biāo)狀態(tài)g∈G時(shí)，任務(wù)被認(rèn)為完成。具體來(lái)說(shuō)，它需要滿足具體的條件。例如，變道任務(wù)在車輛進(jìn)入目標(biāo)車道，并且其航向與車道方向?qū)R在一個(gè)定義的閾值內(nèi)時(shí)被視為完成。所有標(biāo)準(zhǔn)的完整列表概述在附錄中。

整體評(píng)分：最終分?jǐn)?shù)是所有單個(gè)指標(biāo)的綜合：

每個(gè)指標(biāo)對(duì)總體分?jǐn)?shù)的貢獻(xiàn)由其各自的權(quán)重W決定。

基準(zhǔn)模型

啟發(fā)式基線

在自動(dòng)駕駛領(lǐng)域，基于規(guī)則的模型因其確定性和可解釋性而備受青睞。在這個(gè)背景下，采用兩種基于規(guī)則的基準(zhǔn)策略：智能駕駛模型（IDM）和最小化變道引起的整體制動(dòng)（MOBIL）原則。IDM描述了一種根據(jù)車輛與直接在前方的物體的接近程度和相對(duì)速度來(lái)避免碰撞的加速度更新規(guī)則。根據(jù)MOBIL，僅當(dāng)新的車道提供更有利的駕駛場(chǎng)景且該操作可以安全進(jìn)行時(shí)，才執(zhí)行變道。這些基線可以被視為基于隨機(jī)機(jī)會(huì)運(yùn)行，因?yàn)椴呗元?dú)立于用戶指令，而是遵循預(yù)定義的規(guī)則。

此外，還包括一個(gè)human performance基線，其中由有駕照的人類駕駛員使用鍵盤(pán)上的箭頭鍵控制車輛，根據(jù)顯示的命令和可視化信息進(jìn)行仿真。這個(gè)基線為L(zhǎng)aMPilot基準(zhǔn)上的人類水平性能提供了一個(gè)參考。

零樣本和少樣本基線

使用廣泛的最新大語(yǔ)言模型進(jìn)行基準(zhǔn)測(cè)試，其中包括開(kāi)源和專有的解決方案。評(píng)估的模型包括：Llama 2，PaLM 2，ChatGPT，GPT-4和GPT-4 Turbo。零樣本設(shè)置配置了從API描述（A），用戶指令（I）和駕駛環(huán)境（C）到可執(zhí)行程序代碼（P）的映射，其中輸入提示包括由公式(1)中的結(jié)構(gòu)化語(yǔ)言生成器生成的（A），（I）和（C）的連接標(biāo)記。輸出旨在提供符合給定駕駛上下文中用戶指令的可執(zhí)行程序代碼（P）。在少樣本設(shè)置中，遵循標(biāo)準(zhǔn)范例，在測(cè)試實(shí)例之前包含k個(gè)人工編寫(xiě)的例子{} 這些上下文示例有助于模型適應(yīng)LaMPilot基準(zhǔn)中的任務(wù)。

人類反饋基線

大語(yǔ)言模型已經(jīng)展示了在各種任務(wù)中生成一致解決方案的熟練能力，無(wú)需額外的微調(diào)。然而，在代碼生成方面，特別是對(duì)于復(fù)雜場(chǎng)景，它們可能會(huì)產(chǎn)生次優(yōu)結(jié)果。這些模型的自回歸性質(zhì)構(gòu)成了一個(gè)重要挑戰(zhàn)，因?yàn)樵谛蛄械脑缙谏傻臉?biāo)記不能在同一迭代中修改。這種約束限制了模型在細(xì)化初始響應(yīng)方面的能力，可能影響生成代碼的有效性。

為了解決這些挑戰(zhàn)并提高LLM在LaMPilot基準(zhǔn)任務(wù)中的性能，引入了一種人機(jī)協(xié)同的方法。這種方法與大多數(shù)僅依賴經(jīng)驗(yàn)學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)自動(dòng)駕駛系統(tǒng)不同。相反，它將實(shí)際經(jīng)驗(yàn)與理論知識(shí)相結(jié)合，類似于人類駕駛員如何培養(yǎng)駕駛技能。在這種方法中，LLMs不僅充當(dāng)規(guī)劃者，還作為整合人類反饋的平臺(tái)。如下圖3所示，人類反饋融入到學(xué)習(xí)過(guò)程中，將其從一個(gè)靜態(tài)的、開(kāi)環(huán)系統(tǒng)轉(zhuǎn)變?yōu)橐粋€(gè)動(dòng)態(tài)的、不斷演化的反饋循環(huán)。在LLM生成策略程序（P）后，它可以集成人類反饋（F）以獲得特定上下文的指導(dǎo)，使LLM能夠細(xì)化其輸出。

例如，人類可能建議在交叉路口車流量繁忙的情況下，在無(wú)信號(hào)燈的左轉(zhuǎn)時(shí)采取更為果斷的策略。這些建議幫助LLM調(diào)整其策略，使其更好地與人類喜好和情境需求保持一致。

這種方法不涉及計(jì)算梯度或修改模型權(quán)重，因?yàn)檫@些過(guò)程在計(jì)算上是昂貴的。相反，引入了一個(gè)代碼存儲(chǔ)庫(kù)模塊，它充當(dāng)矢量數(shù)據(jù)庫(kù)。該存儲(chǔ)庫(kù)允許存儲(chǔ)和檢索有效代碼片段，以在類似情況下重復(fù)使用。遵循中的方法，LLM生成一個(gè)函數(shù)描述，然后將其轉(zhuǎn)換為一個(gè)矢量，用作數(shù)據(jù)庫(kù)鍵。此鍵與相應(yīng)的函數(shù)代碼配對(duì)，作為其值。一旦人類評(píng)論者對(duì)策略滿意，代碼就會(huì)提交到存儲(chǔ)庫(kù)以供將來(lái)重用。

實(shí)驗(yàn)和結(jié)果

實(shí)驗(yàn)設(shè)置旨在為提出的LaMPilot基準(zhǔn)建立基線。主要目標(biāo)是評(píng)估生成代碼的LLMs在理解駕駛場(chǎng)景中的人類口頭指令方面的性能。還旨在評(píng)估這些LLMs生成用于車輛控制的代碼的能力，其中使用了預(yù)定義的行為原語(yǔ)。此外，調(diào)查了具有記憶增強(qiáng)的LLMs在整合人類反饋方面的效果。

設(shè)置

為每個(gè)場(chǎng)景設(shè)置了60秒的時(shí)間限制。如果在此時(shí)間范圍內(nèi)未完成任務(wù)，則將考慮測(cè)試用例失敗，并終止仿真，導(dǎo)致駕駛得分為0。對(duì)于成功的案例，駕駛得分使用以下公式計(jì)算：

這里，代表成功測(cè)試案例的數(shù)量，α 是成功率（從 0 到 1），β 是碰撞率（也在 0 到 1 之間），是碰撞的懲罰因子（在我們的實(shí)驗(yàn)中設(shè)置為 500）。每個(gè)單獨(dú)樣本的根據(jù)公式（9）計(jì)算，其中權(quán)重分別設(shè)置為 0.5，0.3 和 0.2。TTC 得分，SV 得分和 TE 得分分別計(jì)算為所有成功測(cè)試案例的相應(yīng)指標(biāo)的平均值。

一個(gè)熟練使用 Python 的標(biāo)注者創(chuàng)建了上下文示例。他們獲得 API 描述，并有機(jī)會(huì)使用驗(yàn)證集編寫(xiě)和測(cè)試他們的代碼。對(duì)于few-shot設(shè)置，使用了一組在所有測(cè)試案例中都相同的三個(gè)示例。API 文檔在所有測(cè)試案例中也是相同的。

結(jié)果

在本節(jié)中，介紹了LaMPilot基準(zhǔn)的實(shí)驗(yàn)結(jié)果，總結(jié)了各種方法的性能，包括啟發(fā)式基線，零樣本和少樣本基線以及人類反饋基線。這些結(jié)果在下表2中詳細(xì)說(shuō)明。

基于規(guī)則的方法首先評(píng)估基于規(guī)則的方法的性能，具體而言是IDM和MOBIL算法。這兩種基于規(guī)則的方法在LaMPilot基準(zhǔn)中都實(shí)現(xiàn)了零碰撞率。這個(gè)結(jié)果突顯了它們作為成熟駕駛策略的可靠性和有效性。重要的是要注意，這些方法獨(dú)立于提供的指令運(yùn)行。具體而言，不考慮人類指令的情況下，這些方法的成功率在15％到20％之間。這為評(píng)估LLM-basedagents在遵循人類指令方面的有效性提供了重要的參考點(diǎn)。

「人類表現(xiàn)」 在各種評(píng)估指標(biāo)方面，人類始終優(yōu)于所有基線模型。他們保持了零碰撞率，并在完成率方面相對(duì)于表現(xiàn)最好的帶有人類反饋的 LLM-based agents表現(xiàn)出明顯優(yōu)勢(shì)。這種差距突顯了未來(lái)研究的潛在領(lǐng)域。值得注意的是，即使是人類駕駛員也不能取得完美的分?jǐn)?shù)，這強(qiáng)調(diào)了 LaMPilot 基準(zhǔn)中特定場(chǎng)景的復(fù)雜性。例如，在規(guī)定的時(shí)間內(nèi)在繁忙交通中進(jìn)行不受保護(hù)的左轉(zhuǎn)可能特別具有挑戰(zhàn)性。

「大語(yǔ)言模型」 評(píng)估了大量預(yù)訓(xùn)練對(duì)LLMs具有使用常識(shí)進(jìn)行推理以及遵循人類指令的能力的影響。

在零樣本設(shè)置中，OpenAI 的 GPT 模型和 PaLM 2（沒(méi)有任何微調(diào)，僅提供 API 文檔、駕駛上下文和指令）與基于規(guī)則的方法相比取得了顯著的性能優(yōu)勢(shì)。然而，這也導(dǎo)致了碰撞率的增加（1%-4%），表明它們生成的代碼策略并沒(méi)有完全捕捉到駕駛?cè)蝿?wù)的復(fù)雜性。

當(dāng)提供包含演示代碼的訓(xùn)練示例時(shí)，所有評(píng)估的LLMs在完成率上都表現(xiàn)出顯著的改善。將 GPT 模型與人在回路學(xué)習(xí)相結(jié)合進(jìn)一步提高了它們?cè)隈{駛?cè)蝿?wù)中的性能。值得注意的是，GPT-4 實(shí)現(xiàn)了一個(gè)最先進(jìn)的結(jié)果，完成率為 92.7%，最小碰撞率為 0.9%，相比之下，人的成功率為 98%，突顯了LLMs在駕駛背景下遵循指令的巨大潛力。

結(jié)論和限制

本文介紹了 LaMPilot，一個(gè)包含 4.9K 場(chǎng)景的新穎基準(zhǔn)數(shù)據(jù)集，專門(mén)設(shè)計(jì)用于評(píng)估自動(dòng)駕駛中的指令執(zhí)行情況。這是第一個(gè)旨在評(píng)估LLMs在這個(gè)應(yīng)用中能力的數(shù)據(jù)集。LaMPilot上測(cè)試了各種最先進(jìn)的LLMs。主要關(guān)注點(diǎn)是探索使用LLMs生成符合駕駛指令的代碼的可行性。實(shí)驗(yàn)表明，帶有人類反饋的GPT-4實(shí)現(xiàn)了令人印象深刻的任務(wù)完成率，為92.7%，最小碰撞率為0.9%。

雖然框架代表了一個(gè)重大的進(jìn)步，但也強(qiáng)調(diào)了LLMs在更好地支持駕駛?cè)蝿?wù)中的指令跟隨方面仍然需要重大改進(jìn)。盡管完成率令人鼓舞，但仍然存在顯著的碰撞率。值得注意的是，在我們的研究中，LLMs沒(méi)有進(jìn)行任何特定的微調(diào)或參數(shù)調(diào)整。然而，LaMPilot包含了一系列適合交互式學(xué)習(xí)的場(chǎng)景，為未來(lái)的探索提供了一個(gè)有希望的方向。

總的來(lái)說(shuō)，研究為這一領(lǐng)域的進(jìn)一步研究奠定了基礎(chǔ)。預(yù)計(jì)我們的基準(zhǔn)和框架將對(duì)那些有興趣利用LLMs在自動(dòng)駕駛中不斷發(fā)展的能力的研究人員非常有價(jià)值。

參考文獻(xiàn)

[1] LaMPilot: An Open Benchmark Dataset for Autonomous Driving with Language Model Programs

鏈接：https://arxiv.org/pdf/2312.04372

更多精彩內(nèi)容，請(qǐng)關(guān)注公眾號(hào)：AI生成未來(lái)

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

引言

相關(guān)工作

用于機(jī)器人規(guī)劃的大語(yǔ)言模型

駕駛中的語(yǔ)言

用于代碼生成的大語(yǔ)言模型