今天為大家介紹的是來(lái)自微軟和OpenAI的一篇討論GPT-4在醫(yī)學(xué)問(wèn)答場(chǎng)景下應(yīng)用的論文。GPT-4是一種通用模型,沒(méi)有通過(guò)訓(xùn)練或工程化來(lái)解決臨床任務(wù)。該論文對(duì)GPT-4在醫(yī)學(xué)能力考試和基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)進(jìn)行了全面評(píng)估,并探討了模型輸出概率的校準(zhǔn),以及其在醫(yī)學(xué)教育等多個(gè)方面中的潛在應(yīng)用。
大型語(yǔ)言模型(LLMs)展示了在各種領(lǐng)域中生成和解釋序列的卓越能力,例如自然語(yǔ)言、計(jì)算機(jī)代碼和蛋白質(zhì)序列。模型在各種基準(zhǔn)測(cè)試中的得分通常隨著模型大小、數(shù)據(jù)集大小和訓(xùn)練計(jì)算量的增加而改善。這些經(jīng)驗(yàn)結(jié)果與理論分析相一致,表明神經(jīng)模型的推斷能力需要規(guī)模的支持。
LLM在沒(méi)有專門調(diào)整的情況下能夠?yàn)閺V泛的專業(yè)任務(wù)做出有用的推斷。通用LLMs在使用少量或甚至零提示的情況下的表現(xiàn),凸顯了它們?cè)诟鞣N問(wèn)題類型、多專業(yè)領(lǐng)域和學(xué)科上協(xié)助任務(wù)的潛力。在這里,作者比較最近發(fā)布的GPT-4模型(純文本版本)與其前輩GPT系列在醫(yī)學(xué)挑戰(zhàn)問(wèn)題上的表現(xiàn)。文章的目標(biāo)是為GPT-4建立“開箱即用”的性能指標(biāo)。為此,作者使用了最簡(jiǎn)單的提示(zero-shot和5-shot提示),發(fā)現(xiàn)GPT-4在沒(méi)有任何精細(xì)提示技巧或領(lǐng)域特定的微調(diào)的情況下遠(yuǎn)超其前輩模型。
數(shù)據(jù)集的選取
該研究考慮了六個(gè)不同方面的醫(yī)學(xué)知識(shí)和推理數(shù)據(jù)集,其中兩個(gè)數(shù)據(jù)集源自National Board of Medical Examiners (NBME),包括USMLE Sample Exam 和USMLE Self Assessments。另外四個(gè)數(shù)據(jù)集包括MedQA、PubMedQA、MedMCQA和MMLU,它們是基于醫(yī)學(xué)文獻(xiàn)、臨床案例和用戶生成內(nèi)容的公開基準(zhǔn)測(cè)試數(shù)據(jù)集。
提示方式
研究采取的模板,以及一個(gè)zero-shot的例子如上圖所示。
醫(yī)療能力考試
本文分析了在美國(guó)醫(yī)學(xué)許可考試(USMLE)的兩個(gè)官方實(shí)踐材料集上的模型表現(xiàn)。USMLE是一項(xiàng)分三步的考試計(jì)劃,旨在評(píng)估臨床能力,每一步都標(biāo)志著醫(yī)學(xué)培訓(xùn)的一個(gè)里程碑。USMLE考試的第一步考試內(nèi)容涵蓋核心臨床知識(shí),包括病理學(xué)和生理學(xué)等。第二步探究考生對(duì)診斷和患者管理的了解來(lái)測(cè)試臨床理解能力。第三步是USMLE序列的最終考試,該考試評(píng)估醫(yī)學(xué)住院醫(yī)師在無(wú)監(jiān)督醫(yī)療實(shí)踐中應(yīng)用其工作知識(shí)的能力,通過(guò)第三步的表現(xiàn)是被授權(quán)獨(dú)立執(zhí)業(yè)醫(yī)學(xué)服務(wù)的必要條件。
GPT-4在官方的美國(guó)醫(yī)學(xué)許可考試(USMLE)問(wèn)題上表現(xiàn)出了顯著的改進(jìn)(具體結(jié)果如上述表格所示),在與GPT-3.5相比時(shí),兩個(gè)考試的得分都提高了30個(gè)百分點(diǎn)以上。USMLE網(wǎng)站指出,雖然具體的及格門檻每年都會(huì)有所不同,但考生必須回答大約60%的多項(xiàng)選擇題才能獲得及格分?jǐn)?shù)。盡管早期的模型如GPT-3.5接近及格門檻,但GPT-4在這方面有了很大的進(jìn)步。
GPT-4模型(文本模型)在USMLE自我評(píng)估和樣例考試中的表現(xiàn)特別令人驚訝,因?yàn)檫@兩個(gè)考試在問(wèn)題中經(jīng)常使用媒體元素(例如圖表、照片、表格),但這些元素并不傳遞給模型。在手動(dòng)標(biāo)注的練習(xí)中,作者發(fā)現(xiàn)自我評(píng)估中有314道涉及媒體的問(wèn)題,總共2173道問(wèn)題(數(shù)據(jù)集的14.4%),而樣例考試中有49道涉及媒體的問(wèn)題,總共376道問(wèn)題(數(shù)據(jù)集的13.0%)。區(qū)分含有媒體元素和純文本問(wèn)題之后,模型的表現(xiàn)如上表所示。盡管無(wú)法看到相關(guān)的圖像,僅有文本的GPT-4模型通常能夠運(yùn)用邏輯推理和考試策略來(lái)選擇合理的答案選項(xiàng)。
醫(yī)學(xué)挑戰(zhàn)基準(zhǔn)測(cè)試
作者提供了來(lái)自MultiMedQA的四個(gè)多項(xiàng)選擇題數(shù)據(jù)集的基準(zhǔn)測(cè)試。這些基準(zhǔn)測(cè)試包括MedQA、PubMedQA、MedMCQA和MMLU的醫(yī)學(xué)組成部分。MultiMedQA還包含三個(gè)未在此處測(cè)試的數(shù)據(jù)集,它們是LiveQA、MedicationQA和HealthSearchQA;所有這些數(shù)據(jù)集都需要進(jìn)行詳盡的專家分析以確?;卮鸬臏?zhǔn)確性。
模型具體結(jié)果如上表所示,值得注意的是,盡管有些數(shù)據(jù)集為非英語(yǔ)數(shù)據(jù)集,GPT-4效果仍然非常好。
模型校準(zhǔn)
本文討論了 GPT-4 的校準(zhǔn)性,即預(yù)測(cè)的正確概率和真實(shí)結(jié)果之間的一致性。在醫(yī)學(xué)等高風(fēng)險(xiǎn)領(lǐng)域應(yīng)用中,概率校準(zhǔn)是至關(guān)重要的。一個(gè)校準(zhǔn)良好的模型可以提供可信賴和可解釋的概率,反映出模型的置信度,在向醫(yī)療保健專業(yè)人士和其他信息使用者提供診斷和治療方案等信息時(shí),這一點(diǎn)至關(guān)重要。如上圖所示,GPT-4相比于前作,校準(zhǔn)性能有顯著的提升。文章在此處只討論在多項(xiàng)選擇題回答的情況下進(jìn)行校準(zhǔn)驗(yàn)證,因?yàn)檫@里可以讓模型對(duì)每個(gè)選項(xiàng)進(jìn)行打分,便于量化。衡量生成模型的長(zhǎng)格式文本生成方面仍然是一個(gè)開放的研究領(lǐng)域,如何評(píng)估文本生成方面的校準(zhǔn)性仍需考量。
GPT-4的擴(kuò)展應(yīng)用
該研究還通過(guò)將醫(yī)學(xué)問(wèn)題擴(kuò)展到交互式會(huì)話中,探索了GPT-4的其他能力。除了提供有關(guān)模型能力的討論外,這種擴(kuò)展還展示了模型新形式的教育應(yīng)用和臨床應(yīng)用的方向。
作者用事例展示了模型在醫(yī)學(xué)問(wèn)題上的:(1)綜合推理選取正確答案的能力;(2)為學(xué)生講解錯(cuò)誤答案的能力;(3)推理學(xué)生為什么會(huì)選擇錯(cuò)誤答案的能力;(4)修改問(wèn)題背景使得錯(cuò)誤答案變成正確答案的能力。詳情請(qǐng)閱讀原文。
GPT-4在實(shí)際應(yīng)用中的風(fēng)險(xiǎn)
生成答案存在錯(cuò)誤:在醫(yī)療保健領(lǐng)域引入各種形式的自動(dòng)化,包括機(jī)器學(xué)習(xí)的使用,必須非常謹(jǐn)慎。我們需要進(jìn)一步的研究來(lái)解決模型輸出的真實(shí)性問(wèn)題。研究方向包括利用搜索和檢索來(lái)幫助將生成的內(nèi)容與文獻(xiàn)聯(lián)系起來(lái),進(jìn)行自一致性檢查等。醫(yī)療保健提供者如果依賴 GPT-4 和其他模型的信息,需要遵守最高的驗(yàn)證標(biāo)準(zhǔn)。需要制定和分享醫(yī)療專業(yè)人士的質(zhì)量保證最佳實(shí)踐,以確保其安全有效的使用。
模型偏見:我們對(duì)大規(guī)模語(yǔ)言模型所累積的偏見,以及在不同類型的醫(yī)療提示和生成中出現(xiàn)公平性問(wèn)題的理解非常有限。在沒(méi)有研究的情況下,我們必須對(duì)臨床實(shí)踐和研究中的偏見保持警惕,尤其是針對(duì)種族、社會(huì)經(jīng)濟(jì)背景、性別和其他因素,這些因素貫穿于用于訓(xùn)練大規(guī)模語(yǔ)言模型的語(yǔ)料庫(kù)。
工作流程、任務(wù)和專業(yè)方面的影響:GPT-4在USMLE考試和其他醫(yī)學(xué)工作量上的表現(xiàn)表明,如果得到適當(dāng)?shù)膶<冶O(jiān)督,它們可以為實(shí)現(xiàn)精準(zhǔn)臨床醫(yī)學(xué)做出貢獻(xiàn)??梢岳肎PT-4及其后繼模型提供醫(yī)療從業(yè)者分析、提醒和決策支持,包括協(xié)助從患者病史、體征和實(shí)驗(yàn)室結(jié)果中制定和修訂鑒別診斷等。
社會(huì)問(wèn)題:GPT-4的能力可以對(duì)醫(yī)學(xué)生涯的選擇、住院醫(yī)師培訓(xùn)和最終專業(yè)的選擇產(chǎn)生廣泛社會(huì)影響。人工智能在醫(yī)療領(lǐng)域日益增長(zhǎng)的能力可能會(huì)導(dǎo)致醫(yī)學(xué)專業(yè)中人類智力的價(jià)值被降低。醫(yī)生可能會(huì)擔(dān)心醫(yī)學(xué)專業(yè)的實(shí)踐或價(jià)值發(fā)生重大轉(zhuǎn)變。AI在醫(yī)學(xué)專業(yè)中的日益增長(zhǎng)的能力可能會(huì)影響醫(yī)學(xué)生涯的選擇,從而改變對(duì)哪些任務(wù)依賴于真正的人類智力的看法。
對(duì)未來(lái)的影響:GPT-4在醫(yī)學(xué)挑戰(zhàn)問(wèn)題上的表現(xiàn),揭示了大規(guī)模模型在處理復(fù)雜現(xiàn)實(shí)問(wèn)題方面的潛力,未來(lái)還將繼續(xù)進(jìn)步。LLMs的進(jìn)展不僅對(duì)醫(yī)學(xué)有影響,還會(huì)對(duì)法律、銀行、工程、會(huì)計(jì)等眾多知識(shí)密集型職業(yè)產(chǎn)生影響,因?yàn)樗赡芨淖儸F(xiàn)有的技術(shù)教育和培訓(xùn)體系,以及職業(yè)發(fā)展模式。
結(jié)論
文章對(duì)GPT-4、GPT-3.5和Flan-PaLM 540B在醫(yī)學(xué)能力考試和基準(zhǔn)數(shù)據(jù)集上進(jìn)行了比較評(píng)估。結(jié)果發(fā)現(xiàn),GPT-4明顯優(yōu)于GPT-3.5和Flan-PaLM 540B,而且在MultiMedQA數(shù)據(jù)集上也表現(xiàn)出色。作者還探討了模型輸出概率的校準(zhǔn),強(qiáng)調(diào)了校準(zhǔn)對(duì)醫(yī)學(xué)應(yīng)用的重要性。最后,作者討論了GPT-4在醫(yī)學(xué)應(yīng)用中的更廣泛影響。盡管GPT-4效果如此出色,考慮到可能存在的錯(cuò)誤和在實(shí)際場(chǎng)景中評(píng)估性能的挑戰(zhàn),在實(shí)踐中仍需審慎起能力,我們?nèi)孕栝_發(fā)和評(píng)估其適當(dāng)用途。
參考資料
https://arxiv.org/pdf/2303.13375.pdf
聯(lián)系客服