久久精品一区二区三区四区,国产精品午夜激爽毛片,日本中文字幕一区二区三区不卡

今天為大家介紹的是來(lái)自微軟和OpenAI的一篇討論GPT-4在醫(yī)學(xué)問(wèn)答場(chǎng)景下應(yīng)用的論文。GPT-4是一種通用模型，沒(méi)有通過(guò)訓(xùn)練或工程化來(lái)解決臨床任務(wù)。該論文對(duì)GPT-4在醫(yī)學(xué)能力考試和基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)進(jìn)行了全面評(píng)估，并探討了模型輸出概率的校準(zhǔn)，以及其在醫(yī)學(xué)教育等多個(gè)方面中的潛在應(yīng)用。

大型語(yǔ)言模型（LLMs）展示了在各種領(lǐng)域中生成和解釋序列的卓越能力，例如自然語(yǔ)言、計(jì)算機(jī)代碼和蛋白質(zhì)序列。模型在各種基準(zhǔn)測(cè)試中的得分通常隨著模型大小、數(shù)據(jù)集大小和訓(xùn)練計(jì)算量的增加而改善。這些經(jīng)驗(yàn)結(jié)果與理論分析相一致，表明神經(jīng)模型的推斷能力需要規(guī)模的支持。

LLM在沒(méi)有專門調(diào)整的情況下能夠?yàn)閺V泛的專業(yè)任務(wù)做出有用的推斷。通用LLMs在使用少量或甚至零提示的情況下的表現(xiàn)，凸顯了它們?cè)诟鞣N問(wèn)題類型、多專業(yè)領(lǐng)域和學(xué)科上協(xié)助任務(wù)的潛力。在這里，作者比較最近發(fā)布的GPT-4模型（純文本版本）與其前輩GPT系列在醫(yī)學(xué)挑戰(zhàn)問(wèn)題上的表現(xiàn)。文章的目標(biāo)是為GPT-4建立“開箱即用”的性能指標(biāo)。為此，作者使用了最簡(jiǎn)單的提示（zero-shot和5-shot提示），發(fā)現(xiàn)GPT-4在沒(méi)有任何精細(xì)提示技巧或領(lǐng)域特定的微調(diào)的情況下遠(yuǎn)超其前輩模型。

數(shù)據(jù)集的選取

該研究考慮了六個(gè)不同方面的醫(yī)學(xué)知識(shí)和推理數(shù)據(jù)集，其中兩個(gè)數(shù)據(jù)集源自National Board of Medical Examiners (NBME)，包括USMLE Sample Exam 和USMLE Self Assessments。另外四個(gè)數(shù)據(jù)集包括MedQA、PubMedQA、MedMCQA和MMLU，它們是基于醫(yī)學(xué)文獻(xiàn)、臨床案例和用戶生成內(nèi)容的公開基準(zhǔn)測(cè)試數(shù)據(jù)集。

提示方式

研究采取的模板，以及一個(gè)zero-shot的例子如上圖所示。

醫(yī)療能力考試

本文分析了在美國(guó)醫(yī)學(xué)許可考試（USMLE）的兩個(gè)官方實(shí)踐材料集上的模型表現(xiàn)。USMLE是一項(xiàng)分三步的考試計(jì)劃，旨在評(píng)估臨床能力，每一步都標(biāo)志著醫(yī)學(xué)培訓(xùn)的一個(gè)里程碑。USMLE考試的第一步考試內(nèi)容涵蓋核心臨床知識(shí)，包括病理學(xué)和生理學(xué)等。第二步探究考生對(duì)診斷和患者管理的了解來(lái)測(cè)試臨床理解能力。第三步是USMLE序列的最終考試，該考試評(píng)估醫(yī)學(xué)住院醫(yī)師在無(wú)監(jiān)督醫(yī)療實(shí)踐中應(yīng)用其工作知識(shí)的能力，通過(guò)第三步的表現(xiàn)是被授權(quán)獨(dú)立執(zhí)業(yè)醫(yī)學(xué)服務(wù)的必要條件。

GPT-4在官方的美國(guó)醫(yī)學(xué)許可考試（USMLE）問(wèn)題上表現(xiàn)出了顯著的改進(jìn)（具體結(jié)果如上述表格所示），在與GPT-3.5相比時(shí)，兩個(gè)考試的得分都提高了30個(gè)百分點(diǎn)以上。USMLE網(wǎng)站指出，雖然具體的及格門檻每年都會(huì)有所不同，但考生必須回答大約60%的多項(xiàng)選擇題才能獲得及格分?jǐn)?shù)。盡管早期的模型如GPT-3.5接近及格門檻，但GPT-4在這方面有了很大的進(jìn)步。

GPT-4模型（文本模型）在USMLE自我評(píng)估和樣例考試中的表現(xiàn)特別令人驚訝，因?yàn)檫@兩個(gè)考試在問(wèn)題中經(jīng)常使用媒體元素（例如圖表、照片、表格），但這些元素并不傳遞給模型。在手動(dòng)標(biāo)注的練習(xí)中，作者發(fā)現(xiàn)自我評(píng)估中有314道涉及媒體的問(wèn)題，總共2173道問(wèn)題（數(shù)據(jù)集的14.4%），而樣例考試中有49道涉及媒體的問(wèn)題，總共376道問(wèn)題（數(shù)據(jù)集的13.0%）。區(qū)分含有媒體元素和純文本問(wèn)題之后，模型的表現(xiàn)如上表所示。盡管無(wú)法看到相關(guān)的圖像，僅有文本的GPT-4模型通常能夠運(yùn)用邏輯推理和考試策略來(lái)選擇合理的答案選項(xiàng)。

醫(yī)學(xué)挑戰(zhàn)基準(zhǔn)測(cè)試

作者提供了來(lái)自MultiMedQA的四個(gè)多項(xiàng)選擇題數(shù)據(jù)集的基準(zhǔn)測(cè)試。這些基準(zhǔn)測(cè)試包括MedQA、PubMedQA、MedMCQA和MMLU的醫(yī)學(xué)組成部分。MultiMedQA還包含三個(gè)未在此處測(cè)試的數(shù)據(jù)集，它們是LiveQA、MedicationQA和HealthSearchQA；所有這些數(shù)據(jù)集都需要進(jìn)行詳盡的專家分析以確?；卮鸬臏?zhǔn)確性。

模型具體結(jié)果如上表所示，值得注意的是，盡管有些數(shù)據(jù)集為非英語(yǔ)數(shù)據(jù)集，GPT-4效果仍然非常好。

模型校準(zhǔn)

本文討論了 GPT-4 的校準(zhǔn)性，即預(yù)測(cè)的正確概率和真實(shí)結(jié)果之間的一致性。在醫(yī)學(xué)等高風(fēng)險(xiǎn)領(lǐng)域應(yīng)用中，概率校準(zhǔn)是至關(guān)重要的。一個(gè)校準(zhǔn)良好的模型可以提供可信賴和可解釋的概率，反映出模型的置信度，在向醫(yī)療保健專業(yè)人士和其他信息使用者提供診斷和治療方案等信息時(shí)，這一點(diǎn)至關(guān)重要。如上圖所示，GPT-4相比于前作，校準(zhǔn)性能有顯著的提升。文章在此處只討論在多項(xiàng)選擇題回答的情況下進(jìn)行校準(zhǔn)驗(yàn)證，因?yàn)檫@里可以讓模型對(duì)每個(gè)選項(xiàng)進(jìn)行打分，便于量化。衡量生成模型的長(zhǎng)格式文本生成方面仍然是一個(gè)開放的研究領(lǐng)域，如何評(píng)估文本生成方面的校準(zhǔn)性仍需考量。

GPT-4的擴(kuò)展應(yīng)用

該研究還通過(guò)將醫(yī)學(xué)問(wèn)題擴(kuò)展到交互式會(huì)話中，探索了GPT-4的其他能力。除了提供有關(guān)模型能力的討論外，這種擴(kuò)展還展示了模型新形式的教育應(yīng)用和臨床應(yīng)用的方向。

作者用事例展示了模型在醫(yī)學(xué)問(wèn)題上的：（1）綜合推理選取正確答案的能力；（2）為學(xué)生講解錯(cuò)誤答案的能力；（3）推理學(xué)生為什么會(huì)選擇錯(cuò)誤答案的能力；（4）修改問(wèn)題背景使得錯(cuò)誤答案變成正確答案的能力。詳情請(qǐng)閱讀原文。

GPT-4在實(shí)際應(yīng)用中的風(fēng)險(xiǎn)

生成答案存在錯(cuò)誤：在醫(yī)療保健領(lǐng)域引入各種形式的自動(dòng)化，包括機(jī)器學(xué)習(xí)的使用，必須非常謹(jǐn)慎。我們需要進(jìn)一步的研究來(lái)解決模型輸出的真實(shí)性問(wèn)題。研究方向包括利用搜索和檢索來(lái)幫助將生成的內(nèi)容與文獻(xiàn)聯(lián)系起來(lái)，進(jìn)行自一致性檢查等。醫(yī)療保健提供者如果依賴 GPT-4 和其他模型的信息，需要遵守最高的驗(yàn)證標(biāo)準(zhǔn)。需要制定和分享醫(yī)療專業(yè)人士的質(zhì)量保證最佳實(shí)踐，以確保其安全有效的使用。

模型偏見：我們對(duì)大規(guī)模語(yǔ)言模型所累積的偏見，以及在不同類型的醫(yī)療提示和生成中出現(xiàn)公平性問(wèn)題的理解非常有限。在沒(méi)有研究的情況下，我們必須對(duì)臨床實(shí)踐和研究中的偏見保持警惕，尤其是針對(duì)種族、社會(huì)經(jīng)濟(jì)背景、性別和其他因素，這些因素貫穿于用于訓(xùn)練大規(guī)模語(yǔ)言模型的語(yǔ)料庫(kù)。

工作流程、任務(wù)和專業(yè)方面的影響：GPT-4在USMLE考試和其他醫(yī)學(xué)工作量上的表現(xiàn)表明，如果得到適當(dāng)?shù)膶＜冶O(jiān)督，它們可以為實(shí)現(xiàn)精準(zhǔn)臨床醫(yī)學(xué)做出貢獻(xiàn)?？梢岳肎PT-4及其后繼模型提供醫(yī)療從業(yè)者分析、提醒和決策支持，包括協(xié)助從患者病史、體征和實(shí)驗(yàn)室結(jié)果中制定和修訂鑒別診斷等。

社會(huì)問(wèn)題：GPT-4的能力可以對(duì)醫(yī)學(xué)生涯的選擇、住院醫(yī)師培訓(xùn)和最終專業(yè)的選擇產(chǎn)生廣泛社會(huì)影響。人工智能在醫(yī)療領(lǐng)域日益增長(zhǎng)的能力可能會(huì)導(dǎo)致醫(yī)學(xué)專業(yè)中人類智力的價(jià)值被降低。醫(yī)生可能會(huì)擔(dān)心醫(yī)學(xué)專業(yè)的實(shí)踐或價(jià)值發(fā)生重大轉(zhuǎn)變。AI在醫(yī)學(xué)專業(yè)中的日益增長(zhǎng)的能力可能會(huì)影響醫(yī)學(xué)生涯的選擇，從而改變對(duì)哪些任務(wù)依賴于真正的人類智力的看法。

對(duì)未來(lái)的影響：GPT-4在醫(yī)學(xué)挑戰(zhàn)問(wèn)題上的表現(xiàn)，揭示了大規(guī)模模型在處理復(fù)雜現(xiàn)實(shí)問(wèn)題方面的潛力，未來(lái)還將繼續(xù)進(jìn)步。LLMs的進(jìn)展不僅對(duì)醫(yī)學(xué)有影響，還會(huì)對(duì)法律、銀行、工程、會(huì)計(jì)等眾多知識(shí)密集型職業(yè)產(chǎn)生影響，因?yàn)樗赡芨淖儸F(xiàn)有的技術(shù)教育和培訓(xùn)體系，以及職業(yè)發(fā)展模式。

結(jié)論

文章對(duì)GPT-4、GPT-3.5和Flan-PaLM 540B在醫(yī)學(xué)能力考試和基準(zhǔn)數(shù)據(jù)集上進(jìn)行了比較評(píng)估。結(jié)果發(fā)現(xiàn)，GPT-4明顯優(yōu)于GPT-3.5和Flan-PaLM 540B，而且在MultiMedQA數(shù)據(jù)集上也表現(xiàn)出色。作者還探討了模型輸出概率的校準(zhǔn)，強(qiáng)調(diào)了校準(zhǔn)對(duì)醫(yī)學(xué)應(yīng)用的重要性。最后，作者討論了GPT-4在醫(yī)學(xué)應(yīng)用中的更廣泛影響。盡管GPT-4效果如此出色，考慮到可能存在的錯(cuò)誤和在實(shí)際場(chǎng)景中評(píng)估性能的挑戰(zhàn)，在實(shí)踐中仍需審慎起能力，我們?nèi)孕栝_發(fā)和評(píng)估其適當(dāng)用途。

參考資料

https://arxiv.org/pdf/2303.13375.pdf

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区