讀者可添加筆者微信fanqie6655
○ 大型語言模型(LLMs)在一般的領(lǐng)域中非常強(qiáng)大,但在醫(yī)學(xué)問題回答等特定領(lǐng)域的任務(wù)中往往表現(xiàn)不佳。
○ 本研究基于上下文學(xué)習(xí)進(jìn)行模型編輯,旨在改進(jìn)LLMs的回答能力,而無需進(jìn)行微調(diào)或重新訓(xùn)練。
○ 提出了一種全面的檢索策略,從外部知識庫中提取醫(yī)學(xué)事實(shí),并將其合并到LLMs的查詢提示中。
○ 通過在MedQA-SMILE數(shù)據(jù)集上進(jìn)行評估,研究了不同檢索模型和提供給LLMs的事實(shí)數(shù)目對其性能的影響。
○ 值得注意的是,我們編輯后的Vicuna模型的準(zhǔn)確性從44.46%提高到48.54%。
○ 這項(xiàng)工作強(qiáng)調(diào)了模型編輯提升LLMs性能的潛力,為解決黑盒LLMs的挑戰(zhàn)提供了實(shí)用的方法。
1. 模型編輯對于醫(yī)學(xué)問答的性能提升有多大的影響? 答:實(shí)驗(yàn)結(jié)果表明,經(jīng)過模型編輯的Vicuna模型在MedQA-USMLE測試集上的準(zhǔn)確率達(dá)到了48.54%,相比于基準(zhǔn)模型的44.46%準(zhǔn)確率有顯著提升。因此,模型編輯可以有效提高醫(yī)學(xué)問答任務(wù)的性能。
2. 檢索模型對于模型編輯的效果有何影響? 答:在實(shí)驗(yàn)中比較了Contriever和SapBert作為檢索模型的效果。結(jié)果顯示,Contriever在模型編輯任務(wù)上略微優(yōu)于SapBert,具有更高的準(zhǔn)確率(48.54% vs 48.07%)。因此,不同的檢索模型會對模型編輯的效果產(chǎn)生影響,選擇合適的檢索模型能夠提高編輯模型的性能。
3. 編輯信息數(shù)量對模型性能有何影響? 答:實(shí)驗(yàn)結(jié)果顯示,提供更多的編輯信息可以顯著提升模型的性能。結(jié)果表明,越多的編輯信息可以提供更多的背景知識,幫助模型更好地理解和回答問題。然而,由于模型輸入的限制和編輯效率的考慮,我們需要在編輯實(shí)例中限制編輯信息的數(shù)量。因此,在信息豐富度和可管理性之間需要權(quán)衡。
4. 模型編輯在醫(yī)學(xué)問答任務(wù)中的可行性如何? 答:通過實(shí)驗(yàn)結(jié)果可以看出,模型編輯可以顯著提高醫(yī)學(xué)問答任務(wù)的準(zhǔn)確率。我們通過將醫(yī)學(xué)知識直接插入到問題提示中,使語言模型在回答問題時(shí)能夠獲取這些知識。模型編輯能夠有效改變預(yù)訓(xùn)練語言模型的輸出,從而提高其在醫(yī)學(xué)問答數(shù)據(jù)集上的性能。
5. 如何選擇合適的編輯信息用于模型編輯? 答:針對合適的編輯信息的選擇,我們需要從外部知識庫中檢索出與問題和答案候選項(xiàng)相關(guān)性最高的醫(yī)學(xué)事實(shí)。在實(shí)驗(yàn)中,我們利用外部知識庫中的嵌入模型將醫(yī)學(xué)事實(shí)轉(zhuǎn)化為嵌入表示,并通過計(jì)算與問題和答案的相似性來評估相關(guān)性。通過提取與問題和答案候選項(xiàng)高相似度的事實(shí),構(gòu)建了包含上下文事實(shí)的編輯模型輸入,從而引導(dǎo)語言模型生成與提供的醫(yī)學(xué)事實(shí)相符的答案。
6. 模型編輯需要多少編輯實(shí)例? 答:實(shí)驗(yàn)結(jié)果顯示,提供更多的編輯實(shí)例可以提高模型的性能。然而,由于模型提示的大小限制和編輯效率的考慮,我們需要在編輯實(shí)例中限制編輯信息的數(shù)量。因此,需要在信息豐富度和可管理性之間進(jìn)行權(quán)衡,并選擇適當(dāng)?shù)臄?shù)量的編輯實(shí)例。
7. 模型編輯方法是否具有廣泛適用性? 答:模型編輯方法在提高語言模型性能方面具有廣泛適用性。在醫(yī)學(xué)問答任務(wù)中的應(yīng)用僅是其中之一。模型編輯方法可以根據(jù)特定任務(wù)的需求,直接在模型輸入中插入或修改缺失或錯(cuò)誤編碼的信息,從而改進(jìn)模型的輸出。因此,無論是在醫(yī)學(xué)領(lǐng)域還是其他領(lǐng)域,模型編輯方法都可以為提升語言模型性能提供有效的策略。
論文鏈接:https://arxiv.org/abs/2309.16035.pdf
讀者可添加筆者微信fanqie6655
○ 研究目的:評估大型語言模型在提取疫苗不良事件的能力,以促進(jìn)不良事件監(jiān)測和疫苗安全性評估。
○ 數(shù)據(jù)來源:利用美國疫苗不良事件報(bào)告系統(tǒng)(VAERS)的數(shù)據(jù),包括1990年至2016年的疫苗不良事件報(bào)告。
○ 方法:對多個(gè)常見的大型語言模型進(jìn)行評估,包括GPT-2、GPT-3的變體、GPT-4和Llama2。選擇流感疫苗作為應(yīng)用案例。
○ 結(jié)果:經(jīng)過微調(diào)的GPT 3.5模型(AE-GPT)在精確匹配方面平均達(dá)到0.704的微粒F1值,在松散匹配方面達(dá)到0.816的微粒F1值。
○ 結(jié)論:AE-GPT模型在處理醫(yī)療數(shù)據(jù)方面表現(xiàn)出色,顯示出大型語言模型在不良事件檢測方面的潛力,可用于其他不良事件提取任務(wù)。
關(guān)鍵詞:ADE;GPT;流感疫苗;大型語言模型;大型語言模型微調(diào);Llama;命名實(shí)體識別;自然語言處理;藥品監(jiān)測;提示學(xué)習(xí);VAERS;零樣學(xué)習(xí)
1. 該研究使用哪些預(yù)訓(xùn)練的語言模型來進(jìn)行臨床實(shí)體識別? 答:該研究使用了GPT-2、GPT-3、GPT-3.5、GPT-4和Llama 2等多個(gè)預(yù)訓(xùn)練的語言模型來進(jìn)行臨床實(shí)體識別。
2. 預(yù)訓(xùn)練的語言模型在識別臨床實(shí)體方面的性能如何? 答:根據(jù)研究結(jié)果,GPT-3.5表現(xiàn)最好,在嚴(yán)格的F1指標(biāo)和寬松的F1指標(biāo)下均取得優(yōu)秀的成績。預(yù)訓(xùn)練的GPT-3也在一定程度上優(yōu)于GPT-4。而Llama模型的性能相對較差。
3. 預(yù)訓(xùn)練和微調(diào)對于語言模型在臨床實(shí)體識別任務(wù)中的性能有何影響? 答:研究發(fā)現(xiàn),針對臨床實(shí)體識別任務(wù)的微調(diào)有助于提升語言模型的性能。具體而言,預(yù)訓(xùn)練的GPT-3和GPT-3.5經(jīng)過微調(diào)后表現(xiàn)出更好的性能,甚至超過了未經(jīng)微調(diào)的GPT-4。然而,GPT-2的性能在微調(diào)后并未顯著改善。對于Llama模型,無論是預(yù)訓(xùn)練還是微調(diào),其性能均保持相對穩(wěn)定。
4. AE-GPT模型相對于Du等人的提出的模型在臨床實(shí)體識別任務(wù)中的性能如何? 答:AE-GPT模型(即經(jīng)過微調(diào)的GPT-3.5模型)在臨床實(shí)體識別任務(wù)中表現(xiàn)優(yōu)于Du等人提出的模型。AE-GPT模型在提取調(diào)查、不良事件、社會環(huán)境和時(shí)間表達(dá)等方面的性能更好,但在處理醫(yī)學(xué)過程相關(guān)的實(shí)體時(shí),其他專門針對醫(yī)學(xué)領(lǐng)域的模型具有更強(qiáng)的優(yōu)勢。
5. AE-GPT模型在臨床實(shí)體識別任務(wù)中存在哪些限制? 答:AE-GPT模型在處理實(shí)體邊界不匹配、誤報(bào)和漏報(bào)等方面存在一定的挑戰(zhàn)。這可能是由于訓(xùn)練數(shù)據(jù)的質(zhì)量和一致性不足,以及模型對于相似實(shí)體和有重疊邊界實(shí)體的區(qū)分困難所導(dǎo)致。同時(shí),模型對于特定過程名稱的識別能力較弱,并且在提取與社會環(huán)境相關(guān)的實(shí)體時(shí)容易出現(xiàn)錯(cuò)誤。此外,模型在劃分實(shí)體邊界時(shí)存在錯(cuò)誤。
6. 預(yù)訓(xùn)練和微調(diào)對于改善語言模型在臨床實(shí)體識別任務(wù)中的性能有何意義? 答:預(yù)訓(xùn)練和微調(diào)是提高語言模型性能的重要手段。預(yù)訓(xùn)練使模型能夠?qū)W習(xí)到語言的一般模式和規(guī)律,而微調(diào)則使模型更好地適應(yīng)具體的臨床實(shí)體識別任務(wù)。通過預(yù)訓(xùn)練和微調(diào),語言模型能夠獲得更深入的領(lǐng)域理解和更好的上下文理解能力,從而提高在臨床實(shí)體識別任務(wù)中的性能。
7. 本研究的局限性有哪些?未來的研究方向是什么? 答:本研究的數(shù)據(jù)集相對較小,僅包含91份VAERS報(bào)告,可能限制了研究結(jié)果的推廣性。此外,本研究主要關(guān)注VAERS報(bào)告,與傳統(tǒng)的臨床報(bào)告在結(jié)構(gòu)和內(nèi)容上存在差異,可能限制了研究結(jié)果在其他醫(yī)學(xué)文獻(xiàn)中的直接應(yīng)用性。未來的研究方向可以包括使用更大規(guī)模的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),以及進(jìn)一步研究微調(diào)對于改善語言模型性能的影響。同時(shí),可以探索更多的預(yù)訓(xùn)練和微調(diào)方法,以提高語言模型在臨床實(shí)體識別任務(wù)中的性能。
論文鏈接:https://arxiv.org/abs/2309.16150.pdf