從非侵入性記錄中解碼連續(xù)語言的腦機接口將有許多科學(xué)和實際應(yīng)用。然而,目前,非侵入性語言解碼器只能從一小部分單詞或短語中識別刺激。本文介紹了一種利用功能磁共振成像(fMRI)記錄的皮層語義表征來重建連續(xù)語言的非侵入性解碼器。該解碼器可以生成可理解的單詞序列,恢復(fù)感知的語音、想象的語音甚至無聲視頻的意義。這項研究測試了整個大腦皮層的解碼器,并發(fā)現(xiàn)連續(xù)的語言可以從多個區(qū)域單獨解碼。需要注意的是,由于腦機接口需要尊重心理隱私,解碼成功需要受試者的合作。這項研究結(jié)果證明了非侵入性語言腦機接口的可行性。
本文介紹一種利用功能磁共振成像(fMRI)進行非侵入性腦記錄并利用連續(xù)自然語言重建感知或想象刺激的解碼器。為了實現(xiàn)這一目標(biāo),需要克服一個主要障礙:fMRI的低時間分辨率。雖然fMRI具有極好的空間特異性,但它測量的血氧水平依賴(BOLD)信號卻很慢——神經(jīng)活動的沖動導(dǎo)致BOLD在大約10s內(nèi)上升和下降。對于自然口述語言來說,這意味著每個大腦圖像可能會受到超過20個單詞的影響。因此,解碼連續(xù)語言需要解決病態(tài)逆問題,因為要解碼的單詞比大腦圖像多得多。本研究的解碼器通過生成候選詞序列,對每個候選詞誘發(fā)記錄的大腦反應(yīng)的可能性進行評分,然后選擇最佳候選詞來實現(xiàn)這一目標(biāo)。
為了將單詞序列與受試者的大腦反應(yīng)進行比較,使用了一個編碼模型,該模型可以預(yù)測受試者的大腦對自然語言的反應(yīng)。當(dāng)受試者聽16小時自然說出的敘事故事時,記錄了他們的大腦反應(yīng),并得到比典型語言fMRI實驗多5倍的數(shù)據(jù)。試驗過程提取了能夠捕捉刺激短語含義的語義特征,并使用線性回歸對語義特征如何影響大腦反應(yīng)建模(圖1a),從而在這一數(shù)據(jù)集上訓(xùn)練編碼模型。然后,編碼模型可以通過測量記錄的大腦反應(yīng)與預(yù)測的大腦反應(yīng)的匹配程度,對單詞序列誘發(fā)記錄的大腦反應(yīng)的可能性進行評分。
理論上,可以通過將記錄的大腦反應(yīng)與對每個可能的單詞序列進行編碼的模型預(yù)測進行比較,從而確定最有可能的刺激單詞。然而,可能的單詞序列數(shù)量太大,這種方法不實用,而且這些序列中的絕大多數(shù)與自然語言不相似。為了將候選序列限制為結(jié)構(gòu)良好的英語,使用了在大量自然英語單詞序列數(shù)據(jù)集上訓(xùn)練的生成神經(jīng)網(wǎng)絡(luò)語言模型和波束搜索算法,該算法逐字生成候選序列。在波束搜索中,解碼器在任何給定時間保持一個包含k個最可能的候選序列的波束。當(dāng)基于聽覺和言語區(qū)的大腦活動檢測到新單詞時(圖2),語言模型將之前解碼的單詞作為上下文,為波束中的每個序列生成延續(xù)。然后,編碼模型對每次延續(xù)誘發(fā)記錄到的大腦反應(yīng)的可能性進行評分,并且最可能的k個延續(xù)在波束中保留到下一個時間步(圖1b)。這個過程在任意一段時間內(nèi)不斷逼近最可能的刺激詞。
本研究為三名受試者訓(xùn)練解碼器,并在受試者聽不用于模型訓(xùn)練的新穎測試故事時,對每名受試者的解碼器進行單獨的、單次試驗的大腦反應(yīng)評估。結(jié)果表明,解碼后的單詞序列不僅捕獲了刺激的意義,而且通常甚至捕獲了確切的單詞和短語,這表明可以從BOLD信號中恢復(fù)出細粒度的語義信息(圖1c)。為了量化解碼性能,使用幾種語言相似性度量比較了一個測試故事(1839個單詞)的解碼和實際單詞序列。單詞錯誤率(WER)、BLEU和METEOR等標(biāo)準(zhǔn)指標(biāo)衡量兩個序列共享的單詞數(shù)量。然而,由于不同的單詞可以表達相同的意思——例如,“我們很忙”和“我們有很多工作”——使用了BERTScore,這是一種使用機器學(xué)習(xí)來量化兩個序列是否具有相同含義的新方法。故事的解碼性能在每個度量下都顯著高于預(yù)期的偶然,尤其是BERTScore(圖1d)。故事中的大多數(shù)時間點(72-82%)的BERTScore顯著高于預(yù)期的隨機時間點(圖1e),并且可以根據(jù)解碼單詞和實際單詞的BERTScore相似性從其他時間點(平均百分位數(shù)= 0.85-0.91)識別(圖1f)。
另外,本研究還使用行為實驗測試了解碼后的單詞是否捕捉到了故事的原意。結(jié)果顯示,在16個閱讀理解問題中,只有閱讀過解碼后的單詞的受試者可以回答9個??缙べ|(zhì)區(qū)域解碼圖1所示的解碼結(jié)果使用了多個皮質(zhì)區(qū)域的反應(yīng),獲得了良好的表現(xiàn)。為了回答使用解碼器來研究語言是如何在這些區(qū)域中表示的,將大腦數(shù)據(jù)劃分為之前在語言處理過程中表現(xiàn)活躍的三個宏觀皮質(zhì)區(qū)(語音網(wǎng)絡(luò)、頂葉-顳葉-枕葉聯(lián)合區(qū)和前額葉區(qū)),并分別從每個半球的每個區(qū)域進行解碼(圖3a)。
為了測試一個區(qū)域是否以單詞和短語的粒度編碼語義信息,我們使用多種語言相似度指標(biāo)評估了來自該區(qū)域的解碼器預(yù)測。由于使用的解碼器產(chǎn)生可解釋的單詞序列,因此可以直接評估每個區(qū)域代表刺激詞的精確程度(圖3b)。在WER和BERTScore指標(biāo)下,所有區(qū)域的解碼器預(yù)測與實際刺激詞的相似性顯著高于隨機預(yù)期。在BLEU和METEOR指標(biāo)下,除右側(cè)大腦半球語音網(wǎng)絡(luò)外,所有區(qū)域的解碼器預(yù)測結(jié)果與實際刺激詞的相似程度均顯著高于預(yù)期結(jié)果。這些結(jié)果表明,多個皮質(zhì)區(qū)域以單個單詞和短語的粒度來代表語言。
為了確定始終參與語言處理的區(qū)域,計算了從每個區(qū)域顯著解碼的時間點的分數(shù)。我們發(fā)現(xiàn),從全腦顯著解碼的大多數(shù)時間點可分別從關(guān)聯(lián)(80 ~ 86%)和前額葉(46 ~ 77%)區(qū)域解碼(圖3c),這表明這些區(qū)域始終代表語言中的單詞和短語的意義。值得注意的是,在從全腦顯著解碼的時間點中,只有28-59%可以從語音網(wǎng)絡(luò)解碼。最后,評估了不同區(qū)域編碼的語言表達之間的關(guān)系,直接比較了不同區(qū)域和半球的解碼單詞序列,發(fā)現(xiàn)每對預(yù)測之間的相似性顯著高于隨機預(yù)期(圖3d)。這表明不同的皮質(zhì)區(qū)域編碼冗余的單詞級語言表征。
總之,本研究結(jié)果表明,可以從全腦解碼的單詞序列也可以從多個單獨區(qū)域一致解碼(圖3e)。這種冗余編碼的一個實際含義是,未來的腦機接口即使有選擇地從最易訪問或最完整的區(qū)域進行記錄,也可能獲得良好的性能。
在之前的分析中,根據(jù)大腦對感知到的言語的反應(yīng)訓(xùn)練和測試了語言解碼器。為了展示我們的語義語言解碼器的潛在應(yīng)用范圍,評估了根據(jù)感知到的語音的大腦反應(yīng)訓(xùn)練的語言解碼器可否用于解碼對其他任務(wù)的大腦反應(yīng)。
想象語音解碼:腦-機接口的一個關(guān)鍵任務(wù)是在沒有外部刺激的情況下解碼隱蔽的想象語言。為了測試我們的語言解碼器能否用于解碼想象中的語言,受試者在fMRI記錄下的同時想象講述5個1分鐘的故事,并在掃描儀外分別講述相同的故事以提供參考文本。對于每一次1分鐘的掃描,我們通過解碼掃描正確識別出被試正在想象的故事,將解碼器預(yù)測和參考轉(zhuǎn)錄本之間的相似性評分歸一化為概率,并選擇最可能的轉(zhuǎn)錄本(圖4a)。在整個故事中,解碼器的預(yù)測與相應(yīng)的轉(zhuǎn)錄本的相似程度顯著高于隨機預(yù)期。定性分析表明,解碼器可以恢復(fù)想象刺激的意義(圖4b)。為了使解碼器跨任務(wù)遷移,目標(biāo)任務(wù)必須與訓(xùn)練任務(wù)共享表示。編碼模型經(jīng)過訓(xùn)練,可以預(yù)測受試者的大腦會對感知到的語音做出何種反應(yīng),因此解碼器的明確目標(biāo)是生成能夠在受試者聽到時喚起記錄下來的大腦反應(yīng)的單詞。
跨通道解碼:語義表征也在語言感知和一系列其他知覺和概念過程之間共享,這表明與之前主要使用運動或聽覺信號的語言解碼器不同,本研究的語義語言解碼器可能能夠從大腦對非語言任務(wù)的反應(yīng)中重建語言描述。為了測試這一點,被試者觀看了四部沒有聲音的短片,同時用fMRI記錄,記錄的反應(yīng)用語義語言解碼器解碼。將解碼后的單詞序列與視障人士對電影的語言描述進行了比較,發(fā)現(xiàn)它們顯著地比預(yù)期的偶然性更相似,解碼序列準(zhǔn)確地描述了影片中的事件(圖4c)。這表明,在語言感知期間訓(xùn)練的單個語義解碼器可用于解碼一系列語義任務(wù)。
專注力對解碼的影響:因為語義表征受專注力調(diào)節(jié),所以本研究的語義解碼器應(yīng)該選擇性地重建被關(guān)注的刺激。為了測試專注力對解碼的影響,受試者聽了兩個重復(fù)的多人刺激,這個刺激是由男女說話者講的兩個故事疊加而成的。在每次演講中,受試者被提示去聽不同的演講者。解碼器預(yù)測與在場故事的相似性顯著高于與無人在場故事的相似性,表明解碼器選擇性地重建了出席刺激(圖4d)。這些結(jié)果表明,語義解碼器可以在具有多個信息源的復(fù)雜環(huán)境中表現(xiàn)良好。此外,這些結(jié)果表明,被試著對解碼器的輸出具有有意識的控制,并表明語義解碼器只能重建被試正在積極關(guān)注的內(nèi)容。
隱私的影響:語義解碼技術(shù)存在一個重要的倫理問題,即可能危及心理隱私。為了測試是否可以在沒有被試的合作下訓(xùn)練解碼器,嘗試使用從其他被試的數(shù)據(jù)訓(xùn)練解碼器來解碼每個被試的感知語音。為此,本研究收集了七個被試聽取5小時敘述性故事的數(shù)據(jù),并使用容積和基于表面的方法在被試之間進行了解剖對齊。在跨被試數(shù)據(jù)上訓(xùn)練的解碼器的表現(xiàn)僅略高于隨機猜測。這表明,被試的合作仍然是解碼器訓(xùn)練的必要條件(圖4e)。
為了測試經(jīng)過人的合作訓(xùn)練的解碼器之后是否會被有意識地抵制,讓受試者在聽敘述故事的片段時,默想三個認知任務(wù)——計算(“七次循環(huán)計數(shù)”)、語義記憶(“命名和想象動物”)和想象的言語(“講一個不同的故事”)。結(jié)果發(fā)現(xiàn),相對于被動聽取基線的每個大腦區(qū)域的解碼表現(xiàn),進行語義記憶和想象言語任務(wù)會顯著降低。這表明,在對抗性場景中,語義解碼可以被有意識地抵制,而這種抵制不能僅僅通過集中解碼器于特定的大腦區(qū)域來克服(圖4f)。
為了確定潛在的改進途徑,評估了語言感知過程中的解碼錯誤是否反映了fMRI記錄與本研究模型的局限性(圖5a)。BOLD fMRI記錄通常信噪比較低。在模型估計過程中,可以通過增加數(shù)據(jù)集的大小來減少訓(xùn)練數(shù)據(jù)中噪聲的影響。為了評估解碼性能是否受到訓(xùn)練數(shù)據(jù)集大小的限制,使用不同數(shù)量的數(shù)據(jù)訓(xùn)練了解碼器。每次將訓(xùn)練數(shù)據(jù)集的大小增加一倍,解碼分數(shù)似乎都會增加等量(圖5b)。這表明,對更多數(shù)據(jù)進行訓(xùn)練將提高解碼性能。測試數(shù)據(jù)中的低信噪比也可能限制可解碼的信息量。為了評估單次試驗fMRI信噪比的未來改善是否可能改善解碼性能,本研究中人為地提高了信噪比,方法是對測試故事不同重復(fù)過程中收集的大腦反應(yīng)進行平均。解碼性能隨著平均響應(yīng)數(shù)的增加而略有提高(圖5c),這表明解碼錯誤的某些成分反映了測試數(shù)據(jù)中的噪聲。
為了評估解碼性能是否受到模型錯誤規(guī)范(例如使用次優(yōu)特征來表示語言刺激)的限制,測試了解碼錯誤是否遵循系統(tǒng)模式。對6個測試故事中每個單詞的解碼情況進行評分,并將評分與行為單詞評級和數(shù)據(jù)集統(tǒng)計進行比較。如果解碼錯誤僅僅是由測試數(shù)據(jù)中的噪聲引起的,那么所有的單詞都應(yīng)該受到同等的影響。然而,我們發(fā)現(xiàn)解碼性能與單詞具象性的行為評級顯著相關(guān),這表明解碼器在恢復(fù)具有一定語義屬性的單詞方面較差(圖4d)。值得注意的是,解碼性能與訓(xùn)練刺激中的詞頻沒有顯著相關(guān)性,這表明模型的錯誤描述主要不是由訓(xùn)練數(shù)據(jù)中的噪聲引起的(圖5e)。研究結(jié)果表明,除了訓(xùn)練和測試數(shù)據(jù)中的隨機噪聲外,模型錯誤規(guī)范是解碼錯誤的主要來源。
本研究表明,感知和想象的刺激的意義可以從BOLD信號解碼為連續(xù)的語言,標(biāo)志著非侵入性腦機接口的重要一步。雖然之前的研究表明,BOLD信號包含豐富的語義信息,但本研究結(jié)果表明,這些信息是在單個單詞和短語的粒度上捕獲的。為了重建這些信息,本研究的解碼器依賴于兩項創(chuàng)新,這兩項創(chuàng)新可以解釋語言的組合結(jié)構(gòu):使用自回歸先驗來生成新的序列,以及使用波束搜索算法來高效地搜索最佳序列??傊?,這些創(chuàng)新使得從相對緩慢的大腦信號中解碼結(jié)構(gòu)化的序列信息成為可能。
本研究中的解碼器與大多數(shù)現(xiàn)有的語言解碼器不同,因為它使用語義特征而不是運動特征來表示語言,主要使用在語言感知過程中編碼語義表示的區(qū)域的數(shù)據(jù)。與運動特征不同,語義特征在嘗試言語和想象言語時都可以被訪問,并且在語言和一系列其他認知任務(wù)之間是共享的。此跨任務(wù)傳輸可能實現(xiàn)新的解碼器應(yīng)用。然而,本研究也發(fā)現(xiàn),語義特征可能會失去特異性,導(dǎo)致解碼器轉(zhuǎn)述實際的刺激。運動特征能夠更好地區(qū)分實際的刺激和它的解釋,因為它們與刺激的表面形式直接相關(guān)。另外,本研究還討論了隱私問題,隱私分析表明,目前訓(xùn)練和應(yīng)用解碼器都需要主體合作。此外,在沒有受試者合作以及出于惡意的目的等其他不可預(yù)見的原因,提高了研究者對大腦解碼技術(shù)風(fēng)險的認識,制定保護每個人精神隱私的政策也是至關(guān)重要的。
參考:
Semantic reconstruction of continuous language from non-invasive brain recordings
—— End ——
僅用于學(xué)術(shù)分享,若侵權(quán)請留言,即時刪侵!
聯(lián)系客服