加星標(biāo),才能不錯過每日推送!方法見文末動圖
人類一直期盼能與動物進行交流,如今AI正在幫助我們完成這一愿望。從鯨類的復(fù)雜社交語言到家畜的情緒表達(dá),在破譯動物語言上,以大模型為代表的AI正凸顯其作用。隨著對動物的研究更加深入,我們也發(fā)現(xiàn)人類語言并非那樣獨特。更具實際意義的是,這類研究并沒有過高的門檻——或許在未來,與寵物直接對話,用的就是你自己的研究成果。
在電影《飛屋環(huán)游記》中,一只名叫逗逗(Dug)的狗戴著一個神奇項圈,它能將狗狗的叫聲翻譯成流利的人類語言。在現(xiàn)實世界中,非常訓(xùn)練有素的狗可以被教會按按鈕,以回應(yīng)人類語言來執(zhí)行簡單的命令,如“出去”、“散步”和“玩兒”。
與動物進行交流,是人類長久以來的夢想。1973年諾貝爾生理學(xué)或醫(yī)學(xué)獎得主勞倫茲(Konrad Lorenz)曾就該問題撰寫《所羅門王的指環(huán)》一書,后成為領(lǐng)域內(nèi)經(jīng)典科普書,很值得一讀。
點擊下圖,即可購買
勞倫茲著作《所羅門王的指環(huán)》
近年來,已有不少用生成式AI破解動物語言的嘗試。本文將先講述是哪些技術(shù)因素促成了這些進展,之后介紹幾項相關(guān)研究成果,并以對未來的展望結(jié)尾。對動物語言的研究,不僅有助于我們更深入地理解和引導(dǎo)野生動物的行為,還能對畜牧業(yè)生產(chǎn)有所助力。對于愛寵人士,動物“語言”的研究或許能夠讓我們更深入了解愛寵的訴求,從而得以“換位思考”,更體貼地關(guān)愛寵物。而從滿足好奇心的角度,這項研究有可能從進化和生理機制方面,為人類語言的產(chǎn)生提供新的視角。從更科幻一些的角度,破解動物語言過程中所積累的技術(shù),也將可能用在識別外星生物的語言上。
2024年出版的一本關(guān)于動物語言的優(yōu)秀科普讀物《聽不見的大自然——博物學(xué)家的自然聆聽筆記》,詳述了近期科學(xué)家如何使用數(shù)字技術(shù)去理解自然,還談到了過去人類在理解動物語言中走過的彎路。20世紀(jì)中期,人們曾多次嘗試教非人靈長動物使用人類語言,當(dāng)時的愿望是通過教它們“說人話”來評估它們的智力。這一努力失敗后,人們發(fā)現(xiàn)這種做法有些過于人類中心主義了。正如1974年美國哲學(xué)家Thomas Nagel在一篇著名的論文中問道:“成為一只蝙蝠是什么感覺?”他得出的結(jié)論是,試圖根據(jù)人類心智和身體的框架去理解動物注定會失敗。為了去掉人類的視角,他表示,研究人員必須把自己放在動物的“umwelt”(環(huán)境),但人類永遠(yuǎn)無法以蝙蝠的身體體驗世界。
前文的“umwelt”是生物學(xué)家創(chuàng)立的一個術(shù)語,用以描述生物體的生活經(jīng)歷或世界觀。如果我們關(guān)注某種生物的umwelt,比如蜜蜂的,我們當(dāng)然不會期望蜜蜂說人類語言,但我們會對蜜蜂的迷人“語言”非常感興趣——這是一種基于翅膀振動發(fā)聲和三維空間位置的語言,蜜蜂能用身體傳達(dá)非常細(xì)微的差異,比如陽光的變化。因此在理解動物語言時,我們首先要做的就是考慮動物如何用自己的方式,用自己的身體,在自己的世界觀中進行復(fù)雜交流的能力。
點擊下圖,即可購買
凱倫·巴克(Karen Bakker)著《聽不見的大自然》
而在沒有任何先驗知識中學(xué)習(xí)到規(guī)律,正是大語言模型擅長的。大模型通過處理大量現(xiàn)有的語言內(nèi)容來學(xué)習(xí)哪些單詞應(yīng)該組合在一起,以及以什么順序組合。例如,“他喜歡加牛奶和兩塊糖的咖啡”,大模型學(xué)會了“咖啡”、“牛奶”和“糖”這些詞經(jīng)常一起使用。換句話說,大模型并不是通過被教授語法規(guī)則來學(xué)習(xí)一種新語言;也不是通過首先掌握英語,然后通過處理大量翻譯內(nèi)容來學(xué)習(xí)西班牙語??紤]到人類語言和動物“語言”存在潛在的相似性,比如幾乎所有人類語言和動物的發(fā)聲都是由音節(jié)長度和音高的停頓和變化構(gòu)成的,這就為基于大模型破解動物語言奠定了哲學(xué)上的可行性。用《聽不見的大自然》一書作者在FT Tech Tonic播客中說的,“你和我無法像蝙蝠一樣回聲定位,像大象一樣吹喇叭,像蜜蜂一樣嗡嗡作響。但我們的計算機可以?!?/span>
計算機能處理人耳聽不到的聲音。人類能聽到的聲音范圍是20-20,000赫茲,而海豚能探測的頻率高達(dá)160,000赫茲;并且人工智能在識別細(xì)微差別方面更為擅長。下面的視頻是抹香鯨之間的對話。我們的大腦無法區(qū)分是哪頭鯨魚在說話,但是(理論上)可以通過訓(xùn)練模型來識別不同抹香鯨的聲音。
視頻來源:The Sound of Sperm Whales | WHALEZONE.TV
考慮到群居動物交流的時候,往往發(fā)聲的動物不止一個,因此按來源分離重疊的聲音,是利用AI解讀動物語言的第一步。之后要做的是收集大量的數(shù)據(jù)。這是目前的主要問題之一。因為即使經(jīng)過幾十年的手工錄音和拍攝,科學(xué)家也只捕捉到了所需數(shù)據(jù)的一小部分。近年來,隨著設(shè)備小型化、通信技術(shù)的進步,研究者可以讓動物帶上攝像頭、錄音設(shè)備或通過無人機持續(xù)記錄數(shù)據(jù),從而得以獲得足夠多的數(shù)據(jù)。AI模型的訓(xùn)練過程,還是熟悉的配方:例如向機器輸入所擁有數(shù)據(jù)的80%,訓(xùn)練后的模型可以預(yù)測剩余20%,即動物接下來將發(fā)出什么音節(jié)。這就像語言模型基于訓(xùn)練數(shù)據(jù),預(yù)測句子中的下一個單詞一樣。
在介紹基于AI解析動物語言的具體案例之前,讀者可以想想科學(xué)界為什么對鯨魚感興趣。從歷史文化角度來說,鯨歌在民間傳說中反復(fù)出現(xiàn),人們一直懷疑鯨魚有著自己的語言。而從生理特性上,抹香鯨擁有所有動物中最大的大腦,且以家庭為單位生存。根據(jù)“社會復(fù)雜性”假說,有著復(fù)雜社交生活的動物需要演化出復(fù)雜的語言系統(tǒng)來應(yīng)對社交需求。事實上,人們觀察到抹香鯨可通過類似摩爾斯電碼的“點擊”聲進行交流。例如多米尼加海岸附近的一群抹香鯨使用1+1+3的聲音來自我識別。前面兩個是均勻間隔的“點擊”,之后是三個快速連續(xù)的“點擊”。隨著越來越多的證據(jù)表明鯨類的交流不是隨機的、偶發(fā)的、簡單的,而是遵循復(fù)雜邏輯構(gòu)建,這就為首先研究鯨魚語言提供了必要性論證。
鯨類翻譯倡議(Project CETI)是一項TED資助的研究項目,該研究專注于抹香鯨間的交流,計劃用人工智能將鯨魚發(fā)出的每個聲音與特定的背景聯(lián)系起來。
CETI項目的示意圖丨圖源:Project CETI / Alex Boersma
考慮到鯨魚的叫聲可以在很遠(yuǎn)的距離內(nèi)被聽到——最遠(yuǎn)可達(dá)6000公里,了解哪頭鯨說了什么以及什么情況下說的,對于人們理解“鯨語”潛在的含義至關(guān)重要。研究者還要考慮鯨類的聲納定位。所有有齒鯨類都有一個類似聲納發(fā)射的器官,它能用聲音創(chuàng)建一個超出其眼睛所能看到的世界的3D視圖,可類比智能駕駛中的激光測距雷達(dá)。因此當(dāng)鯨魚向特定方向發(fā)聲時,研究者需要研究與特定聲音關(guān)聯(lián)的局部環(huán)境信息。
2024年5月7日,來自重慶大學(xué)、麻省理工學(xué)院(MIT)及CETI的研究者在Nature Communication上合作發(fā)表的論文[1]可視為該項目的初步成果。該研究使用機器學(xué)習(xí)對抹香鯨錄音做分析并可視化,證實了抹香鯨發(fā)出的聲音是前后有關(guān)聯(lián)性的,且像人類的發(fā)音那樣,由不同特征組合形成。研究人員收集了來自東加勒比氏族抹香鯨的 8719 個尾聲數(shù)據(jù),構(gòu)建了抹香鯨的“拼音字母表”。類似人類語言,抹香鯨發(fā)出的聲音組合也不是均勻出現(xiàn)的,某些組合比其他組合更頻繁;不同類型的尾聲依次組合在一起,產(chǎn)生了一個更大的不同發(fā)聲家族,這讓人想起人類語音產(chǎn)生的二級組合結(jié)構(gòu)(可類比拼音中的聲母和韻母)。研究還發(fā)現(xiàn),抹香鯨可以發(fā)出不同的尾聲模式,而其他鯨魚則能識別出不同鯨魚發(fā)聲的細(xì)微變化,表明它們有音色判別的能力。
研究發(fā)現(xiàn)的抹香鯨字母表示意圖。丨圖源:參考文獻(xiàn)[1]
CETI是一個預(yù)期持續(xù)五年的項目,如能完全成功,其結(jié)果也不會是將鯨魚所說翻譯成人類語言。AI可能學(xué)會說“鯨語”,但不是對人類說的,人類只能依據(jù)AI的結(jié)果綜合分析出鯨類在表達(dá)什么。目前已有基于聲音檢測的程序,識別出生病或受傷的逆戟鯨[2]。如果讓AI學(xué)會鯨類在擱淺之前發(fā)出的聲音,則可提前預(yù)警,為此準(zhǔn)備預(yù)防措施。
船舶撞擊對許多種類的鯨魚構(gòu)成嚴(yán)重威脅,想象一下,如果我們能“聽到”一頭鯨魚或其群體在碰撞后呼叫聲,得到的位置記錄相關(guān)數(shù)據(jù),必然會對未來的鯨魚保護措施提供幫助。(盡管這些數(shù)據(jù)會讓熱愛動物的我心碎。)
類似的項目還有地球物種項目(ESP),該項目試圖使用AI工具來解碼、標(biāo)記甚至回應(yīng)包括白鯨、夜鶯、烏鴉和座頭鯨等各種動物的叫聲。該研究的成果之一是“動物聲音基線”BEANS(the BEnchmark of ANimal Sounds[3]),這是一個包括12個物種聲音的數(shù)據(jù)集,涵蓋鳥類、陸地和海洋哺乳動物、無尾兩棲動物和昆蟲,可用于檢測相關(guān)分類算法的性能。
BEANS的概述。丨圖源:參考文獻(xiàn)[2]
地球物種項目還在嘗試合成動物聲音。如同人類的聲音可以被深度偽造一樣,鳥鳴聲也可以。下面第一個片段是鳥類的錄音,第二個是AI生成的鳥叫聲。
不論是豬、牛或者雞,這些畜牧業(yè)中最重要的動物,正在由于工業(yè)化的圈養(yǎng),而受到越來越不人道的待遇。工業(yè)化養(yǎng)殖不止傷害了飼養(yǎng)的動物,更不利于我們自身的生活環(huán)境[4]。隨著對動物權(quán)益的關(guān)注,人們想要了解諸如豬、牛等動物的情緒。這么做不止是為了符合(某些國家的)監(jiān)管,更有可能產(chǎn)生實際的經(jīng)濟效益。近年來華為、網(wǎng)易等大廠都推出智能養(yǎng)豬項目,獲得了很多關(guān)注。
要想養(yǎng)好豬,首先要了解豬。近年已有多項研究,基于AI通過豬、牛、雞等動物的臉部圖片、視頻和叫聲,識別其情緒[3-6]。研究人員通過多個攝像機持續(xù)記錄動物行為,然后由獸醫(yī)等專業(yè)人士根據(jù)場景進行人工標(biāo)注:例如豬在吃東西時是開心的,在被人拖走時是緊張的。研究人員將其作為訓(xùn)練AI模型的標(biāo)簽,然后訓(xùn)練卷積(對圖像)或循環(huán)(對聲音)神經(jīng)網(wǎng)絡(luò)模型,給動物行為進行分類;最后用專家標(biāo)注的標(biāo)簽當(dāng)作金標(biāo)準(zhǔn),用以評估模型的準(zhǔn)確率。這也是這類研究的一貫套路。
用于豬情緒識別的視頻數(shù)據(jù)收集裝置丨圖源:參考文獻(xiàn)[5]
分別處在開心、中性、恐懼和憤怒狀態(tài)下豬的圖片示例。圖源:參考文獻(xiàn)[5]
一項基于豬的45秒短視頻進行情緒分類的研究[5],準(zhǔn)確度達(dá)到89.4%。另一項專注于豬和牛的研究(使用來自6個農(nóng)場的3780張圖片)[7],通過識別動物耳朵動作和眼白區(qū)域的變化,研究人員構(gòu)建了這兩種動物情緒的實時分類模型。該模型將豬的情緒分為6種,牛的分為3種,準(zhǔn)確率達(dá)到了85%。
根據(jù)耳朵對豬和牛進行情緒分類的示例丨圖源:參考文獻(xiàn)[7]
同樣,家畜聲音也被收集訓(xùn)練以理解它們的情緒。一項基于411頭豬,一生中的7414叫聲及對應(yīng)背景數(shù)據(jù)[6],研究人員開發(fā)出分類模型,區(qū)分正向和負(fù)向情緒,準(zhǔn)確率可達(dá)到91.4%。而一項預(yù)印本研究[8]使用了80只雞的樣本,細(xì)致地記錄并分析了它們在不同情境下的鳴叫。為了確保系統(tǒng)解讀的準(zhǔn)確性,研究者與一個由八位動物心理學(xué)家和獸醫(yī)組成的團隊合作,建立基于深度學(xué)習(xí)的模型,該系統(tǒng)可識別多種情緒,包括饑餓、恐懼、憤怒、滿足、興奮和痛苦。
人工智能應(yīng)用于動物研究不只是改善動物福利,更實際的是幫助檢測動物疾病。劍橋大學(xué)研究者開發(fā)的AI系統(tǒng)能夠檢測羊的疼痛水平[9],這有助于對常見但嚴(yán)重的動物病癥進行早期診斷和治療。這項技術(shù)還可以應(yīng)用于其他類型的動物。相關(guān)技術(shù)完善后,可以在動物飲用的水槽放置攝像頭,系統(tǒng)就能夠識別出疼痛的動物,從而及時治療,減少損失。
更貼近生活的研究,來自對寵物情緒的識別,例如文獻(xiàn)[10]展示了對寵物狗情緒的分類模型。研究人員根據(jù)狗的面部圖像建模,可識別不同品種寵物狗的情緒。
當(dāng)前市面上也有不少以“翻譯寵物語言”為賣點的APP產(chǎn)品,然而根據(jù)當(dāng)前研究水平,AI只能夠?qū)η榫w進行粗略地劃分,并不支持想象中的與動物進行多輪復(fù)雜對話,這些APP也都是娛樂式的。事實上,由于動物和人的生活環(huán)境截然不同,與動物無障礙的交流,或許永遠(yuǎn)是一個難以實現(xiàn)的夢想。
不同表情的寵物狗示例丨圖源:參考文獻(xiàn)[10]
除了影像和聲音,理解動物還可以基于腦電數(shù)據(jù)。2022年的一項研究便通過事件相關(guān)電位(ERP)[11],使用非侵入的方式,發(fā)現(xiàn)狗能夠?qū)θ说穆曇粞杆龠M行反應(yīng),能將人類富有情緒的發(fā)聲與其面部表情相匹配。這項研究雖然與解讀動物語言無關(guān),但有了動物的腦電數(shù)據(jù),將更準(zhǔn)確、更直接地幫人類了解動物的所思所想。
從巴甫洛夫的狗到珍妮·古道爾的黑猩猩,人們對動物語言和行為的研究,不斷改變著我們認(rèn)識自身的方式。我們在動物中找到人性共有的部分,再反觀自身,找到人性中獨特的與崇高的部分。從動物語言研究獲得的新知越多,越讓我們意識到和我們共享地球的生靈的復(fù)雜性。例如前述的關(guān)于抹香鯨的研究,抹香鯨能夠通過節(jié)奏、語速、裝飾音的組合產(chǎn)生復(fù)雜的語言,是除人類語言外第一個具有組合排列特征的語言系統(tǒng)。自從哥白尼原理將人類從宇宙的中心驅(qū)逐以來,我們又一次發(fā)現(xiàn)自身并沒有那么特殊,這能教會我們要在未知面前保持謙卑。
然而人類可能永遠(yuǎn)無法破譯動物的語言。子非魚安知魚之樂,對動物的情緒進行簡單分類,是基于人類專家按照自身umwelt的先入之見進行的判斷。
除了優(yōu)點,我們也不該忘記技術(shù)存在被濫用的可能,以及新技術(shù)對生物倫理提出的新問題。識別鯨魚的語言后,或許會讓某些不擇手段的公司跟隨鯨魚,前往未知的漁場捕魚;即使算法能夠生成足以以假亂真的抹香鯨的叫聲(通過了抹香鯨版的“圖靈測試”),貿(mào)然將合成的聲音引入自然界已有的交流系統(tǒng),也有可能改變鯨魚之間正常的交流,或引發(fā)鯨魚的焦慮,導(dǎo)致對野生動物的傷害。
不過,盡管這類研究在哲學(xué)上存在爭議,但其應(yīng)用是具有實際的經(jīng)濟意義的,值得持續(xù)關(guān)注。隨著智能家居的普及,自家寵物的一舉一動都將被記錄,為寵物開發(fā)的智能硬件,將會不僅跟蹤寵物的飲食飲水、運動狀況,還可能記錄寵物的心跳血氧等數(shù)據(jù)。擁有了這些數(shù)據(jù),意味著我們能夠?qū)游镩_展之前受限于技術(shù)條件的研究。
同時,這也意味著可以讓更多普通人有機會成為“公民科學(xué)家”,通過貢獻(xiàn)數(shù)據(jù),進行干預(yù)性實驗,以及參與數(shù)據(jù)分析,切身參與到第一線的科研活動。例如在很多軼事中出現(xiàn)的有超強學(xué)習(xí)天賦的狗,但如果只是特例的一兩只,無法視作嚴(yán)謹(jǐn)?shù)目茖W(xué)研究。2023年的一項研究[12]顯示,通過普通人參與數(shù)據(jù)收集,有41只被認(rèn)定為能根據(jù)主人指令拿起特定的玩具;基于收集到的數(shù)據(jù),研究者進行了統(tǒng)計分析,發(fā)現(xiàn)了這些“天賦異稟”的狗的共性,甚至它們可被視為一個全新的品種。
類似的研究,可以在眾籌網(wǎng)站上由愛好者自行開放討論,完善實驗設(shè)計,募集所需資金,之后招募志愿者完成實際數(shù)據(jù)分析,最終合作撰寫研究報告。例如筆者構(gòu)想,可以讓狗狗帶上類似GoPro這樣的相機,去記錄遛狗時狗與其它動物間的互動:當(dāng)遇見體型明顯比自己大的狗,與體型比自己小的狗的時候,發(fā)出的叫聲(或遇見同一性別或不同性別)有何差異。人們可以構(gòu)建基于類似的動物互動的AI預(yù)測模型,搭建站在寵物視角的“翻譯應(yīng)用”。而非當(dāng)下站在人類視角,將狗叫聲翻譯成如何想要與人互動這種“討好型”的應(yīng)用。
這樣的經(jīng)歷,對參與者來說會是一次有切身體驗感的科普活動,會讓他們懂得科學(xué)方法,提升批判性思維。類似的科研活動,比如記錄鳥類的叫聲和影像,門檻低、趣味性高,是大多數(shù)人都可參與的,尤其適合親子互動。
參考文獻(xiàn)
[1] https://www.nature.com/articles/s41467-024-47221-8
[2] https://blog.google/technology/ai/protecting-orcas/
[3] https://arxiv.org/abs/2210.12300
[4] 菲利普·林伯里 (Philip Lymbery),失控的農(nóng)業(yè),人民日報出版社,2019.
[5] https://www.nature.com/articles/s41598-024-51755-8.pdf
[6] https://www.nature.com/articles/s41598-022-07174-8#Ack1
[7] DOI: 10.1101/2021.04.09.439122
[8] https://www.researchsquare.com/article/rs-3034567/v1
[9] http://www.cl.cam.ac.uk/~pr10/publications/fg17.pdf
[10] https://www.nature.com/articles/s41598-023-30442-0
[11] https://royalsocietypublishing.org/doi/full/10.1098/rsos.211769
[12] https://www.nature.com/articles/s41598-023-47864-5
出品:科普中國
聯(lián)系客服