本文收錄于《輶軒使者:語言學(xué)家的田野故事》一書
“西風(fēng)吹起銀河水,散作江南萬里天?!笨吹竭@樣詩句,您是否會想到它竟不是人類所作,而是出自機(jī)器人“九歌”之手?
自1956年達(dá)特茅斯會議以來,人工智能研究者們在國際象棋、圍棋、繪畫等一個(gè)個(gè)人類擅長的領(lǐng)域內(nèi)不斷探索著計(jì)算機(jī)的極限。詩歌作為人類語言智慧高度凝練化和藝術(shù)化的體現(xiàn),早在上世紀(jì)六十年代就進(jìn)入了國外研究者的視線。國內(nèi)針對中國古典詩歌自動生成的研究興起于90年代,并且在2016年之前,已經(jīng)有了若干個(gè)初具功能的自動作詩系統(tǒng),然而效果不盡如人意。對于詩歌生成這一任務(wù),一方面,搜索空間將隨著詩字?jǐn)?shù)的增加而指數(shù)級增長。如對七言律詩,詩歌生成的潛在搜索空間規(guī)模將達(dá)到約2^744,遠(yuǎn)高于圍棋所有可能的不同盤面數(shù)(2^572)。另一方面,不同于棋類等競技項(xiàng)目,詩歌創(chuàng)作沒有明確的好壞勝負(fù)判斷規(guī)則。因此,研究計(jì)算機(jī)詩歌生成對于解析人類文學(xué)創(chuàng)作的內(nèi)在計(jì)算機(jī)制、開發(fā)計(jì)算機(jī)的創(chuàng)造能力乃至構(gòu)建更加通用的文本生成模型都有一定的價(jià)值。于是清華大學(xué)自然語言處理實(shí)驗(yàn)室(THUNLP)在2016年開始著手詩歌自動生成系統(tǒng)的研究。
研究伊始,我們就為系統(tǒng)取名“九歌”?!毒鸥琛肥菓?zhàn)國時(shí)期偉大的詩人屈原的名篇,這一命名意在致敬屈原,對中國的浪漫主義文學(xué)溯源,寄托了九歌的起點(diǎn)——起于中國數(shù)千年的詩詞文化之中;同時(shí),“九”作為虛數(shù)意味“多”,“歌”作為“詩歌”的泛稱,是我們對系統(tǒng)未來的期許——希望“九歌”能“創(chuàng)作”出很多優(yōu)秀的詩作。
在自動作詩的研究上,我們堅(jiān)持以任務(wù),而以非模型為導(dǎo)向,即針對詩歌創(chuàng)作的特點(diǎn)和面臨的問題,借鑒詩歌寫作、語言學(xué)、心理學(xué)等方面的理論,設(shè)計(jì)專門的解決方案和模型結(jié)構(gòu)。我們研究的思路從詩中來,最終也應(yīng)用到詩中去。
團(tuán)隊(duì)面臨的第一個(gè)問題是上下文一致性。詩歌屬于多行語句構(gòu)成的篇章級別文本。一首詩的不同詩行之間連貫性和一致性是衡量詩歌質(zhì)量的重要指標(biāo)之一?!耙灰箵P(yáng)州月,凄涼萬里心。故鄉(xiāng)無限意,惆悵暮云陰?!边@首機(jī)器生成的五言絕句乍看之下文從字順,然而第一句以“月”字點(diǎn)明時(shí)間為夜晚,第四句卻在沒有任何合理過渡轉(zhuǎn)折的情況下,生成了“暮云”。時(shí)間與上文的不一致立刻暴露了這首詩為機(jī)器而非人所作。
為了解決這一問題,我們從相關(guān)的詩歌創(chuàng)作理論中尋求思路。在詩歌創(chuàng)作中,有“謀篇”之說。所謂謀篇即預(yù)先對詩詞的內(nèi)容和結(jié)構(gòu)進(jìn)行布局,設(shè)計(jì)好每一句寫什么,如何起承轉(zhuǎn)合等。已經(jīng)有相關(guān)研究過嘗試這種思路,但效果有限。
“謀篇”的路走不通,我們轉(zhuǎn)向另一個(gè)思路——“意脈”?!耙饷}”的概念可追溯到《文心雕龍》的《章句》篇:“裁文匠筆,篇有小大;離章合句,調(diào)有緩急,隨變適會,莫見定準(zhǔn)……故能外文綺交,內(nèi)義脈注,跗萼相銜,首尾一體?!?這一段論述啟示我們,在寫作中,要動態(tài)地、靈活地構(gòu)建出整首詩的骨架主線,以此對上下文的內(nèi)容和主題進(jìn)行約束,做到上下緊密相關(guān),意脈連貫。同時(shí)又要斷續(xù)離合、蕩開筆墨,允許一定的自由與發(fā)揮的空間,不能約束得太死板。
基于這樣的思路,我們設(shè)計(jì)出了顯著性線索機(jī)制模型?!皯浳魮P(yáng)州月,于今又一秋。故人何處是,落葉滿汀洲?!边@是該模型生成的詩歌。詩中第二句生成了“秋”,點(diǎn)明了季節(jié),同時(shí)第四句生成與上文一致的“落葉”一詞,進(jìn)一步渲染了秋景。整首詩的主題和意境都有較好的一致性。
我們面臨的第二個(gè)問題是詩歌寫作的“扣題”。人類寫詩時(shí),往往會在腦海中選定一個(gè)主題,然后圍繞該主題展開創(chuàng)作。對于自動作詩系統(tǒng),主題一般以用戶輸入的一個(gè)或多個(gè)關(guān)鍵詞,如“春風(fēng)”、“相思”等來確定。現(xiàn)有的系統(tǒng)要么漏生成某個(gè)關(guān)鍵詞,無法很好地表達(dá)用戶要求的主題;要么把用戶給定的關(guān)鍵詞直接生搬硬套地嵌入到生成的詩歌中,直接露出機(jī)器的馬腳。
對于這樣的問題,我們從心理語言學(xué)里得到了一定的啟發(fā)。人的大腦中存在一個(gè)名為工作記憶(Working Memory)的模塊。心理語言學(xué)相關(guān)理論表明,人閱讀一篇文章時(shí),如果能夠把當(dāng)前看到的句子和存儲在工作記憶模塊中的內(nèi)容以及該篇文章的主題聯(lián)系起來,就會覺得這篇文章扣題緊密,行文連貫。
因此我們提出了基于工作記憶模型的詩歌生成方法,該方法使用不同的記憶模塊存儲用戶輸入的不同關(guān)鍵詞和生成的上文內(nèi)容。模型動態(tài)地不斷讀取和更新“自我”的記憶,以此來提升扣題的緊密度和靈活度。
“柳絲無力綰春愁,燕子歸來恨未休。記得當(dāng)年錦繡樓。為君留,別后相思淚滿眸?!边@是我們的模型以“柳色”和“思君”為關(guān)鍵詞,生成的一首宋詞《憶王孫》。整首詞的主題連貫一致,緊密圍繞離別和相思展開,同時(shí)用戶輸入的關(guān)鍵詞的語義也得到了靈活的體現(xiàn)。
除此之外,“九歌”研發(fā)的過程中還遇到了很多困難。不論對待什么樣的問題,團(tuán)隊(duì)在研究思路上一直在向人類的寫作模式和創(chuàng)作技法取經(jīng),從詩中總結(jié)規(guī)律,由詩而思,由思而行。
詩歌自動生成是一個(gè)有趣的任務(wù),但同時(shí)面臨著很多挑戰(zhàn)和爭議?!熬鸥琛毕到y(tǒng)經(jīng)過了兩年的不斷研發(fā)改進(jìn),生成詩歌的質(zhì)量不斷提高,也曾于2017年登上央視《機(jī)智過人》舞臺,與當(dāng)代青年詩人比拼詩詞創(chuàng)作。但同時(shí),九歌團(tuán)隊(duì)也逐漸意識到機(jī)器詩作和人類詩作之間的鴻溝?;蛟S詩離不開人,我們讀的是詩的文字,然而腦海中浮現(xiàn)的是一個(gè)個(gè)具象的詩人及他們的愛恨與憂愁。我們希望“九歌”在未來的定位不僅是一個(gè)機(jī)器“詩人”,而是一名智能機(jī)器“助手”;不是替代人類寫詩,而是輔助人類,尤其初學(xué)者進(jìn)行詩詞寫作的學(xué)習(xí),從而為我們中華優(yōu)秀傳統(tǒng)文化的傳承和弘揚(yáng)助力。
“九歌”目前剛剛邁出了第一步,我們將不斷進(jìn)行更加深入的研究和探討。詩在遠(yuǎn)方,“九歌”將攜手人類,在追求詩意的道路上步履不停。
掃描以下二維碼使用九歌系統(tǒng):
“九歌”在線系統(tǒng)鏈接:
http://jiuge.thunlp.org/
九歌開源代碼鏈接:
https://github.com/THUNLP-AIPoet/
《數(shù)字人文》“網(wǎng)絡(luò)分析”??鞲?/a>
CFP: Special Issue on Network Analysis (Spring 2021)
虛構(gòu)與歷史:明清文學(xué)中的對立與風(fēng)格梯度
大數(shù)據(jù)技術(shù)與古代文學(xué)經(jīng)典文本分析研究
校對 | 肖爽
美編 | 李倩
聯(lián)系客服