從數(shù)據(jù)視角
看第二語言教學
與自然語言處理的
共同本質
2017年8月6日,北京時間晚上8點整,我們迎來了國際漢語教師微信群第十二次群講座。由北京外國語大學王祖嫘老師主持,北京第二外國語學院的宋飛老師為大家奉上《從數(shù)據(jù)視角看第二語言教學與自然語言處理的共同本質》的專題講座。本次講座借助機器人助手實現(xiàn)了多群直播,讓群內的老師們和衛(wèi)星群的研究生、博士生以及其他有志于從事漢語教學的同仁們一起分享了這次內容豐富、主題新穎的學術大餐。整個講座可以用四個“qīng”來概括:條理清晰、內容清楚、語氣輕快、氣氛輕松。
本次講座在宋飛老師幽默的調侃中開始。從本科的金融專業(yè)到研究生的漢語言文字學專業(yè),再到哥倫比亞大學和密西西比大學的暑期中文項目;從迷上做語料庫到研究中文信息處理,一路走來,宋老師認為每個專業(yè)都是相輔相成,甚至是相通的。比如第二語言教學是研究人怎么學習語言的,而中文信息處理就是研究怎么教會計算機來學習一門語言。這兩者之間究竟存在什么樣的共同的本質,正是接下來宋老師要和大家分享的話題。
1. 二語教學的失敗案例——啞巴英語,教學誤區(qū)在于過分強調語法教學。
宋老師以自身為例,提到初中時期開始學習英語,形式是老師拼命講語法,學生拼命記語法。其結果就是學了十多年英文還是沒有英文字幕就看不懂英文電影;跟外國人交流張不開口。所以,以學語法為核心來學習一種語言似乎起不到應有的作用。
2. 從人機對話曾面臨的困境和突破看規(guī)則(語法)與語料訓練的不同效果。
宋老師提到了iPhone手機的Siri。它像是住在iPhone中的一個“人”。如果問它“你是男的還是女的,Siri?”它會回答“我沒有性別?!比祟惛嬎銠C說一句話的時候,它可以理解這句話,并且用我們的語言來回答。這就是Voice Recognition語音識別技術。上個世紀七十年代,IBM率先開始在當時的Wason實驗室(華生實驗室)進行語音識別技術的實驗。在近二十年的實驗過程中,語音識別的正確率始終維持在大約70%,一直沒有得到本質的提高。IBM請了很多語言學家都沒能解決這個問題。當時IBM華生實驗室的項目負責人弗里德里克·賈里尼克(Frederek Jelinek)做了一個大膽的決定,即開除了語言學家,請來了統(tǒng)計學家和數(shù)學家。結果語音識別的正確率得到了飛速提升,很快就達到了90%。
宋老師提到,語言學家解決不了的問題被數(shù)學家和統(tǒng)計學家解決了,原因在于二者解決問題的思路不同。語言學家的方法和教人學語言一樣,就是教語法。很多人覺得,人用學語法的方式學不好語言是因為記不住語法規(guī)則。但是讓善于記憶和邏輯分析的計算機通過學習語法規(guī)則來掌握一門語言,事實證明也行不通。因為人的語法規(guī)則保守估計有幾千條甚至上萬條,而且這些語法規(guī)則不是天然存在的,是人為總結出來的。這就決定了這些語法規(guī)則之間有各種各樣的矛盾。比方說,留學生學“被”字句,“我摔了手機”可以說成“手機被我摔了”。那么根據(jù)這個規(guī)則學生們會把“我姓劉”說成“劉被我姓了”;把“我像媽媽”說成“媽媽被我像了”。語言學家可以總結出語法規(guī)則去跟學生解釋錯在哪里,但是學生從理解語法規(guī)則到能夠輸出正確的句子之間,還有很長的路要走。再比方說,我們說“我差一點兒及格”,意思是“我沒及格”;“我差一點兒沒及格”意思是“我及格了”。多了一個“沒”句子的意思是相反的。但是“我差一點兒摔死”和“我差一點兒沒摔死”,有沒有這個“沒”都是“沒摔死”,句子的意思是一樣的。單純靠語法規(guī)則,在面對類似問題的時候也顯得效果不佳。此外,語法規(guī)則和語言一樣,都是在不斷變化的。以前,很多北京人聽見別人說“我有吃過早飯”會認為這違反語法規(guī)則?,F(xiàn)在情況恐怕不一樣了。而且,人為總結的語法規(guī)則永遠都會有漏洞和矛盾,計算機聽到這么多打架的規(guī)則之后,無法進行正常的運算得到真實的語義。
和語言學家不同,統(tǒng)計學家不講語法規(guī)則,而是通過大量真實規(guī)范的語料來訓練計算機的語言模型,得到相應的參數(shù)。具體來說,把報紙、雜志的文章都做成語料庫,然后輸入計算機。計算機會先計算單個詞頻以及任意兩個詞搭配的頻率。如果語料庫做得比較大,而且是一個平衡語料庫,這個frequency就可以近似的被看作是possibility,由此就可以建立一個二元文法模型。比方說當我們跟Siri說“我是一個中國人”,Siri聽到這一連串發(fā)音的時候,它會先調取第一個音節(jié),看發(fā)音是三聲的“wǒ”的所有詞當中哪個詞的頻率是最高的。統(tǒng)計結果看到,發(fā)音是“wǒ”的有四個字:“我”115623次,“婑”5次,“捰”3次,“婐”2次,“我”這個字頻率最高。計算機就先假設第一個詞就是這個“我”。然后在“我”的后面,它聽到了“shì”這個音,就會調出所有讀音為“shì”的詞,然后再看這些詞分別跟“我”這個詞共同出現(xiàn)的頻率,結果發(fā)現(xiàn)“是”和“我”一起出現(xiàn)的頻率是最高的。于是它就認為第二個詞就是“是”。以此類推,計算機是把這句話中所有發(fā)音的所有可能的詞都組合一遍,把它們的概率分別相乘,然后得到各個組合分別的概率,最后發(fā)現(xiàn)這些詞按照這個順序排列的概率是最高的。也就是說這個句子的概率是最高的。那么計算機就認為你說的就是這句話
P(S)=P(w1)P(w2|w1)P(w3|w1w2)…P(wn|w1w2…wn-1))
這跟我們大腦運行的方式有點兒像。聽到有人說“我是一個中國人”。因為我們以前聽別人說到wǒ這個音,“你我”的“我”出現(xiàn)的最多,所以它的可能性最大。同樣,因為以前聽到的語料當中這個“是”,在“我”后邊出現(xiàn)的概率最高。所以我們知道第二個音shì,是這個“是”。不管計算機還是人類學習語言的方法,本質上都是一樣的。人腦也是先有大量語料的輸入,然后用大腦的記憶系統(tǒng)來得到一種語言中所有詞大致的概率庫,用大數(shù)據(jù)來訓練大腦中的語言模型,而不是通過學習語法規(guī)則。
3. “明德模式”之所以行之有效,正是因為它具有這種數(shù)據(jù)思想。
接著,宋老師以“明德模式”為例,明德模式的核心是drill操練。老師把某個句型寫在黑板上,然后建立一個正確的范句。領讀三遍,單點學生來復述,再一起復述。這樣一個句型操練至少六遍之后,替換掉這個范句里的某一個成分,當成一個新句子。例如:雖然……但是……
范句:小張雖然喜歡中文,但是不喜歡漢字。
替換:愛 ——
小張雖然愛中文,但是不愛漢字。
替換:討厭——
小張雖然討厭中文,但是不討厭漢字。
學生不需要知道“喜歡”“愛”“討厭”都是什么心理動詞。用來替換的詞由老師來把握。通過這樣一遍一遍的練習作為輸入,學生大腦就潛移默化的將心理動詞歸為一個聚類,并且使用這些詞的概率會上升。概率上升了再聽到類似語音的時候,他們就自然會優(yōu)先識別為這些詞,聽力也就提高了。輸出的時候,只要“雖然”這個詞一激活,那些搭配次數(shù)較多的詞馬上就會出現(xiàn),在他大腦中自然的就建立“雖然……但是……”的這個語言模型。
4. 兒童母語習得的過程能夠旁證語料訓練的作用。
宋老師指出,其實孩子學語言也是如此。孩子一出生,父母就開始不停地和他們說話,父母不會教語法,也不會追究他們是否能聽懂。孩子大腦中的語言模型由于父母大量語言材料的輸入慢慢建立起來,然后開始明白意思,開始說話,產出語言。并且,孩子建立起什么樣的語言模型,產出什么樣的語言材料基本上取決于外界給他的輸入。
最后,宋老師總結了這次講座的核心觀點。第一,從數(shù)據(jù)視角看,第二語言教學和自然語言處理解決問題的思路和方法本質上是相同的。相通之處在于,自然語言處理是以數(shù)學模型模擬人在語言學習和使用中的認知特點,而基于數(shù)據(jù)的自然語言處理的實踐又有助于揭示出語言教學中的規(guī)律。語音識別的發(fā)展,就是例子。第二,單靠語法規(guī)則學不會也學不好一門語言。要想學好一門語言必須靠大量的語料數(shù)據(jù)輸入。第三,要想建立正確的語言模型,必須有大量規(guī)范的語料來訓練語言模型的參數(shù)。
宋老師精彩的演講引發(fā)了群里熱烈的討論,大家就講座內容發(fā)表見解、提出問題。講座內容精彩,問答環(huán)節(jié)同樣讓人獲益匪淺,只覺得意猶未盡。問答部分記錄如下:
1
問:您認為當前漢語教學應該做哪些調整?
答:關于這個問題我的觀點是的確需要適當調整一下語法和語料的配合關系。因為從自然語言處理這個領域來說,隨著計算能力的提高和數(shù)據(jù)量的不斷增加,過去看似不可能通過統(tǒng)計模型完成的任務漸漸的都變成可能了,包括很復雜的句法分析。到了上個世紀九十年代末期,大家發(fā)現(xiàn)通過統(tǒng)計得到的句法規(guī)則,甚至比語言學家總結的更有說服力。2005年隨著這個Google基于統(tǒng)計方法的翻譯系統(tǒng)全面超越基于規(guī)則的翻譯系統(tǒng)。這應該也能夠給漢語教學提供一些啟示。在我們的課堂教學的過程中,借鑒明德模式的優(yōu)點,保持一個高強度的語料輸入,我相信一定對漢語教學有巨大的幫助。
2
問:在語料輸入的時候是帶規(guī)律性的輸入由語法句法詞法帶入好還是不帶規(guī)律性的輸入隨意好?
答:我個人的觀點肯定是帶規(guī)律性的更好。因為這個有助于我們整個語言知識體系的建構。
3
3. 問:您今天介紹的方法,二語學習的輸入語料應該具有什么特點?
答:關于這個問題我覺得可能語料有這么幾個特點會對漢語學習更有幫助。首先必須是規(guī)范的語料。因為只有規(guī)范的語料才能夠訓練出正確的語言模型。第二點是我覺得明德模式做得很好的一點就是它會通過建立范句,把這個句型當中的某些成分進行替換練習。一方面可以保證話題的轉換,讓學生對該語法點保持興趣,另外一方面也會加深他對于這個句型的掌握程度。所以有替換性的成組的語料會比較有價值。
4
問:明德教學模式過去一直被認為受到行為主義心理學的指導,認為語言是刺激-反應的結果,您覺得這和您今天所做的解讀有何異同?
答:各種語言學理論雖然產生于不同的階段,經(jīng)歷了一個不斷完善和發(fā)展的過程。但是其實任何語言學理論一定都在一定范圍內有它的適用性,在我們的教學過程中也都能夠運用到。像剛才王老師提到的刺激反應論,我認為在我們的語言教學當中是大有用場的。因為我們人也是動物,必然會有刺激反應。所以我個人認為說明德模式的確是能受到這個刺激反應論的指導,并不為過。而且實際上從效果來看這種刺激反應的結果其實還不錯。這個和剛才說到的通過語料來形成刺激,然后讓學習者建立語言模型,產生反應,然后下一次再遇到類似的刺激,它就會產生類似的反應。刺激反應論不管在第二語言教學還是在自然語言處理當中都有其用武之地。
雖然直播因為時間關系結束了,可是關于本次講座的討論一直持續(xù)著。本次講座在研究生博士生群里的機器人轉播也非常成功,他們都覺得很有收獲。我們熱烈祝賀王祖嫘老師、宋飛老師講座成功的同時,也要感謝二位老師的辛苦付出;感謝王維群老師聯(lián)系主講人、報道人、技術支持等幾個方面調度,相關老師密切配合,在背后提供支持;感謝一直以來做技術支持的葛寶俊老師,講座結束葛老師就整理好了講座內容的兩個音頻,得知需要視頻格式又趕緊做了一遍視頻,第二天一大早就發(fā)給我們;感謝各位老師的參與。特別要說的是宋飛老師為了試驗本次講座的轉播,自己出錢作為機器人轉播費用。我們?yōu)槔蠋焸兊臒o私奉獻鼓掌!期待下一次的學術盛宴!
主講人介紹
宋飛
1986年生于山東臨沂,北京第二外國語學院講師,碩士研究生導師,中央民族大學與哥倫比亞大學聯(lián)合培養(yǎng)博士,曾任中科院自動化研究所助理研究員。宋老師主要從事國際漢語教學、中文信息處理、文化科技融合領域的研究,主持北京市社科基金項目等多個科研項目,出版專著《國際漢語教學用性質狀態(tài)類基層詞庫建設研究》,并在國內外學術刊物上發(fā)表學術論文十余篇。
主持人介紹
王祖嫘
山東東營人。北京外國語大學中國語言文學學院副教授,碩士研究生導師?!秶H漢語教育》(中英文)編輯部主任,世界漢語教學學會會員,中文教學現(xiàn)代化學會會員。主持和參加多項省部級科研項目,在各類學術刊物上發(fā)表學術論文三十余篇。從事留學生漢語教學工作十余年,曾赴韓國、奧地利等國任教,參加國家漢辦多個大型師資、教材培訓項目。任國家漢辦海外教師及志愿者選拔考官,《國際漢語教師證書》北京外國語大學考點培訓師。主要研究專長為國際漢語教學與漢語國際傳播。出版專著《對外漢語教師話語研究》(合著),參編《中國文化走出去年度報告》、《漢語國際傳播文獻選編(2013-2014)》等報告和文集,出版教材《HSK5級聽力專項突破》(合著)。