張寶林,北京語(yǔ)言大學(xué)語(yǔ)言科學(xué)院研究員,碩士,博導(dǎo),主要研究語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué);
崔希亮,北京語(yǔ)言大學(xué)教授,博士,博導(dǎo),主要研究語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)。
相關(guān)信息:
本研究得到教育部哲學(xué)社會(huì)科學(xué)研究重大課題攻關(guān)項(xiàng)目(批準(zhǔn)號(hào):12JZD018)和國(guó)家社會(huì)科學(xué)基金項(xiàng)目(批準(zhǔn)號(hào):11BYY054)的資助。
一 前 言
進(jìn)入本世紀(jì)以來(lái),漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)在對(duì)外漢語(yǔ)教學(xué)與研究中的作用日益凸顯,引起了學(xué)界的廣泛關(guān)注,漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)漸成高潮,“成為語(yǔ)料庫(kù)研究中的熱點(diǎn)”(譚曉平,2014) ,漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)正在跨入一個(gè)繁榮發(fā)展的重要時(shí)期。
另一方面,直至今天,漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)并無(wú)統(tǒng)一標(biāo)準(zhǔn),不論哪一種語(yǔ)料庫(kù),不論是已建成的還是在建的,都是根據(jù)建設(shè)者的主觀認(rèn)識(shí)和研究經(jīng)驗(yàn)進(jìn)行建設(shè),建庫(kù)實(shí)踐中存在很大的隨意性。這種隨意性表現(xiàn)在許多方面,例如在語(yǔ)料收集方面,有的語(yǔ)料庫(kù)只收作文,有的兼收造句;有的只收作文考試答卷,有的兼收平時(shí)的寫作練習(xí);有的只有錄入版語(yǔ)料,有的還附帶原始語(yǔ)料;在語(yǔ)料和語(yǔ)料作者的背景信息方面,有的語(yǔ)料庫(kù)收集的較多,有十幾項(xiàng),有的很少,只有幾項(xiàng);在語(yǔ)料規(guī)模方面,有的語(yǔ)料庫(kù)有幾十萬(wàn)字,有的則達(dá)幾百萬(wàn)字,而以百萬(wàn)字左右者為多; 在語(yǔ)料標(biāo)注方面,有的進(jìn)行標(biāo)注,有的未做標(biāo)注;有的只經(jīng)過斷句、分詞和詞性標(biāo)注等加工處理(陳小荷,1996),有的只標(biāo)出錯(cuò)別字或部分偏誤句,有的則從字、詞、句、篇、標(biāo)點(diǎn)符號(hào)等角度對(duì)全部語(yǔ)料中存在的偏誤現(xiàn)象進(jìn)行窮盡性標(biāo)注;而對(duì)語(yǔ)料中正確的語(yǔ)言表現(xiàn),除個(gè)別語(yǔ)料庫(kù)之外,一般皆未標(biāo)注;標(biāo)注的方法與代碼也不盡相同;語(yǔ)料及相關(guān)背景信息的查詢與呈現(xiàn)方式各異,有的使用便捷,有的則不甚方便;分詞和標(biāo)注詞性使用的是為漢語(yǔ)母語(yǔ)研究或中文信息處理服務(wù)的、為母語(yǔ)語(yǔ)料庫(kù)建設(shè)設(shè)計(jì)的分詞規(guī)范與詞表,并不完全適合漢語(yǔ)中介語(yǔ)的實(shí)際情況;已建成的語(yǔ)料庫(kù)除極少數(shù)向?qū)W界開放之外,大多沒能實(shí)現(xiàn)資源共享。這些問題,使語(yǔ)料庫(kù)在規(guī)模、功能、質(zhì)量、用法等方面尚存在諸多局限,不能完全滿足用戶的使用需求。(張寶林,2006、2008、2010;崔希亮、張寶林,2011;張寶林、崔希亮,2013)
我們認(rèn)為,建設(shè)標(biāo)準(zhǔn)是漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)經(jīng)驗(yàn)的總結(jié),凝聚著學(xué)界對(duì)語(yǔ)料庫(kù)建設(shè)的理論思考,標(biāo)志著語(yǔ)料庫(kù)的建設(shè)水平,對(duì)語(yǔ)料庫(kù)建設(shè)具有重要指導(dǎo)意義。它是漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)中帶有全局性的重大問題,不僅關(guān)系到語(yǔ)料庫(kù)建設(shè)本身,對(duì)基于語(yǔ)料庫(kù)的漢語(yǔ)教學(xué)與相關(guān)研究也具有重大影響。當(dāng)前,建設(shè)標(biāo)準(zhǔn)已成為制約漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)水平與發(fā)展的瓶頸,20余年的建庫(kù)實(shí)踐則提供了進(jìn)行建設(shè)標(biāo)準(zhǔn)研究的堅(jiān)實(shí)基礎(chǔ),因此,進(jìn)行漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)標(biāo)準(zhǔn)研究的時(shí)機(jī)已經(jīng)成熟。
基于上述認(rèn)識(shí),本文專門探討通用型漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)標(biāo)準(zhǔn)問題,希望能引起學(xué)界的關(guān)注與討論,逐漸形成共識(shí),以促進(jìn)語(yǔ)料庫(kù)建設(shè)的進(jìn)一步發(fā)展和建設(shè)水平的提高,為漢語(yǔ)教學(xué)與研究提供更好的優(yōu)質(zhì)資源。
二 研究建設(shè)標(biāo)準(zhǔn)的目的與原則
(一) 目 的
研究語(yǔ)料庫(kù)建設(shè)標(biāo)準(zhǔn)的目的有兩個(gè):直接目的和最終目的。前者為語(yǔ)料庫(kù)建設(shè)服務(wù),后者為漢語(yǔ)的教學(xué)與研究服務(wù)。
為語(yǔ)料庫(kù)建設(shè)服務(wù),就要總結(jié)以往建庫(kù)實(shí)踐中的經(jīng)驗(yàn)教訓(xùn)??偨Y(jié)經(jīng)驗(yàn)可以認(rèn)識(shí)語(yǔ)料庫(kù)的建設(shè)規(guī)律,加快建設(shè)速度,提高建設(shè)水平;總結(jié)教訓(xùn)可以使新的建庫(kù)工作不必從頭摸索,少走彎路,減少語(yǔ)料庫(kù)建設(shè)中的低水平重復(fù)。
為對(duì)外漢語(yǔ)教學(xué)與研究服務(wù),就要了解廣大教師和研究人員的實(shí)際需求,并根據(jù)這些需求確定語(yǔ)料標(biāo)注內(nèi)容。例如,學(xué)界的研究興趣可能分布在漢字、詞匯、語(yǔ)法、語(yǔ)篇、語(yǔ)體、語(yǔ)義、語(yǔ)用、辭格、交際文化等各個(gè)方面,作為通用型語(yǔ)料庫(kù),就應(yīng)為滿足各種研究目的而做語(yǔ)言文字乃至交際文化等各個(gè)方面的標(biāo)注;有做偏誤分析的需求,就要做偏誤標(biāo)注; 有做表現(xiàn)分析的需求,就要采用“偏誤標(biāo)注+基礎(chǔ)標(biāo)注”的模式進(jìn)行標(biāo)注(張寶林,2008、2013);總之,應(yīng)盡可能滿足教學(xué)與研究方面的多種需求,理論上是滿足所有需求。
(二) 原 則
1.全面性
研究語(yǔ)料庫(kù)建設(shè)標(biāo)準(zhǔn)的目的決定了本項(xiàng)研究必須貫徹全面性原則。從其直接目的看,語(yǔ)料庫(kù)建設(shè)從設(shè)計(jì)到施工,從收集語(yǔ)料到語(yǔ)料標(biāo)注,從研制管理與查詢系統(tǒng)到上網(wǎng)運(yùn)行與維護(hù),是一項(xiàng)非常復(fù)雜的系統(tǒng)工程,涉及很多方面的很多工作內(nèi)容和細(xì)節(jié),哪個(gè)環(huán)節(jié)處理不好都會(huì)影響語(yǔ)料庫(kù)的建設(shè)。因此,語(yǔ)料庫(kù)建設(shè)標(biāo)準(zhǔn)的研究要全面。
從為教學(xué)與研究服務(wù)的角度看,不同研究者的關(guān)注點(diǎn)與研究興趣往往存在很大差異,研究的對(duì)象與內(nèi)容各不相同,使用電腦的習(xí)慣方式也可能多種多樣。在語(yǔ)料庫(kù)建設(shè)過程中,就要從語(yǔ)料類型、語(yǔ)料標(biāo)注、語(yǔ)料檢索與呈現(xiàn)方式等方面進(jìn)行妥善的設(shè)計(jì)與安排,確保語(yǔ)料庫(kù)功能的全面,以滿足他們的需求。這同樣需要貫徹全面性原則。
2.可行性
建設(shè)標(biāo)準(zhǔn)的制定要有充分的現(xiàn)實(shí)基礎(chǔ),有些雖然需要但暫時(shí)做不到的事情不能作為標(biāo)準(zhǔn)。例如使用計(jì)算機(jī)進(jìn)行自動(dòng)標(biāo)注,不但效率高,標(biāo)注的一致性也好,但中文信息處理除分詞和詞性標(biāo)注達(dá)到實(shí)用水平之外,對(duì)其他語(yǔ)言層面的自動(dòng)標(biāo)注尚無(wú)實(shí)用價(jià)值,目前就不能把自動(dòng)標(biāo)注作為建設(shè)標(biāo)準(zhǔn)。
3.區(qū)別性
漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)包括口語(yǔ)語(yǔ)料庫(kù)和筆語(yǔ)語(yǔ)料庫(kù),通用型漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)的建設(shè)標(biāo)準(zhǔn)理應(yīng)包括口語(yǔ)語(yǔ)料庫(kù)和筆語(yǔ)語(yǔ)料庫(kù)的建設(shè)標(biāo)準(zhǔn)。由于兩種語(yǔ)料在承載媒介上的根本區(qū)別,建設(shè)標(biāo)準(zhǔn)必須對(duì)不同類型的語(yǔ)料庫(kù)做出不同的規(guī)定。例如,口語(yǔ)語(yǔ)料庫(kù)必須包括聲音語(yǔ)料,這是筆語(yǔ)語(yǔ)料庫(kù)所沒有的;為了滿足對(duì)中介漢字的研究需求,筆語(yǔ)語(yǔ)料庫(kù)必須進(jìn)行漢字標(biāo)注,而口語(yǔ)語(yǔ)料庫(kù)的文本部分系由母語(yǔ)者轉(zhuǎn)寫,因而無(wú)需進(jìn)行漢字標(biāo)注。
聯(lián)系客服