2018年1月29日傍晚19:00—20:00,第40期“我來讀文獻”活動【線上論壇】成功舉行,論壇嘉賓河南師范大學劉國兵教授與參加活動的研友們通過微信群討論組進行了實時交流。我們整理了研友們提出的主要問題以及嘉賓的解答,供大家學習參考。
本期活動文獻:
許家金,2017,語料庫研究學術源流考。外語教學與研究,(1):51-63。
嘉賓簡介:
劉國兵
河南師范大學外國語學院副院長、碩士生導師、博士、校聘教授、語料庫應用研發(fā)中心學術帶頭人。研究領域為語料庫語言學及英語教學。現(xiàn)任中國語料庫語言學研究會常務理事,全國中學通用教材《英語》(新標準CD-ROM)核心編委、河南省教師教育專家、河南省中等職業(yè)教育師資培訓專家。主持國家社科基金項目、教育部人文社科項目、中國外語教育基金重點項目、河南省哲學社科規(guī)劃項目、“十二五”教育科學規(guī)劃項目等多項國家及省部級項目;在國內外期刊上發(fā)表學術論文30余篇;出版譯著2部、教材8部。
線上答疑整理
思考題參考問答
1. Corpus這一概念的發(fā)展主要經歷了哪幾個階段?
語料庫這個概念從出現(xiàn)至今,其發(fā)展過程可以分為若干階段。有學者認為是四個階段(如本文),也有學者認為是五個階段,我個人認為四個階段或五個階段的劃分,沒有本質的區(qū)別。
我們可以先來看看許教授四個階段的劃分:
第一階段:表示文本匯集。約400多年前,corpus 指文學作品集萃、宗教經典全集、文獻匯編。
第二階段:表示作為研究資料的文本匯集。19世紀中后期到20世紀二三十年代,主要出現(xiàn)在(對比)語文學、歷史學、神學、法學、人類學研究文獻中,表示作為研究資料的文本匯集,多指古代典籍文獻。其中以人類學家Malinowski(1922)談到的corpus inscriptionum Kiriwiniensium(基里維納人語言素材)與今天的語料庫概念最為接近。
第三階段:表示作為語言學研究資料的文本匯集。20世紀四五十年代在(美國結構主義)語言學文獻中,開始出現(xiàn)corpus 單獨使用表示語言研究素材庫的含義。從目前查到的文獻看,以結構主義語言學家Harris(1947)為早。其使用語境如下:When such comparisons are carried out for a large corpus, we obtain morphemic segments which are repeated in various environments throughout the corpus.(同上:175,斜體系本文作者添加,下同)。
第四階段:表示作為語言學研究資料的電子文本匯集。20 世紀六十年代以后,以布朗語料庫(1967)為代表,逐漸確立了按一定取樣方案采集、服務于語言研究目的的電子文本庫這一概念。漢語文獻中“語料庫”這一中文譯法,大致是對照計算機術語“數據庫”推衍而出(楊惠中 1981:30;楊惠中、黃人杰 1982:60)。
但我在這個問題上與許家金教授觀點有些不一致:
第四階段:表示作為語言學研究資料的電子文本匯集。其實到了2000年以后,隨著各學科的進一步發(fā)展,許多交叉學科應運而生。
語料庫是電子文本匯集,這一點無可否認。但不一定僅限于作為語言學研究資料。人文社科(包括部分自然科學領域)的許多研究領域,目前都用到了語料庫。這也就是為什么有的學者把其劃分為五個甚至更多的階段。這里數量不是關鍵,核心問題在于對語料庫這一概念的界定。
2. Collocation這一概念的發(fā)展主要經歷了哪幾個階段?你同意作者的階段劃分嗎?
我們還先看許老師關于這一問題的看法。他認為collocation 這一概念的發(fā)展可以分為三個階段,分別如下:
第一階段:400多年前,從collocation表示“事物并置”這一含義開始,便有詞語并置搭配的用法(參見Simpson & Weiner 1989:487),它是對一種普通語言現(xiàn)象的描述。
第二階段:1933年前后,collocation成為具有重要教學價值的應用語言學術語。1933年英國學者Harold Palmer在日本出版的《有關英語搭配的第二階段中期報告》(Second Interim Report on English Collocations)是一部較早系統(tǒng)描寫英語核心詞語搭配行為的學術文獻。據Cowie(1998a)考證,這份報告的實際編寫者是詞典學家A. S. Hornby。
該報告封面印有:A collocation is a succession of two or more words that must be learnt as an integral whole and not pieced together from its component parts.
上面這句話是學者們第一次從語言學視角對collocation進行正式定義,為Firth上個世紀五十年代研究collocation提供了思路(by劉國兵,不代表許老師觀點)。
Cowie(同上:13)曾指出Palmer(1933)是一本“被嚴重忽略了的經典之作”。另據Cowie(1998b)考證,20 世紀四十年代俄羅斯的短語及搭配研究興起,對英語搭配研究也產生過積極影響。
第三階段:上個世紀五六十年代,搭配發(fā)展成為具有理論語言學地位的專業(yè)術語,它強調的是語言成分之間的結伴、相互期待和相互預見關系。這一階段搭配概念的發(fā)展,當歸功于J. R. Firth,他認為“搭配”是“意義的多維方式”(Firth 1951/1957:194)中的一個維度。
他還在另一作品《1930-55年語言學理論要覽》(A synopsis of linguistic theory,1930-55)中提出了“識詞于其所友!”(You shall know a word by the company it keeps!)(Firth 1957/1968a:179)的說法。當然,“識詞于其所友”的理念也見于其他早期文獻,詳見梁茂成(2014:26-27)的相關考證。
Halliday(1961:276)在Firth 提出搭配生義之后,較早提出了搭配的概率觀(probabilistic collocation),并使用了node(節(jié)點詞)、collocate(搭配詞)、span(跨距)這些概念,學界沿用至今。Halliday(1966:158)和Sinclair(1966:415)還分別用實例說明了搭配詞的統(tǒng)計算法。Sinclair et al.(1970/2004)嘗試了卡方檢驗、葉茨校正的卡方檢驗、費舍爾精確檢驗和泊松分布4 種搭配強度的算法。此后,語料庫研究對于搭配的統(tǒng)計計算不斷衍生,并發(fā)展成為獨具解釋力的短語學理論。
許老師把Firth、Halliday以及Sinclair對于collocation的研究都歸為了第三階段,其實我更傾向于把三者分開。至少把Firth的研究與Halliday和Sinclair分開。二者作為Firth的學生(而且均為在各領域頗有建樹的學生),尤其是Sinclair,其實在對collocation的研究方面,已經遠遠超出了Firth。他們的研究或許是受到了Firth的啟發(fā),但至少在研究的深入程度上,已經不能同日而語了。
大家如果細看近些年有關語料庫方面的著述,很多學者認為,F(xiàn)irth是研究collocation這一概念的第一人,這是錯誤的。Firth不是第一人,在他之前,已經有學者對其進行了較為深入的研究。到了Firth這里,按照目前的階段劃分,collocation研究已經到了第三個階段。
所以,研究中一手資料太重要了。這也是本期為何我極力推薦這篇文章的重要原因之一。許老師為了查找collocation研究的源頭,花了大量時間。
3. 美國結構主義學者中,哪些對語料庫研究產生了較為直接的影響?
正如文中所言,現(xiàn)代語料庫研究產生直接影響的是所謂后布龍菲爾德學者(post-Bloomfieldians),代表人物有Harris,Hockett,Pike,Twaddle。
美國布朗大學Francis 和Kucera(Twaddle 在上世紀五六十年代正是布朗大學語言學系負責人),以及密歇根大學Fries 等人是結構主義思想影響下從事語料庫研究的早期重要代表。
其實美國結構主義本身,不管是研究目的還是研究方法,都對語料庫語言學的發(fā)展起到了一定的推動作用。
眾所周知,上個世紀初至五六十年代,美國結構主義一統(tǒng)天下。但結構主義學者把“基于真實語料對語言進行描寫”作為語言研究的核心任務,這本身就與當代語料庫語言學研究核心任務相一致。
這也是Twaddle(美國結構主義的代表人物之一)在做布朗大學語言學系負責人時,F(xiàn)rancis 和Kucera能夠專注于布朗語料庫的創(chuàng)建的重要原因之一。試想,如果喬姆斯基在負責布朗大學語言學系,恐怕布朗大學不會建成世界上第一個電子化語料庫。
此外還有密歇根大學的Fries,也是在美國較早從事語料庫語言學研究的代表性人物。
值得一提的是,部分從事語料庫語言學研究的英國學者,也先后在美國從事教學或合作研究多年,他們的思想或多或少都會受到美國結構主義的影響。
所以,我個人認為,語料庫語言學研究秉承了美國結構主義語言描寫的傳統(tǒng),美國結構主義思想為語料庫語言學研究者在進行學科定位時提供了重要借鑒。但給現(xiàn)代語料庫語言學研究帶來最直接影響的,則是Harris,Hockett,Pike,Twaddle等人,也就是我們所說的后布龍菲爾德學派。
4. 有學者認為,韓禮德為代表的功能語言學與語料庫語言學之間有著密切的關系。這些關系主要體現(xiàn)在哪些方面?
首先我們說一下功能語言學這個術語,它具有廣義與狹義之分(Siewierska 2011)。
廣義的功能語言學包括倫敦學派的弗斯語言學及其衍生流派,如系統(tǒng)功能語言學、話語分析、社會語言學、語用學、認知語言學、類型學等。有些學者所說的功能語言學包括范圍更廣,可分為美國功能語言學與歐洲功能語言學兩個陣營。而歐洲功能語言學又包括很多學派,如布拉格學派、倫敦學派、哥本哈根學派、俄羅斯學派、法國學派等。而美國功能語言學則主要包括格語法、層次語法、認知語法、語言類型學等。
由此看出,實際上我們把其稱為不同的功能主義學派更為貼切。而狹義的功能語言學則主要是指布拉格學派語言學。
如果完全按照這篇論文的內容來回答,這個問題其實具有一定的迷惑性。從一些讀者給出的答案便可以看出,部分讀者把問題看作了是廣義的功能語言學與語料庫語言學之間的關系。
這里說的主要是以韓禮德為代表的功能語言學,也就是系統(tǒng)功能語言學,包括“系統(tǒng)語法”和“功能語法”兩個部分,這兩個部分不是相互獨立的,而是作為兩個不可分割的方面,共同構成了系統(tǒng)功能語言學這個完整的語言理論框架。
韓禮德為代表的功能語言學與語料庫語言學之間存在著千絲萬縷的聯(lián)系。例如,韓禮德注重概率語言觀,重視詞匯語法的語言學價值,提出“詞匯語法Halliday”(lexicogrammar)的概念。許老師這里加了一個下標的Halliday,主要是想說明此處韓禮德提出“詞匯語法”不同于語料庫語言學上的詞匯語法,這不是同一個概念。
論文在第一節(jié)也提到,有關搭配研究的一些核心概念,如節(jié)點詞、跨距及搭配的統(tǒng)計算法等都是由Halliday 首創(chuàng)。早在Sinclair(1991)提出“習語原則”(idiom principle)和“開放選擇原則”(open choice principle)之前,Halliday(1966:152-153)就指出詞語在橫組合關系上的制約構成搭配關系,在縱聚合層面構成開放式的集合關系(set)。兩者共同界定語言結構和系統(tǒng)。
Halliday 主張的全局制約條件(global constraints)和局部制約條件(local constraints)正是他提出的系統(tǒng)與實例的互補性。系統(tǒng)功能語法因注重自身理論體系建設,并未就語料庫相關理念作更多拓展。但是,系統(tǒng)功能語言學創(chuàng)立之初就與語料庫研究方法高度兼容,二者在學科理念的很多方面頗為一致。
除了本文提到的這些方面,如果我們細讀Halliday和Sinclair的著作,會發(fā)現(xiàn)很多相一致的地方。
5. 在作者看來,當今語料庫語言學研究領域出現(xiàn)的一些新趨勢有哪些?除此之外,您是否還有其他新的發(fā)現(xiàn)?
既然這個問題中有一句話,“在作者看來”,那么我們就緊扣這篇論文,看看許老師是怎么說的。
在論文的結語部分,作者提到:“在大數據背景下,語料庫研究3.0時代已現(xiàn)端倪,它將會全面升級過去一個世紀以來語言描寫和研究的范式”。我非常贊同許老師這一觀點。
在上個世紀特別是上個世紀初期,我們常說,思想引領技術,沒有思想,哪有技術的發(fā)展。也就是說,思想總是先于技術出現(xiàn)的。
但在當今時代,這樣的發(fā)展模式已成為歷史??梢愿爬檫@樣一句話,即“技術催生思想”(個人觀點)。因為技術發(fā)展太快了,互聯(lián)網發(fā)展如此之快,知識的傳播速度超乎我們的想象,所以很大程度上是技術領先一步,之后我們才能慢慢認識到。尤其是語料庫語言學,與計算機技術結合這么緊密,我相信它會將過去一個多世紀以來人們關于語言的認識與描寫進行全面升級。
我們已經進入了大數據時代,這對語料庫語言學這個學科來講,迎來了發(fā)展的春天。我們常說,“Size does matter”,而目前size已不是問題。
在超大規(guī)模電子語料這一基本前提下,充分記錄語言結構和功能特征,基于“關聯(lián)數據”(linked data)模型,整合結構、語義、語境變量、語言類型學屬性等信息,輔以智能查詢和分析模塊,從而完成語料庫研究“用”“量”“器”“聚”的強化和升級。相信不斷完善的關聯(lián)數據模型必將開啟語料庫研究和語言學的未來。
此外,作者還提到,“當前語料庫研究中還存在一些值得注意的現(xiàn)象”。之后列舉:1)語料庫研究實踐中存在重詞匯短語、輕句法語義的情況,這種局面隨著技術革新,應會得到改觀;2)相關研究論文的標題中出現(xiàn)“語料庫”字樣的情況有所減少,語料庫理念和方法由標題而轉入正文,不再作為一種時髦的學術標簽,這可以視作是學科成熟的標志;3)研究實踐已經指明,有關語料庫研究的本體和方法的爭議已漸有共識,語料庫研究者既要成為數據采集者,又要爭做理論建構者。語料庫研究很大程度上是“具有很強方法論導向的語言學分支”(Leech 2011:158)。
作者在談論現(xiàn)象,看似無足輕重,但實質上還是對該領域新的研究趨勢的探討。作為讀者,我們需要準確把握這些趨勢,進而用來指導自己的研究。
6. 讀這篇論文,您最大的收獲是什么?(以下為領讀老師劉國兵老師的感受)
其實我在撰寫導語的時候,已經把我的收獲寫進去了,基本上可以概括為八個字,“辨章學術,考鏡源流”。
這篇論文主要對語料庫語言學的發(fā)展歷史進行梳理,從而讓讀者知源明流。許家金教授經過數年查閱文獻,追蹤溯源,最終《語料庫研究學術源流考》于去年成文。
說是經過數年,一點都不夸張。我最早在2010年得知他在進行語料庫語言學核心術語的查證工作。期間他多次提到,有些學者對于部分術語進行了錯誤引用,就是因為沒有進行一手的考證。這樣一錯再錯,如果不糾正的話,恐怕不利于語料庫語言學這一學科的發(fā)展。所以,數年辛勤查閱,凝聚成這篇論文,值得讀者仔細閱讀。
自由問答
1. 能否請劉教授推薦一些可以處理中文語料的工具?
如果是語料加工,多數文本編輯器都可以,比如EditPadpro、PowerGrep等;如果是語料檢索的話,常用的英語語料檢索軟件比如WordSmith、AntConc,還有北外語料庫團隊開發(fā)的PowerConc等,只要設置一下,都可以實現(xiàn)對漢語語料的檢索。
2. 想請教一下關于處理漢語詞語語義的工具?
語義本身就是一個很復雜的問題,這也是自然語言處理領域近些年研究的一個棘手問題。特別是漢語的特殊性,其語義問題更難以讓計算機自動處理。
不過據我所知,有很多計算機領域的學者對此在不斷地嘗試,其中“NLPIR大數據語義智能教學科研平臺”就是挺有趣的一個處理平臺。提交語料以后,它可以幫你對語料進行分詞、詞性標注、詞頻統(tǒng)計、新詞提取、文本自動分類、關鍵詞提取、語義關聯(lián)分析、句法關系分析、敏感詞提取、摘要自動撰寫等。這其實已經從形式上實現(xiàn)了語義的自動分析,但部分處理結果還不是很理想,有待進一步提高。另外,它的demo版允許個人處理語料的上限是3000字。
此外還有東北大學自然語言處理實驗室開發(fā)的“中文句法語義分析系統(tǒng)NiuParser 1.3.0”,能夠支持中文句子級的自動分詞、詞性標注、命名實體識別、組塊識別、成分句法分析、依存句法分析和語義角色標注七大語言分析技術。NiuParser的特點是分析速度快并且擁有業(yè)內最好的分析性能,可以被廣泛應用于研制基于深度計算的文本分析和文本挖掘等商業(yè)應用系統(tǒng)。NiuParser系統(tǒng)可以免費用于研究目的,但商業(yè)用途需獲得商業(yè)授權許可。
還有哈工大社會計算與信息檢索研究中心的“語言云”和“語言技術平臺”等,都是不錯的。
除了以上兩款漢語處理工具以外,其他的多語言自動化處理工具或Python庫也可以試試。比如:NLTK、TextBlob、Gensim、aCy、Polyglot、MontyLingua等,稍加摸索,對我們的研究肯定會有所啟發(fā)的。
3. 想知道某些詞在自建立的英文語料庫中的使用頻率,需要對某些詞進行檢索,用風林編輯器進行簡單的文本處理后直接在AntConc軟件上直接檢索該詞的出現(xiàn)頻次,這樣檢索出來的數據是正確的嗎?
據我了解,風林文本整理器的功能與記事本差不多,可以輸出多種格式,也可以對文本進行加工和處理。比如你設置空行時,這款軟件通常的做法是每個段落后面留有一個空行。這個空行還保留嗎?這些問題我們都需要考慮。還有全角和半角問題。雖然在后期檢索詞頻時不受影響,但其他檢索項,我們不敢保證百分百正確。所以,在進行文本處理時,最好能夠參照常用檢索軟件對文本的處理方法,以方便后期檢索。
4. 參照語料庫一定要比研究的語料庫大嗎?
通常情況下,參照語料庫都比所研究的語料庫要大,否則就起不到參照的作用了。但也不是絕對的,如果你有足夠理由能夠說明研究設計的合理性,誰大誰小也沒有絕對的標準。現(xiàn)在的語料庫動輒就數億或數十億詞,那折合成字符不知要比這個大多少倍。所以說,語料庫庫容現(xiàn)在不是個問題。
聯(lián)系客服
微信登錄中...
請勿關閉此頁面