記得前一段時間,群里的小伙伴詢問我最好用的詞典APP。今天我們不說詞典,我們說一個比詞典還要牛逼的東西,那就是語料庫,英文是corpus。其實(shí)在大多數(shù)情況下,我們手中的詞典,無論是Oxford、Langman or Macmillan等等,已經(jīng)完全可以幫助我們解決日常英文閱讀中所遇到的問題了。但是如果我們手中再多一件利器,會給我們的英文學(xué)習(xí)帶來諸多方便。
那么什么是語料庫呢?我們強(qiáng)大的“度娘”給出答案。
語料庫是指經(jīng)科學(xué)取樣和加工的大規(guī)模電子文本庫。借助計算機(jī)分析工具,研究者可開展相關(guān)的語言理論及應(yīng)用研究。
再來看一下英文介紹。
corpus n. (pl. corpora) refers to a large collection of well-sampled and processed electronic texts, on which language studies, theoretical or applied, can be conducted with the aid of computer tools.
也許你會告訴我,這是什么鬼,看不懂呀。別急,通俗的講,語料庫就是一個海量的語言集。它包羅萬象,無所不有,涵蓋眾多表達(dá),無論書面語亦或是口頭語,可謂無比豐富,取材來自電視廣播、報紙雜志、學(xué)術(shù)期刊、小說電影等等,全部是真實(shí)語料。
也許你正在為你的中式英語而著急:我說的英語只有中國人可以聽懂呀,老外聽了都是懵逼狀態(tài)......
所以學(xué)習(xí)英語時,真實(shí)的場景就顯得尤為重要。我們就來看看這個強(qiáng)大的語料庫,如果好好利用,分分鐘鐘帶你裝逼帶你飛。
今天我們只看第一種在線語料庫,那就是美國當(dāng)代英語語料庫(全稱 Corpus of Contemporary American English),簡稱COCA。以下是來自Wikipedia的介紹。
The freely searchable 450-million-wordCorpus of Contemporary American English(COCA) is the largest corpus of American English currently available, and the only publicly available corpus of American English to contain a wide array of texts from a number of genres. It was created by Mark Davies, Professor of Corpus Linguistics at Brigham Young University.
好了,我們先看一下COCA的整體頁面布局,最上面是語料庫名稱,然后下面有4個分欄,分別是SEARCH 檢索、FREQUENCY 頻次、CONTEXT 文本、 ACCOUNT 賬戶。
我們最常用的功能就是第一個: SEARCH,也就是語料庫檢索主界面。請看下圖。
List 檢索結(jié)果列表顯示
Chart 檢索結(jié)果柱形圖顯示
Collocates 搭配,找出頻繁搭配使用的詞匯
Compare 比較,辨析同義詞
KWIC(keyword in context) 文中關(guān)鍵詞顯示
Find matching strings查找
Reset 重置
[POS] 詞性標(biāo)注,點(diǎn)開之后就會出現(xiàn)如下頁面。
其實(shí)一開始在看到[POS]時,我也不知道什么意思,我就點(diǎn)開,然后出現(xiàn)詞性選擇諸多項(xiàng),才知道POS = Part of Speech(詞性),不禁覺得自己文化低,想要回農(nóng)村的趕腳~
下面我們就看看如何使用COCA吧~
1. 頻次
比如我們搜索“reading”這個單詞,檢索結(jié)果列表list顯示,我們可以看到在語料庫中這個單詞出現(xiàn)的頻次FREQUENCY是86070次。
點(diǎn)擊顯示的”reading“,我們進(jìn)入文本CONTEXT頁面,從左到右依次是序號、年份、文本類型(下面我會說到5大文本類型,這里是ACAD,是指academy學(xué)術(shù)期刊)、文本來源(來自某某學(xué)術(shù)機(jī)構(gòu)、媒體廣播等等)。后面是具體的文本,如果想查看完整文本,點(diǎn)擊文本來源,就自動跳轉(zhuǎn)到CONTEXT+頁面。
同時,我們檢索結(jié)果用柱狀圖chart顯示
注意左邊一欄的內(nèi)容,也就是section文本分類,從上至下依次為spoken媒體對話、fiction小說、magazine雜志、newspaper報紙、academic學(xué)術(shù)期刊,然后下面就是時間年限分類。
我先點(diǎn)開“spoken',大家看一下頁面,來源有 ABC、NBC、CBS、CNN等多家媒體電視廣播等。
然后我再點(diǎn)開'1990-1994'時間段
如果我們要比較兩組近義詞或近義詞組的使用頻次,除了可以分別檢索之外,還可以直接輸入”think/figure“,這樣更一目了然。
2. 搭配
也就是Collocates選項(xiàng),如下圖所示。
上面一行是需要檢索的單詞或短語,下面一行是搭配。
(1)譬如我需要檢索的單詞是”gain“,需要搭配的單詞是”success“,一切默認(rèn),結(jié)果如下圖所示。
對了,你們注意到上面的綠色數(shù)字了嗎?43210 01234,這具體是什么含義呢?其實(shí)通過剛才檢索的結(jié)果你也能猜上一二,那就是搭配詞'success'出現(xiàn)在檢索詞”gain“左邊或右邊4個字節(jié)內(nèi)。如果我們只想讓搭配詞“success”出現(xiàn)在檢索詞右邊,并且限制在2個字節(jié)內(nèi),那么我們可以設(shè)置為:左0,右2,結(jié)果如下圖所示。
如果我們要在gain 與success 之間加一個成分呢,這時檢索詞后面的[POS]派上用場,如果我們想要在兩者之中添加一個形容詞,我們選擇adj.,看下圖所示。
注意:這里的gain與[adj.] 之間一定要有空格,否則會有錯誤顯示。其實(shí)你這樣檢索的就是gain+adj.+success的結(jié)果,同時我限制字節(jié)是左0右2。
(2)如果你不知道gain這個單詞和什么詞搭配比較好,譬如gain和哪個名詞n.搭配比較常見,那么可以這樣檢索。
結(jié)果顯示如下
我們會看到可以和gain 搭配的名詞頻次從高到低有access, control,weight,support等等,如果想查看某一搭配,直接點(diǎn)擊想要查看的搭配即可。
當(dāng)然你也可以直接在list頁面這樣檢索:gain 空格 選擇[POS]中的名詞格式,如下圖,這樣檢索出來的結(jié)果和(2)是一樣的。
(3)如果我們要檢索某一詞不與某一詞搭配的情況,這時要用到減號“-”,也就是在搭配詞前加上“-”, 意思是檢索詞不與該搭配詞搭配的情況。譬如我們在list頁面輸入“gain-success”,所要檢索的結(jié)果便是檢索詞gain不與success搭配而與任何一個其他的詞搭配。
突然發(fā)現(xiàn)這個功能好強(qiáng)大,寫作文時可以派上用場了。如果你不清楚這樣的表達(dá)是否合適亦或是這樣搭配的使用情況如何以及如何搭配才更恰當(dāng),不妨試試這個功能。注意:如果像(1)這樣的已知搭配出現(xiàn)的頻次是0或者很少,我們就知道這樣的搭配也許native speaker 并不這樣說,也就是說是不地道的表達(dá)。
3. 近義詞及近義詞搭配
了解了以上功能之后,我們下面的介紹就相當(dāng)簡單了,我就不一一截圖了。
如果我們想知道brilliant的近義詞,在search頁面,默認(rèn)list顯示,輸入“[=brilliant]', 檢索即可。同樣如果我們想知道“brilliant idea'的近義搭配,除了brilliant之外,還有哪個brilliant的近義詞可以和idea搭配,這時我們可以到search頁面,選擇collocates選項(xiàng),第一行輸入idea,第二行輸入[=brilliant], 左1,右0.
4. [POS] 限定詞性
前面我們說到,檢索一個單詞gain搭配的兩種方法,其中一種就是在list頁面,輸入 gain 然后空格 選擇[POS]中詞性,譬如名詞的話,即“gain [nn*]”,那就是檢索:gain和任意名詞的搭配情況 。
如果我們想知道gain作為名詞本身的使用情況呢?這時就可以在list頁面,在gain和名詞詞性之間加一個英文狀態(tài)的句號“.” 即“gain.[nn*]”,注意引號內(nèi)沒有空格,這就是檢索gain作為名詞本身在語料庫中的情況。
5. Lemma檢索
Lemma檢索指的是查找檢索詞的所有變化形式,檢索方式是在檢索詞外加“[]”。這種方式適合查找名詞單復(fù)數(shù)變化,動詞時態(tài)變化。比如be動詞檢索,我們可以這樣輸入“[be]”, 我們得到的結(jié)果就是“am,is,are,was,were,being,been”的情況。
6. 模糊檢索
這里要提到通配符“*” 和“?”?!?” 代表的是任意數(shù)量的字符,包括數(shù)量為0,也包括空格和標(biāo)點(diǎn)?!??”代表的是任意一個字符。注意兩者的作用是一樣的,只是“?”檢索的更精確一些。
比如我們要檢索任意以“ed”結(jié)尾的詞,只需要輸入“*ed”就行,如果要查找任意以ed結(jié)尾的形容詞,我們可以這樣檢索:“*ed[j*]”, 注意后面的詞性一定要點(diǎn)擊[POS]來選擇。
好了,介紹完了,以上就是我所知道的COCA語料庫的功能,如果你覺得有用,趕緊收藏。
聯(lián)系客服