詞典雖然權(quán)威,但更新緩慢,查找不便,費(fèi)用高昂(全套詞典定價(jià)759.00英鎊),受制于存儲(chǔ)材料和技術(shù)的限制,其卷帙縱使再浩繁十倍,收錄的語料也非常有限。
在當(dāng)今時(shí)代,得益于技術(shù)的發(fā)展,全面突破這些限制的新型資源早已出現(xiàn),這就是語料庫(corpus)。語料庫是經(jīng)科學(xué)取樣和加工的大規(guī)模電子數(shù)據(jù)庫,儲(chǔ)存的是母語人士實(shí)際用過的真實(shí)語言。與詞典等搜索工具相比,語料庫由于不受存儲(chǔ)規(guī)模限制,可以提供完整的語篇,而不是孤立的一詞一句,顯示詞的使用頻率、搭配以及相關(guān)句式,幫助使用者確定每一個(gè)詞的使用場(chǎng)景,并可按句法、語義或詞性等條件檢索,提供個(gè)性化的查詢結(jié)果。在眾多語料庫中,美國(guó)當(dāng)代英語語料庫(COCA,www.english-corpora.org)是個(gè)中翹楚。COCA是目前使用最廣泛的免費(fèi)英語語料庫,也是唯一均衡覆蓋各類文體的美式英語語料庫。COCA從1990年開始收錄詞條,每年更新。新版COCA(2020年3月版)的詞條超過10億條,涵蓋口語、小說、流行雜志、報(bào)紙、學(xué)術(shù)文章、影視字幕、博客、網(wǎng)頁八種文體。與其他語料庫相比,COCA有五大優(yōu)勢(shì):(1)詞條規(guī)模大,超過10億條;(2)每年更新,實(shí)時(shí)性強(qiáng);(3)均衡覆蓋各類文體;(4)每年更新各類文體;以及(5)可顯示、對(duì)比單詞在不同時(shí)期、不同文體的使用頻率。三、COCA的主要功能
(1)了解詞頻
COCA詞頻表收錄了60,000個(gè)高頻詞,前17,634個(gè)單詞就涵蓋了99% 的常用詞匯。詞頻表可以下載,可按個(gè)人需求編輯。通過Chart,可以了解單詞/詞組在不同文體和年代的使用頻率,確定慣用搭配。
通過Frequency,可以了解單詞/詞組在COCA語料中出現(xiàn)的次數(shù),確定慣用搭配。通過Word,可以了解詞的全貌——詞頻、含義、適用文體、近義詞、發(fā)音,以及相關(guān)搭配、主題、網(wǎng)站、詞組、語境共現(xiàn)*等。通過Browse,可以查詢單詞的定義、上義詞、下義詞、近義詞,形成詞匯網(wǎng)絡(luò)。通過Compare,可以對(duì)比兩個(gè)詞在含義和用法上的差別。
通過Sections,可查詢單詞、詞組、句式在不同時(shí)期、不同文體的用詞(搭配)變化、構(gòu)詞變化、句法變化、語義變化。COCA雖然體量龐大,但檢索速度還是很快。只要掌握了COCA的搜索指令,就可以查到對(duì)應(yīng)的搭配。通過KWIC/Collocates/Context功能,可以查詢語料庫中與檢索詞相鄰的左邊和/或右邊若干個(gè)單詞,確定搭配。
通過Browse,可以快速滿足個(gè)性化查詢需求,例如,按詞的形式(完整的詞或通配符)、詞性、變化形態(tài)、音節(jié)個(gè)數(shù)、重音位置、韻腳等條件查詢。通過List, 可以建立個(gè)性化單詞表,例如,輸入@foods,會(huì)顯示與食物相關(guān)的單詞列表。通過Texts/Virtual,可以選擇特定主題,建立子語料庫,提高檢索效率和精準(zhǔn)度。子語料庫也可按文體、年代等條件檢索。點(diǎn)此直達(dá)通過Analyze Text,可以了解:(1)目標(biāo)文本的主題詞;(2)其中單詞的詞頻、定義、各種語言的翻譯、發(fā)音、圖片、視頻鏈接,以及相關(guān)主題、搭配、詞語索引列。2. 注冊(cè)非付費(fèi)用戶24小時(shí)內(nèi)查詢的詞條不超過250個(gè)。
3. COCA的每種使用方式和搜索指令,均在操作頁面有說明和示例。
(1)英國(guó)國(guó)家語料庫(BNC)
英式英語語料;1980年~1990年初形成,由牛津大學(xué)出版社創(chuàng)建,詞條規(guī)模達(dá)1億條,覆蓋口語、小說、雜志、新聞和學(xué)術(shù)五類文體
(2)牛津英語語料庫(The Oxford English Corpus)