英語篇
這一次我想將借助 Wolfram 語言對學(xué)習(xí)英文過程產(chǎn)生的一點問題進(jìn)行探索, 比如像統(tǒng)計【新概念英語】第二冊這本書中單詞的頻率, 查詢發(fā)音相近, 哪些單詞容易拼寫混淆, 整本書哪種句型出現(xiàn)的次數(shù)最多等等.
文本課文的導(dǎo)入
網(wǎng)站有各種新概念的文本格式文件, 這里找到了一個 LRC 格式文件, 整理起來相對較為簡單, 每個文件只需要取出第六行之后內(nèi)容就可以了.
高頻英文詞的統(tǒng)計
統(tǒng)計單詞的詞頻并進(jìn)行排序, 不過排名最高的這部分英文單詞一般沒有什么實際含義,比如下面的 'the'、'is'、'a'、'to'、'of'等, 這類詞稱之為停用詞(Stop Words). 在日常的文本處理中通常第一步都會將這些詞從數(shù)據(jù)中移去, 一方面提高搜索分析的性能, 再來能得到有真正意義的結(jié)果.
查看排名較后的單詞是實際應(yīng)用中更應(yīng)該重視和牢記的:
這里也提一下, 如果用 WolframAlpha 進(jìn)行查詢, 是可以得到確切某個單詞在實際的讀和寫的使用頻率的, 下面是 picture 單詞在口語中使用頻率為 763 , 而在書寫則為 924:
找出拼寫相近和讀音相似的單詞
下一步來看拼寫容易混淆的單詞, 譬如找出跟 aboard 拼寫最為相似的 5 個單詞(包括它本身), 就可以用下面的方法:
再看看如何查詢單詞發(fā)音相近的方法, Wolfram 語言中可以查詢單詞的國際音標(biāo):
不過坦白講, 做的不足夠好, 還可以進(jìn)一步改進(jìn). 因為我更希望按照美式(或英式)音標(biāo)去進(jìn)行檢索, 于是查了下有道翻譯API就提供了這項功能, 那么自己寫一個函數(shù)就可以調(diào)用查詢了:
探索句子結(jié)構(gòu)
Wolfram 語言有一個命令 TextStructure, 可用來分析和可視化英文文本, 比如下面三句話就是英語語法三大基本句型, 但從可視化的圖形中來看, 馬上就可以看到其他都屬于名詞短語(Noun Phrase) + 動詞短語(Verb Phrase)的結(jié)構(gòu).
并且還可以用圖形示意語法依賴關(guān)系:
我也動手分析了下【新概念英語】第二冊中句型的排名, 如下:
相信在分析后, 對英語語法中句型會有更加清晰的認(rèn)識了.
比較兩個句子的結(jié)構(gòu)
再來從上面的例子其實可以想到, 一旦我們將英文句子轉(zhuǎn)成圖的問題, 那么數(shù)學(xué)中圖論的知識就可以應(yīng)用其中了. 比如兩個句子的結(jié)構(gòu)可以通過計算并處理其各自的成分圖進(jìn)行比較. 可以顯示句子的樹狀成分圖.
注: 該例選自Wolfram官方示例
計算該圖所有節(jié)點間的距離矩陣:
對另一個句子進(jìn)行同樣處理, 通過兩個句子的距離矩陣比較其結(jié)構(gòu). 得到兩個句子擁有相同結(jié)構(gòu)的結(jié)論:
可以從兩個不同維基百科文章中找出相同結(jié)構(gòu)的句子. 首先,提取單詞數(shù)相符的句子并生成每個句子的成分圖:
顯示結(jié)構(gòu)相同的兩個句子結(jié)構(gòu):
上面就是利用 Mathematica (Wolfram語言) 英語課堂的例子. 因為本人水平有限, 疏忽錯誤在所難免, 所以還請各位老師和朋友不吝賜教, 多提寶貴意見! 現(xiàn)在讓我們在下一篇的計算思維課堂再見.
Thanks! Happy Weekend!
聯(lián)系客服