受訪人:劉知遠(yuǎn),清華大學(xué)助理教授,博導(dǎo)
采訪人:白雪,龍星鏢局
1.請(qǐng)簡單介紹下自己唄。
直接貼一下我的個(gè)人簡介好了:清華大學(xué)計(jì)算機(jī)系助理教授、博士生導(dǎo)師。主要研究方向?yàn)楸硎緦W(xué)習(xí)、知識(shí)圖譜和社會(huì)計(jì)算。2011年獲得清華大學(xué)博士學(xué)位,已在AAAI、IJCAI、ACL等人工智能領(lǐng)域的著名國際期刊和會(huì)議發(fā)表相關(guān)論文30余篇,Google Scholar統(tǒng)計(jì)引用超過1200次。承擔(dān)多項(xiàng)國家自然科學(xué)基金。曾獲清華大學(xué)優(yōu)秀博士學(xué)位論文、中國人工智能學(xué)會(huì)優(yōu)秀博士學(xué)位論文、清華大學(xué)優(yōu)秀博士后、中文信息學(xué)會(huì)青年創(chuàng)新獎(jiǎng),入選CCF-Intel青年學(xué)者提升計(jì)劃、中國科學(xué)青年人才托舉工程。擔(dān)任中文信息學(xué)會(huì)青年工作委員會(huì)執(zhí)委、副主任,中文信息學(xué)會(huì)社會(huì)媒體處理專委會(huì)委員、秘書,SCI期刊Frontiers of Computer Science青年編委。其他信息可以訪問我的主頁:http://nlp.csai.tsinghua.edu.cn/~lzy/。
2.知識(shí)圖譜適合什么樣的應(yīng)用前景,這塊前景怎么樣。
知識(shí)圖譜(knowledge graph)實(shí)際上是Google推出世界知識(shí)庫的名稱,因?yàn)樘钊肴诵牧怂院髞矸褐父鞣N大規(guī)模世界知識(shí)庫或領(lǐng)域知識(shí)庫。知識(shí)圖譜提供了實(shí)體間的結(jié)構(gòu)化關(guān)聯(lián)關(guān)系,已經(jīng)被用于以下場(chǎng)景:(1)查詢理解,現(xiàn)在主流商業(yè)搜索引擎都會(huì)對(duì)查詢?cè)~進(jìn)行實(shí)體鏈接,返回與實(shí)體相關(guān)的結(jié)構(gòu)化信息。(2)知識(shí)問答,事實(shí)問答是問答系統(tǒng)的關(guān)鍵組成部分,很多搜索引擎和商業(yè)對(duì)話系統(tǒng)都提供了基于知識(shí)圖譜的事實(shí)問答功能。我非??春弥R(shí)圖譜的應(yīng)用前景,就像人類智能離不開知識(shí)一樣,人工智能同樣需要知識(shí)的支持。例如,現(xiàn)在NLP中炙手可熱的“閱讀理解”任務(wù),只能根據(jù)指定文檔內(nèi)容進(jìn)行推理預(yù)測(cè),而真正的人類“閱讀理解”則需要文檔之外海量知識(shí)的支持。隨著知識(shí)圖譜的不斷擴(kuò)充,知識(shí)圖譜將成為人工智能的推理能力重要基礎(chǔ),在自然語言理解和生成等關(guān)鍵任務(wù)中發(fā)揮重要作用。
3.深度學(xué)習(xí)對(duì)于知識(shí)圖譜和自然語言處理的發(fā)展的利弊是什么?
深度學(xué)習(xí)對(duì)自然語言處理的偉大意義可能在于,真正讓研究者擺脫了復(fù)雜的特征工程,從而可以專注于解決相關(guān)任務(wù)更加宏觀的關(guān)鍵問題。而深度學(xué)習(xí)的弊端可能在于,讓一切處于神經(jīng)網(wǎng)絡(luò)的黑盒之中,缺少了必要的直觀性和魯棒性。我認(rèn)為,如何將人類先驗(yàn)知識(shí)融入深度學(xué)習(xí),提高深度學(xué)習(xí)框架的可解釋性和魯棒性,將是深度學(xué)習(xí)未來發(fā)展的重要方向。
4.自然語言處理研究應(yīng)該如何入手?對(duì)于剛進(jìn)入這個(gè)領(lǐng)域的新手有什么建議。
我之前準(zhǔn)備過一份入門推薦書目。對(duì)于剛進(jìn)入這個(gè)領(lǐng)域的新手,當(dāng)務(wù)之急是掌握相關(guān)基礎(chǔ)術(shù)語和思想,建議可以通過吳軍老師的《數(shù)學(xué)之美》和斯坦福大學(xué)的《信息檢索導(dǎo)論》入手。
5.表示學(xué)習(xí)在深度學(xué)習(xí)領(lǐng)域有著重要地位,能否認(rèn)為表示學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的一大突破?
深度學(xué)習(xí)是表示學(xué)習(xí)的方法之一,而在深度學(xué)習(xí)興起之前,就有很多關(guān)于表示學(xué)習(xí)的研究?,F(xiàn)在常說的表示學(xué)習(xí),更多是指分布式表示(Distributed Representation),其優(yōu)勢(shì)在于能夠?qū)⒉煌瑢?duì)象映射到相同語義空間中,從而可以高效地進(jìn)行語義計(jì)算,而其缺點(diǎn)在于,如前所述,表示向量中的每一維沒有語義含義,缺少可解釋性。而NLP還有一種重要的表示方案,叫做離散式表示(Distributional Representation),以詞語為例,每個(gè)詞可以用它在大規(guī)模文本中的上下文詞語的頻度表示,在這里,每一維對(duì)應(yīng)一個(gè)確定的詞,因此具有較好的可解釋性。離散式表示仍然是NLP中的重要表示方式,大家可以參考這篇經(jīng)典綜述了解相關(guān)知識(shí):From frequency to meaning: Vector space models of semantics, JAIR, 2010。
6.自然語言處理有哪些研究方向很重要,但還未引起重視?
自然語言處理離不開基礎(chǔ)語料庫和知識(shí)庫的建設(shè),我認(rèn)為在這方面中文世界的重視還不夠。在中文世界有影響的知識(shí)庫屈指可數(shù),相關(guān)應(yīng)用和影響力也非常有限。例如HowNet、同義詞詞林是這方面的杰出代表,都是相關(guān)學(xué)者花費(fèi)數(shù)年精力建立的寶藏,值得深入挖掘與探索:例如哈爾濱工業(yè)大學(xué)劉挺老師團(tuán)隊(duì)發(fā)表在ACL 2014年的Learning Semantic Hierarchies via Word Embeddings,就是利用word2vec詞表示技術(shù)結(jié)合同義詞詞林學(xué)習(xí)上下位關(guān)系的優(yōu)秀成果;我們團(tuán)隊(duì)在ACL 2017上也發(fā)表了一篇Improved Word Representation Learning with Sememes,利用HowNet的義元標(biāo)注信息,有效提升了詞表示學(xué)習(xí)的效果。
7.您自己對(duì)于計(jì)算機(jī)博士的定位和預(yù)期如何?
我認(rèn)為讀博士主要是經(jīng)過幾個(gè)不同層次的歷練。首先是鍛煉解決開放問題的能力,計(jì)算機(jī)是個(gè)年輕的學(xué)科,很多方向尚未形成完善的技術(shù)框架,因此在IT科技公司的很多崗位上每天面對(duì)的都是開放問題。這也是為什么Google、Facebook等很多高科技公司喜歡招收博士的原因。其次是通過幾年的專注鉆研,成為某個(gè)領(lǐng)域的知名專家,在國內(nèi)甚至國際上,只要一提到這個(gè)方向就能想到你。最后是經(jīng)過多年的努力,能夠推動(dòng)甚至引領(lǐng)某個(gè)方向的發(fā)展。也并不是說不讀博士就做不到以上幾點(diǎn),只是博士生的培養(yǎng)目標(biāo)更貼近這三點(diǎn)。
8.看到老師一直在招博士或訪問學(xué)者等,可以跟大家說下這方面的情況嗎?方便對(duì)您研究領(lǐng)域感興趣的同學(xué)跟您一起學(xué)習(xí)。
我的研究興趣比較廣泛,包括文本表示學(xué)習(xí)、知識(shí)圖譜和社會(huì)計(jì)算,更詳細(xì)的情況可以看我的主頁。這里我更想說的是,我認(rèn)為高校老師更重要的職責(zé)是培養(yǎng)人。小時(shí)候我就喜歡玩給弟弟妹妹們上課的游戲,可以說做老師是我從小以來的夢(mèng)想。我最大的快樂就是能夠幫助那些有潛力的年輕同學(xué)建立學(xué)術(shù)和職業(yè)志趣。自然語言處理是人工智能得以實(shí)現(xiàn)的關(guān)鍵,人類語言也是充滿未知的領(lǐng)域,希望更多年輕同學(xué)加入進(jìn)來,一起探索前行。
9.您現(xiàn)在已經(jīng)做了很多研究成果,自己最滿意的一項(xiàng)工作是哪個(gè),為什么?
很難評(píng)價(jià),其實(shí)最近開展的知識(shí)表示學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)關(guān)系抽取以及網(wǎng)絡(luò)表示學(xué)習(xí)等工作都一定程度上具有比較好的原創(chuàng)性,推動(dòng)了相關(guān)方向的發(fā)展。不過與NLP領(lǐng)域最好的研究成果相比,我們做的大部分工作仍然是增量式的。希望自己和團(tuán)隊(duì)能夠繼續(xù)努力和積累,做出更讓人自豪的成果。
10.現(xiàn)在很多科研大V也在做科普,在網(wǎng)上普及知識(shí)或辟謠,對(duì)于結(jié)合科研做科普,有什么看法?
參加過國際會(huì)議的人都有感覺,那些頂級(jí)研究組的學(xué)者都非常重視研究成果的介紹與宣傳,他們?cè)跁?huì)議上的報(bào)告展示都經(jīng)過認(rèn)真的準(zhǔn)備與演練。國外也有很多專業(yè)媒體如MIT Technology Review等專注最新研究動(dòng)態(tài)與成果的引介與深入報(bào)道。隨著社會(huì)媒體的發(fā)展,利用微博、知乎、微信公眾號(hào)宣傳研究成果,毫無疑問對(duì)于增進(jìn)學(xué)術(shù)交流,促進(jìn)研究發(fā)展具有重要意義。我認(rèn)為國內(nèi)已經(jīng)取得很多優(yōu)秀研究成果,而在宣傳意識(shí)和技巧方面還有很大差距,不僅體現(xiàn)在學(xué)術(shù)會(huì)議的報(bào)告展示,也體現(xiàn)在媒體報(bào)道方面?!把灾疅o文,行而不遠(yuǎn)”,除了繼續(xù)提升研究水準(zhǔn)外,成果科普方面我們也需要努力。
END.
來源:《技術(shù)達(dá)人 劉知遠(yuǎn) 專訪 | 我愛計(jì)算機(jī)》
聯(lián)系客服