?圖片來源:www.pexels.com
撰文 | 邸利會(《知識分子》主筆)
責編 | 陳曉雪
● ● ●
計算機視覺,聽起來似乎很遙遠的一個名詞。但它的應用,你一定不會陌生。比如,今天在某些城市,如果亂闖紅燈,就可能被路口的攝像頭捕捉到。從美顏自拍,到增強現(xiàn)實(AR)、虛擬現(xiàn)實(VR)游戲,還有用無人機在人跡罕至的地區(qū)檢測高壓線路,背后都有計算機視覺的參與。
在這一領域,孫劍博士是其中的佼佼者。
2009年和2016年,孫劍兩獲計算機視覺領域的頂級會議CVPR(IEEE Conference on Computer Vision andPattern Recognition)最佳論文。2010年,他還入選《MIT技術評論》35歲以下年輕創(chuàng)新者。通過設計152層的神經網絡ResNets,孫劍所帶領的微軟亞洲研究院團隊在2015年獲得ImageNet和MS COCO比賽的五項第一。
在微軟研究院從事研究13年之后,他在2016年7月加入曠視科技,任首席科學家、研究院院長。曠視研究院從事基礎以及應用研究,聚焦于深度學習算法、架構和數(shù)據(jù)科學。最近,孫劍帶領的曠視研究院團隊獲得了COCO和Places挑戰(zhàn)賽2017的三項冠軍。
在前不久舉行的CCF-GAIR全球人工智能與機器人峰會發(fā)表演講后,孫劍博士接受了《知識分子》的獨家專訪。他用自己的研究經歷說明,計算機視覺研究是如何改變我們的生活的。
計算機視覺的核心問題一直沒變
《知識分子》:1993年到2003年,你一直在西安交通大學讀書、做研究,那個時候的計算機視覺的研究面貌跟現(xiàn)在很不一樣吧?
孫劍:其實研究的問題是一樣的。計算機視覺研究的問題幾乎沒怎么變,因為核心問題就是研究怎么樣去做分類檢測、識別跟蹤,大致就是這些問題。
西安交大的“人機所”成立已經30多年了,成立之初就叫人工智能與機器人研究所,那時有做圖像的,比如有國防項目就是用攝像頭看一個車,去跟蹤,這樣就需要做車的檢測、跟蹤,跟今天做的是一樣的。
也有機器人項目。那個時候國有機器人還很少,我的導師鄭南寧老師從日本引進了一臺機器臂的設備,我們專門有一個機器人的組來研究怎么去控制這個機器人,學習里面的基本知識,操作機器人抓東西,跟今天的研究也是一樣的。目前這個方向已經有很大進展,但是還不夠,還需要更大的進展,因為這是更難的問題——感知問題,只是被動的看,怎么能夠主動地去和世界交互,這個是更難的??吹脑?,很容易教計算機,給它一張照片,然后就可以學;但是交互的過程,很難有大規(guī)模的交互的例子能提供給計算機,讓它理解,所以這個是最難的。
《知識分子》:那個時候,你做什么樣的研究?
孫劍:人機所其實早期有很多學數(shù)學的老師和博士,最早我們做了很多機器學習的事情。機器學習基本的知識、概念,如何做機器學習,我都是在人機所學習得到的,然后把它運用在計算機視覺上。
舉個例子,我自己本科畢業(yè)設計時,做了一個硬件設備——硬件電路板,來實現(xiàn)混沌神經網絡,當然現(xiàn)在它不是主流?;煦缟窠浘W絡能夠記憶一些模式,是用硬件來實現(xiàn)的,因為當時的算力在CPU上是做不好的,一定要在硬件上來做這件事情。
我讀碩士的時候,就是用神經網絡來做人臉檢測和簡單的人臉識別工作。但是,其實當時的人臉識別就僅限于人臉或者是一些車牌這樣的識別,能夠做到一定地步。我博士做的方向是3D感知,也就是立體匹配。計算機視覺有兩大核心問題:一個問題是3D重建;一個問題是識別。這樣就把計算機視覺的一些基本問題學習了一下。
《知識分子》:LeCun教授1998年提出LeNet-5,用卷積神經網絡,你碩士的時候的神經網絡是怎樣的?
孫劍:我那時候用的那些神經網絡不是卷積神經網絡,它可以認為是全連接網絡的一些改進,做了一些分組,跟卷積有點像。卷積神經網絡是我(本科)畢業(yè)以后才出現(xiàn)的,最早做手勢識別、光學字符識別(Optical Character Recognition, OCR),大家也沒覺得那個能怎么樣,真的就是這樣。后來,在2000年的時候出現(xiàn)了支持向量機(Support Vector Machine, SVM),一統(tǒng)江湖,所有人都在研究這個,所以關注神經網絡的人就更少了。
《知識分子》:你在2009年就得過CVPR的最佳論文獎?
孫劍:對。那篇論文不是關于深度學習的,做的是計算攝影學。計算攝影學是做什么呢?比如,我們公司有一個業(yè)務叫手機智能,不是造手機,而是給手機提供核心的算法,人臉解鎖是很大的一個應用,另外一個是如何讓照片拍得更好看。
計算攝影學是我博士畢業(yè)后的一個研究方向,研究如何通過軟件和硬件的修改,拍出更好的或者通過一般的技巧拍不到的照片。比如,今天用手機虛化背景,模擬單反照片的效果,這個就是計算攝影學——修改相機硬件,就能實現(xiàn)這樣的新的效果,以及加了人工智能算法,使畫質得到提升。
計算攝影學是計算機視覺和圖形學的交叉,我做了很長時間這個工作。那個時候手機還沒有這么強大,做完了以后,目的是應該放到單反相機、卡片機里面去,但是這些廠商(其實也是對的)需要做快速改動的能力和意愿不是那么強,所以并沒有在相機或者單反上廣泛使用,這大概是在十幾年前的事情。今天,時代不一樣了,相機計算力非常強,里面有很好的圖像傳感器,甚至在晴天下拍的照片和單反看不出區(qū)別。另外,現(xiàn)在的手機廠商也非常重視這個方向,如果看手機發(fā)布會的話,基本上照片拍的效果是競爭的一個亮點,所以這也是我們目前投入很大的一個方向。我們去年成立了曠視研究院的西雅圖分院,專門研究計算攝影學在手機上的創(chuàng)新和應用。
我自己也挺感慨的,以前做研究,做完以后發(fā)一些文章,頂多Photoshop里面可能用一些這樣的算法,離實際生活還是蠻遠的,今天真的能夠用深度學習的方法重新做一輪這樣的問題,能夠很快用在手機上,這個感覺,非常高興。
卷積神經網絡襲來
《知識分子》:你開始研究和使用卷積神經網絡是什么時候?
孫劍:2013年,我在微軟帶領團隊開始做卷積神經網絡。2012年AlexNet出來,但剛出來的時候也沒有人那么相信(它多么好),尤其是在計算機視覺領域。因為AlexNet只是針對ImageNet,大家不知道它是過擬合了ImageNet,還是在別的任務也管用。2013年的時候,特別是伯克利的RCNN(Regions with CNN features)出現(xiàn),對于別的數(shù)據(jù)集的檢測提高也非常大,真的具有很強的通用性,所以大家才會非常重視。
我們是在2013年開始研究,2014年第一次參加了ImageNet,物體檢測拿了第二。2015年參加比賽的時候,內部就已經開發(fā)出了ResNet,ImageNet拿了三個第一名,COCO拿了兩個第一名。而且COCO,只是把ResNet用上去,提升的就非常多,這是我在微軟的工作。其實與此同時,曠視也是非常早,用深度學習來做人臉識別,大概也是在2013年開始的,我還沒到曠視。他們當時在人臉檢測、識別、關鍵點定位上拿了三個世界冠軍,這也是他們做的非常早的一個工作。曠視是最早的用深度學習來做計算機視覺的創(chuàng)業(yè)公司之一。
《知識分子》:大眾對人工智能、深度學習的興趣很多是通過AlphaGo這樣的事情,研究者好像一下子都涌到卷積神經網絡的原因是什么?
孫劍:我覺得擁抱卷積神經網絡也是花了好幾年。2012年AlexNet出來時還有人懷疑,不相信,從2013年到現(xiàn)在也5年了,大家慢慢接受了。深度學習核心思想是,它有端到端學習的思想,盡可能不要人來設計復雜系統(tǒng),因為人的設計能力是有限的。所以更多人去用這個思想來做事情。不是說這個思想是新的,而是如果這個思想有效,就會有更多的人愿意主動去用。
從圖像識別來說,從ImageNet或者大規(guī)模數(shù)據(jù)學出來的特征,確實很有通用性。這個特征并不是說抽取語義特性,而是說它能夠把很多東西分得開,比如說ImageNet出來的模型在醫(yī)療圖像上非常好用。醫(yī)療圖像數(shù)據(jù)比較少,先用ImageNet訓練,以后再用少量的數(shù)據(jù)根據(jù)抽出來的特征再次做學習,可以提供很大的幫助,不然醫(yī)療圖像這么少的數(shù)據(jù),又沒有好的特征,確實很難做什么事。
《知識分子》:你和合作者在2015年提出ResNet,它解決什么問題?
孫劍:訓練優(yōu)化問題。我們在開發(fā)之前,大概GoogleNet,VGG就是最好的網絡,大概到20多層,再增加層數(shù)就不行了,訓練都訓練不下去;或者訓練的難度非常高,說明整體的優(yōu)化沒有做好。
其實機器學習大概要解決三個問題,一個是說系統(tǒng)是否可以有能力擬合,能力是否夠。比如,很簡單的一個線性分離器可能無法表示像AlphaGo那么復雜的映射關系,如果加很多層這樣的神經網絡,能力就是夠的。不過,這也只是說理論上能力夠。
第二個問題要解決怎么讓它擬合上去,就是訓練優(yōu)化問題,ResNet是解決這個問題。當然加了ResNet以后,現(xiàn)在可以說是任何深度層的都可以來擬合。大家常用的是幾十層或者是一兩百層這樣的網絡。
第三個問題今天還沒有解決的很好,就是推廣能力問題。比如,確認了網絡在訓練數(shù)據(jù)、測數(shù)據(jù)的時候好,如果突然來一個新的場景,能不能也做好?比如說,突然來了一個刮風下雨的天氣,又有一個奇怪的車,車上掉了東西下來,這個東西還沒見過,這就需要推廣能力。這是在訓練數(shù)據(jù)當中無法大規(guī)模收集到的,這個問題今天深度學習也好,人工智能也好,還是長期要解決的問題。這跟人不一樣,人有推理、抽象,有先驗,很多東西都能來幫助我們解決推廣能力問題,泛化能力問題。這是下一個深度學習解決的問題。像人臉識別解決的非常好了,但是還有很多任務沒有這么好。
《知識分子》:從研究方法上來說,現(xiàn)在是不是一個巨大的改變,都是用深度學習,卷積神經網絡來做?
孫劍:對。基礎都得用這個,結合具體問題的一些領域知識,領域知識用得越多越好?,F(xiàn)在深度學習已經成為一個工具。我們剛從CVPR2018回來,如果看今年的發(fā)展的熱點,深度學習已經無處不在了。有幾個Talk很有意思,講者上來就說,我的Talk不包含深度學習,沒用深度學習。像以前專門有論文,題目叫深度學習XXX,今天這樣的論文題目已經很少了,而是真正深入到問題的本身去研究了。
機器學習會長期產生更大的作用
《知識分子》:大家都用深度學習了,以前傳統(tǒng)的方法會完全拋棄嗎?
孫劍:沒有完全拋棄,像3D的話還是不能拋棄的,3D幾何的這些關系,是不能簡單那樣來描述的。包括圖像,其實今天深度學習能做的非常好,但是實際上我們在做很多深入的視覺理解中,擬合一個函數(shù)是不夠的,還有很多局限性,做不到非擬合函數(shù)的一些推理功能。比如,如果兩張撲克牌疊在一起很近的話,今天的方法不一定能很好的檢測出兩張牌,但是人是知道這個牌是方形的,多出來一個角不正常,通過推理就能夠推出,下面還有一張牌。人有很強的先驗信息,才能把這個問題做好。
《知識分子》:你今天的主題講的是“云端芯的計算機視覺”,你覺得現(xiàn)在云端、終端和芯片上有哪些不同的要求?
孫劍:云上不用考慮計算量和內存訪問、模型大小的一些問題,或者說是有很松的邊界,要追求的是精度問題。在端上,比如說在手機上,它的計算量、內存訪問模式和要求的模型大小都是不一樣的。今天因為設計網絡結構還是人工的一個事情,所以在云上設計的模型肯定在端上不是最優(yōu)的設計,所以需要在端上面設計才能得到更好的效果。
包括在芯片上也是一樣,不光要調結構,而是內部的網絡表示都要采取低精度化的表示,其實這也是神經網絡很神奇的特性,因為我們一般來說用32位浮點數(shù)表示里面所有的信號,但它(神經網絡)其實很穩(wěn)健,不用32位,用幾個比特也能夠很好地把這個信息流給傳播了。
因為我相信人真正的神經系統(tǒng)里面也不會用32位浮點數(shù)表示信號,所以,第一就要設計這樣的算法來適合現(xiàn)有的硬件;第二,其實芯片是演化非??斓囊粋€行業(yè),設計芯片要考慮這個特性,用低精度來設計芯片,這樣就能夠做的非常好。我相信在很多設備上這樣的芯片都會普及,以至于在云上的一些計算可以圍繞這個芯片來做,今天這個發(fā)展非???,這遠遠不是摩爾定律能夠框起來的,大概幾個月計算量翻一倍,功耗還不變或者說計算量不變,功耗降一半,這個范圍非常寬。
《知識分子》:設計各種各樣的網絡,看起來就像是藝術,你是基于什么去設計一個算法的?
孫劍:別的科學都沒有Science這個名詞,而Computer Science,計算機科學加了一個Science,其實計算機科學里面大多數(shù)算法都是設計出來的,它跟物理、生物實驗做出來的發(fā)現(xiàn)是不太一樣的。我們深度學習有點像計算機科學這個方式,像排序算法是怎么設計出來的,有各種各樣的排序算法,不是做實驗做出來的。
另一方面,它(神經網絡)跟那些純算法還不太一樣,它和數(shù)據(jù)相關,跟數(shù)據(jù)相關的話,跟平臺也相關,所以核心是說,對要做的一些問題要有非常深入的理解,理解有很多細節(jié),理解整個網絡在不同的情況下會怎么樣,然后從小出發(fā),抓住小的點,把小的點做大,慢慢就可以設計好。
《知識分子》:你對微軟的研究氛圍體會如何?
孫劍:鼓勵基礎研究。深度學習中有一個梯度下降算法、反傳算法,最后監(jiān)督信號決定了這個系統(tǒng)會是什么樣子的。我覺得在任何一個組織的話,你希望這個組織做什么,不做什么,就相當于一個監(jiān)督信號。訓練一個分類器,可以接受正樣本、負樣本,這個組織就會像深度學習一樣,自動地去反傳、監(jiān)督這個信號,形成它的特色。微軟研究院很鼓勵基礎創(chuàng)新,鼓勵對最前沿問題長期如一日的這么做,這樣才可能有新的突破誕生。
《知識分子》:在人工智能的科研和教育方面,曠視和大學、科研機構有合作嗎?
孫劍:我們在南京成立了研究院,與南京大學有合作,我們和西安交大人機所、上??萍即髮W成立了聯(lián)合實驗室,和權龍老師在香港科技大學也成立了一個實驗室,因為想實現(xiàn)互補——3D認知方面和圖像識別方面是要結合在一起的。我們接下來還會找和我們相互補的,不管學校也好,或者研究機構也好,來做這樣的合作。
《知識分子》:年輕人都來學AI,你有什么樣的經驗可以給到他們?
孫劍:如果看長遠一些,機器學習會長期產生更大的作用。今天雖然說人工智能,但其實大多數(shù)是機器學習的基礎知識,包括如何來用統(tǒng)計思考問題的方法,可能很多做事情的方式都是通過這種方式做的。學習這些,我覺得長期來看都是非常有好處的。
聯(lián)系客服