200 多家明星企業(yè),20 位著名投資機構(gòu)頂級投資人共同參與!「新智造成長榜」致力于發(fā)掘 AI 領(lǐng)域有 “三年十倍” 成長潛力的創(chuàng)新公司,下一波 AI 獨角獸,會有你么?點擊閱讀原文了解詳情!
雷鋒網(wǎng)按:雖然從學(xué)術(shù)和研究氛圍濃厚的微軟亞洲研究院出身,且獲得過微軟多項重大技術(shù)突破創(chuàng)新獎,但華先勝心里很清楚,算法在商業(yè)化落地中所扮演的角色并不是核心要素。
“算法在高手之間的差異其實很小,壁壘的形成是建立在熟悉業(yè)務(wù)和場景的基礎(chǔ)上。很多你認為跟你八竿子打不著的傳統(tǒng)行業(yè)和方向,沒準就有機會。”
從早已奠定自己江湖地位的微軟亞研轉(zhuǎn)戰(zhàn)到阿里巴巴,這一決定的背后是他對深入業(yè)務(wù)和解決商業(yè)痛點的憧憬。
整個采訪過程中,阿里 iDST 視覺計算組負責(zé)人華先勝不止一次提到 CV 行業(yè)遍地是黃金,可惜的是創(chuàng)業(yè)者總喜歡扎堆在幾個紅海領(lǐng)域。究其原因是對業(yè)務(wù)不了解所致,從業(yè)者甚至抱有做一個識別率很高的通用 API 就能吃下所有行業(yè)的幼稚想法,在算法上打磨了太多時間。
華先勝,北京大學(xué)應(yīng)用數(shù)學(xué)博士、IEEE Fellow、ACM2015 年度杰出科學(xué)家、MIT TR 全球 35 位 35 歲以下的杰出青年創(chuàng)新人物,曾擔(dān)任 ACM Multimedia 等大會程序委員會主席,是視覺識別和搜索領(lǐng)域的國際級權(quán)威學(xué)者。于 2016 年 7 月加入阿里人工智能研究機構(gòu) iDST 科學(xué)家團隊,帶領(lǐng)視覺計算團隊的研發(fā)工作。
雷鋒網(wǎng):談一談你們最近在做哪些商業(yè)化落地項目?
目前阿里 iDST 視覺計算組主要集中在三個方向的布局:分析識別、視圖搜索、合成。通俗講就是認物體、找物體、生成物體。
城市大腦中的 “城市之眼” 是商業(yè)化落地的重要項目之一。
一級城市中大概布置了幾十萬個攝像頭,單個攝像頭每天產(chǎn)生非常大的視頻數(shù)據(jù),但是這些數(shù)據(jù)發(fā)揮的價值其實比較有限。
因此,阿里通過城市之眼觀察車、人、非機動車,利用視覺計算統(tǒng)計出車量、車型、車牌、車長、速度、行駛路徑、行人等信息。做好城市數(shù)據(jù)收集后會建立一個索引,具體落實到實際應(yīng)用上,可尋找走丟的兒童、肇事車查找等。
過去在視覺技術(shù)較弱的情況下,只能通過笨重的手段獲得一些粗略的車輛信息:如通過 GPS 獲取采樣數(shù)據(jù);在路下掩埋地感線圈,根據(jù)車身壓力進行計數(shù)。無論 GPS 還是地感線圈其實對車輛的信息收集有限,而且地感線圈經(jīng)常會出故障。
阿里云城市大腦要做的事情是把整個城市數(shù)據(jù)匯集,完成對城市事故、事件的認知:知道哪里堵車,哪里有車禍,分析后迅速發(fā)出紅綠燈控制和關(guān)閉路口的指令,以及預(yù)估事故、事件對交通接下來產(chǎn)生的影響。
這些數(shù)據(jù)收集和處理都在云端運行,云端不僅可進行復(fù)雜、前沿的計算,而且在云計算平臺可完成多種任務(wù):大到交通治理,小到紅綠燈控制。與此同時,計算力也容易去調(diào)整。
但如果放在攝像頭端做,計算力明顯會變?nèi)酢?/span>
雷鋒網(wǎng):哪些流程放在端上做會更合適?
我個人覺得質(zhì)量增強和簡單的結(jié)構(gòu)化可以放在端上,非常精細的分析放在前端會有一些局限,尤其是算法更新速度極快的今天,如果很多智能功能要嵌入在攝像頭端,得把所有軟體刷新一遍,工作量巨大且不見得所有硬件會支持。
除此之外,攝像頭端也沒有能力把多方位的城市數(shù)據(jù)及時匯聚起來做決策。
雷鋒網(wǎng):如果把所有計算都放在云端去做,如何協(xié)調(diào)好計算量、計算效率、成本之間的關(guān)系?
計算是我們要解決的核心問題之一,怎樣才能擁有較高的計算效率,阿里在這上面投入了很大力氣。
第一要有計算平臺的支持,該平臺要讓項目做起來更加高效,要能容錯;其次是云計算平臺又需要大量的計算機器資源;最后是算法本身。
由于我個人主攻算法,因此我更加看重算法對計算的優(yōu)化。過去處理一路視頻,需要一臺電腦的二十四個核全部運行才能搞定,我當(dāng)時的目標(biāo)是看能不能降到十個核、八個核甚至一兩個核完成。截止到目前為止,我們利用算法提升了 20 倍對計算的優(yōu)化。
此外,改進深度學(xué)習(xí)的方法很多。首先可在機器指令集上進行優(yōu)化工作,其次也可在 CPU 和 GPU 層面優(yōu)化。算法本身的優(yōu)化,較為常見的是優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。由于神經(jīng)網(wǎng)絡(luò)中集成的計算量相當(dāng)大,因此我們需要考量能不能把大模型在不損失性能的前提下壓縮為小模型,小模型能不能剪一剪。
雷鋒網(wǎng):如何打通城市大腦專有云與公安系統(tǒng)的底層基礎(chǔ)設(shè)施和硬件設(shè)備的?
這方面確實很重要,很多公司認為只要把算法做好就萬事大吉。其實做好解決方案,有很多工作看上去與算法沒有任何關(guān)系,尤其在流程打通方面。
我們以紅綠燈和攝像頭控制為例。紅綠燈本身就可以用編程控制,城市大腦根據(jù)交通狀況計算出這些設(shè)備應(yīng)該怎么調(diào)控,然后向交通部門發(fā)送指令,讓對方進行操作。
其次是攝像頭,由于攝像頭的型號和產(chǎn)品功能各不相同,球機有預(yù)置位,槍機沒有。我們要用程序打通球機,從多個位置控制監(jiān)控。而有時候部分球機沒有預(yù)置位,因此建立虛擬預(yù)置位的問題我們又得找集成商去解決。
為了讓系統(tǒng)更加智能化,公安也有動力去更新底層的基礎(chǔ)設(shè)置和硬件。因為很多時候設(shè)備已經(jīng)阻礙了整個項目的發(fā)展,打通流程需花費很多人力和財力,而且在功能實現(xiàn)上受到了不少限制。
雷鋒網(wǎng):識別出車牌號碼基本上能確認車輛信息,但問題是攝像頭能捕捉到人臉嗎?
在特殊環(huán)境下,車牌號不一定完全能看清,而且很多車牌是套牌。在系統(tǒng)里搜索一輛車得在整個數(shù)據(jù)庫里綜合各種特征來判斷。
我們的車輛識別其實采用了不少拍立淘的以圖搜商品技術(shù),所以在這塊的積累已經(jīng)比較成熟。同時也在使用最近比較火的 GAN 來生成大量以假亂真的車牌數(shù)據(jù)去做訓(xùn)練,效果非常可觀。
回到人臉問題上,現(xiàn)在大部分攝像頭對人臉的捕捉無能為力,除了在布控上專門搭建的人臉攝像頭能夠看得到外,電子桿上布置的攝像頭是看不到的,所以通常情況下更多是對整個人的身體進行檢測和識別。
這就會涉及到識別準確率問題,關(guān)于人物搜索,也不見得一定要把目標(biāo)對象找出來,機器篩選出 10 到 100 個人的范圍就已經(jīng)很了不起了,雖然不知道是篩選結(jié)果范圍中的哪一個,但已經(jīng)可幫助公安節(jié)省很多人力。
學(xué)術(shù)圈也好、工業(yè)界也罷,經(jīng)常會看到準確率高達百分之九十九點幾的數(shù)字,其實真實場景比這殘酷的多。
在真實場景下,有些問題都是小概率事件,不需要識別率如此準確,但需要 recall 做得非常高。舉個簡單的例子,在一萬個樣本中,如果有十個目標(biāo)對象是你要找的,從數(shù)字上來看它的概率非常低,如果 10 個搞不定那他肯定在 100 個里。這時候他的召回為 100%,準確率為 10%。10% 的準確率有沒有用呢?非常有用。如果不用這種方法的話,得把這 1 萬個樣本全都看一遍。
本來讓交警看一個星期才能完成的任務(wù),現(xiàn)在只需一個交警看一個小時就能解決,這很了不起。
雷鋒網(wǎng):除了安防外,你們還在哪些方向會重點布局?
目前做智能攝像頭視覺解決方案的公司,之間其實并不會有太大的技術(shù)差異,更多體現(xiàn)在體驗上。
很多創(chuàng)業(yè)公司都在做人臉,我個人并不建議創(chuàng)業(yè)公司都一窩蜂爭進入這個市場,CV 行業(yè)有很多藍海和遍地黃金的機會。
以醫(yī)療為例,我們近期也投身做肺結(jié)節(jié)影像分析的相關(guān)工作。
在提出要做肺結(jié)節(jié)影像分析時,很多人無法理解。圍觀者一方面認為醫(yī)生比機器強太多,無需機器輔助。第二是醫(yī)生會對產(chǎn)品有抵觸,因此并不會接受這類技術(shù)。
在深入醫(yī)院經(jīng)過一系列調(diào)研后,我發(fā)現(xiàn)無論醫(yī)生自身需求也罷,還是市場需求也罷,機器都有它存在的意義。以肺結(jié)節(jié) CT 為例,通常情況下醫(yī)院里比較密的切片 CT 影像大小達三四百兆。一個醫(yī)生如果認真看下來需要半小時,如果利用算法分析,只要計算能力足夠則會瞬間完成。
機器分析影像有兩點優(yōu)勢:第一是速度,它可以很快得到一個參考結(jié)果。其次是遺漏率低,我們可以把 Recall 設(shè)高,把 Position 降低。
當(dāng)數(shù)據(jù)量積累到一定程度時,計算機可以把多維度、連接的信息綜合起來去分析病理。醫(yī)生的資歷得益于他的學(xué)識和臨床經(jīng)驗的積累,而數(shù)據(jù)可以看作是學(xué)識和臨床經(jīng)驗。
醫(yī)療影像最需要解決的無疑是帶標(biāo)注的高質(zhì)量數(shù)據(jù),而標(biāo)注環(huán)節(jié)唯獨醫(yī)生等專業(yè)人員才能標(biāo)注。那么如何獲得高質(zhì)量的標(biāo)注數(shù)據(jù)?為此,阿里云與體檢公司合作,體檢公司的數(shù)據(jù)往往比較容易獲得,而且他們也正好有機器輔助分析的需求。
雷鋒網(wǎng):還有哪些不起眼、但有一定商業(yè)潛力的市場?
除了安防和醫(yī)療外,確實會有不少看起來是長尾不起眼,但市場潛力不小的場景。
我們最近在做一個為火車檢修的項目。我們知道,火車對安全要求極高,交通部門非常重視,在這上面的投入也比較可觀。
火車檢修最早期需要人的肉眼去觀察,甚至通過敲敲打打聽音色這種很原始的方式來判斷器械是否有故障隱患。近些年鐵路局逐漸開始用工業(yè)相機拍攝照片的方式代替人工上去檢查,通過在高壓線和鐵軌位置安裝工業(yè)相機拍攝大量高清圖片,然后讓員工坐在辦公室看圖片。
把最初讓人工去日曬雨淋的現(xiàn)場觀察改進為坐在辦公室看圖片,這也算不小的進步。但是人眼觀察圖像又成了一件非常繁瑣的事,容易漏查。
這時候用圖像識別方案代替人眼做分析無疑會節(jié)省不少人力。
同樣,也可用圖像識別的方法分析工業(yè)相機所拍攝的殘次品、電路板差錯問題。
人工智能還是一個初步階段,很多傳統(tǒng)行業(yè)遠未開發(fā),其中很多你認為跟你八竿子打不著的行業(yè)和項目,沒準就有機會。之前有朋友跟我聊天,他說到煤礦里運煤的傳輸帶一老化就會出事故。我想了想,其實完全可以架工業(yè)相機對傳輸帶進行拍照,然后利用圖像識別系統(tǒng)分析有沒有出現(xiàn)老化的跡象。及時拍攝、實時上傳到云端做分析、實時反饋結(jié)果、如有問題實時報警。智能化的流程不僅可替代部分人力,而且會把實效性和準確性提升至更高的維度。
雷鋒網(wǎng):前段時間依圖科技朱瓏提到這樣一個觀點,他說人工智能的商業(yè)化最終取決于這個領(lǐng)域最強的那個人。您怎么看?
朱瓏的一些觀點我是不同意的,當(dāng)時現(xiàn)場我也問了他不少問題,但朱瓏沒有正面回答。當(dāng)然,這些問題我自己心理都是有答案的。
在談到到底哪些因素促成人工智能的應(yīng)用和商業(yè)化,我覺得有很多因素,但最重要的是深入行業(yè)和場景,這一塊是大家最為薄弱也是積累最淺的地方。
小公司和大公司之間的對比一直是人們津津樂道的話題,AI 行業(yè)也是。對于小公司而言,深入行業(yè)是突圍的關(guān)鍵。
人們喜歡談?wù)撍惴ǖ母偁?,其實算法的門檻在高手之間差別很小,我再強調(diào)下這句話:算法的門檻在高手之間差別很小。聰明人到處都是,聰明這件事很難形成壁壘。重要的應(yīng)該是把行業(yè)和業(yè)務(wù)搞清楚,人們往往容易忽略業(yè)務(wù)問題,這其實不是件容易事。
醫(yī)療門檻為什么高?因為你很難深入去了解它。
阿里云本身就有 CBM 這樣的銷售團隊,他們會向我們反饋客戶各種各樣的需求。然后云架構(gòu)師、數(shù)據(jù)架構(gòu)師根據(jù)需求會從系統(tǒng)存儲、計算平臺、AI 算法等方面去考慮解決方案該如何搭建,然后向各個技術(shù)部門提出研發(fā)需求。
雷鋒網(wǎng):深入業(yè)務(wù)時具體要接觸哪些人?
首先一定要與處于業(yè)務(wù)一線的人員進行長期溝通。醫(yī)療項目找醫(yī)生,安防項目找交警。
醫(yī)療影像項目你要溝通的影像科醫(yī)生,要去了解他們是怎么看片子的,以及醫(yī)生有哪些痛點急需解決。而像安防項目,我會花更多時間去跟處于一線的公安執(zhí)勤人員聊,而非公安系統(tǒng)的技術(shù)人員。
雷鋒網(wǎng):你們是如何發(fā)現(xiàn)和挖掘客戶需求?
阿里有很多客戶,客戶們?nèi)绻l(fā)現(xiàn)阿里云的視覺方案在其他場景下做成功了,這時候他們就會找上門來提出他們的需求。客戶如果沒有提出某些需求時,我就自己去挖掘。
當(dāng)發(fā)覺什么東西有意思時就會根據(jù)已有的技術(shù)做嘗試,同時也會與 DEA 和 CBM 一起聊,把技術(shù)介紹給他們,以便在接觸客戶時如遇到合適的客戶需求,可進一步推動方案的完善。
當(dāng)然,發(fā)現(xiàn)需求是一件舉步維艱的事,需要深入行業(yè)去探索,而且經(jīng)常會失敗。
在我們接到的眾多需求里,有些需求看上去是個痛點,但開發(fā)后發(fā)現(xiàn)它并不是一個正確的問題,無法為客戶帶來真正的價值,讓我們走了不少彎路。
但這是必然,正確的需求和落地場景是靠不斷試錯得出,而非空想而來。
創(chuàng)業(yè)公司也會遇到相似的情況,他們不斷轉(zhuǎn)變自己的應(yīng)用方向,甚至改變技術(shù)方向。究其原因是因為沒找準需求導(dǎo)致,而非遇到了技術(shù)難題無法突破才選擇轉(zhuǎn)型。
當(dāng)然還有些場景現(xiàn)在看不到機會,但隨著時機的成熟,未來或許會有,我們也會主動提前去布局此事。
雷鋒網(wǎng):方不方便透露幾個您覺得在未來商業(yè)潛力較大,但很多玩家還沒發(fā)覺的場景?
我只能說下我們正在重點布什么局。
其中視頻搜索是一個,包括結(jié)構(gòu)化打標(biāo)、相似性搜索。視頻這個題目 20 年前就開始做了,但因為很多時機、技術(shù)、數(shù)據(jù)問題,一直沒落地。此外,圖像搜索在上個世紀也開始做了,我也曾經(jīng)覺得是時候把它做出來,但卻看不到落地的場景。直到我發(fā)現(xiàn)電商中的圖像搜索才是機會時,于是我來到阿里?,F(xiàn)在隨著時機的不斷成熟,其他商業(yè)場景也不斷開始嶄露頭角。
其次是在視頻里做廣告也大有前景,雖然十年前就有相關(guān)論文了,但一直沒落實到位。
雷鋒網(wǎng):但我個人認為用戶并沒有在視頻里買商品的習(xí)慣。
你指的是 Video Out:在視頻里點擊商品旁邊的購買鏈接購物。其實廣告的形式不止 Video Out,Video Out 這種廣告方式確實會有很大的阻礙和挑戰(zhàn)。從用戶體驗角度講,在視頻里點擊鏈接購物是否是正確的需求還有待商榷。
我認為在視頻中應(yīng)該用植入的方式做廣告,在不影響體驗的前提下,潛移默化地對用戶產(chǎn)生影響。比如在視頻里找到可以嵌入廣告的地方,不管是張貼畫廣告還是物品廣告。這個是張貼畫,這個左邊是原來的視頻,右邊是我們植入的圖像。
雷鋒網(wǎng) (公眾號:雷鋒網(wǎng)):CV 落地傳統(tǒng)行業(yè),您覺得最難解決的問題是什么?
我認為,一個成功的人工智能應(yīng)用,應(yīng)該具備五個條件。
第一個是算法。你要有好的算法,你的算法要有先進性,你的算法不行一切都沒有了基礎(chǔ)。(當(dāng)然你也可以把算法這一個條件看做是科學(xué)家,因為人才和算法是緊密相連的)。
第二個是要有數(shù)據(jù)。數(shù)據(jù)本身就是一個很大的話題,里面有數(shù)據(jù)的采集、搜集、清洗、有效的標(biāo)注,甚至包括算法里面數(shù)據(jù)怎么使用。
第三個是用戶。你做的這個東西應(yīng)該有用戶的,因為有很多問題是需要用戶參與才可以做得越來越好。當(dāng)然你從商業(yè)的角度來講,沒有用戶的話也不能夠長久。用戶本身是數(shù)據(jù)的消費者,也是數(shù)據(jù)的提供者,這過去在搜索引擎里面有非常重要的體現(xiàn),可以說搜索引擎的技術(shù)能夠做那么好,每個人都有 contribution 的。
第四個就是平臺。這個就是涉及到你要有強大的計算能力和一套體系架構(gòu),能夠方便地去研發(fā)、部署和生產(chǎn),這一套是必須要有的。當(dāng)然現(xiàn)在因為有云計算,所以這部分的瓶頸,對于很多企業(yè)來講已經(jīng)沒有過去那么困難了。
第五個就是有好的商業(yè)模式。如果沒有好的商業(yè)模式,就不可能長久。你做一個事情,低頻的事情沒有多少人用,或者不能給少量用戶帶來大的價值,最后產(chǎn)生的總體價值不夠的話,其實是很難長久的。這幾點,我個人覺得其實是都應(yīng)該具備的。當(dāng)然了,可能不同的商業(yè)應(yīng)用,應(yīng)該來說可能有不同的側(cè)重,但是我覺得都應(yīng)該具備。
雷鋒網(wǎng):我用一句比較俗的話闡述,目前計算機視覺似乎并不能賺大錢。您覺得是因為沒找到合適的場景,還由于 CV 本身就不是盈利的有效工具?
我覺得現(xiàn)階段需要找到更合適的場景才行,不要把項目放在實驗室里,也不要覺得一個就能 API 打天下。一定要深入場景,根據(jù)客戶的業(yè)務(wù)去考量自己的技術(shù)能為客戶創(chuàng)造哪些價值。
客戶懂業(yè)務(wù),但不見得他們很懂技術(shù)。我們做技術(shù)的自身對技術(shù)很了解,知道什么時候 work 什么時候不 work,但對業(yè)務(wù)場景的了解非常有限。
每個計算機視覺從業(yè)者都應(yīng)該明確自己工作的重點到底是 “提高客戶的工作效率,還是提高準確率的百分比”,如果連這個問題都想不清楚,肯定會出問題。
聯(lián)系客服