1 新智元編譯
作者: Thomas W. Dinsmore、Mark Hammond 等
來源: nextplatform.com、IDC 等
編譯:劉小芹、胡祥杰
新智元啟動新一輪大招聘:COO、執(zhí)行總編、主編、高級編譯、主筆、運營總監(jiān)、客戶經(jīng)理、咨詢總監(jiān)、行政助理等 9 大崗位全面開放。
簡歷投遞:jobs@aiera.com.cn
HR 微信:13552313024
新智元為COO和執(zhí)行總編提供最高超百萬的年薪激勵;為骨干員工提供最完整的培訓體系、高于業(yè)界平均水平的工資和獎金。
加盟新智元,與人工智能業(yè)界領袖攜手改變世界。
【新智元導讀】以機器學習尤其是深度學習為代表的人工智能技術已經(jīng)進入產(chǎn)業(yè)階段,IDC 26日發(fā)布報告預測,到2020年全球 AI 和認知系統(tǒng)的采用為企業(yè)帶來的收入將超過 470 億美元。有分析認為,AI 將像當年的互聯(lián)網(wǎng)一樣催生新的經(jīng)濟。開源雖有助于普及 AI 技術,但深度學習人才將成為智能時代的關鍵。
(文/Thomas W. Dinsmore,獨立咨詢師和作家,擅長行業(yè)分析,擁有 IBM、微軟等公司經(jīng)歷,曾在國際頂尖資訊公司 BCG 擔任 Knowledge Expert)對于一個吸引了如此大的注意力的話題來說, 要找到一個精準的、讓所有人都滿意的機器學習定義是非常難的。更復雜的事情在于,大多數(shù)的機器學習,至少從產(chǎn)業(yè)的視角來看,看起來很像既有的分析和智能商務工具。
我們把機器學習定義為一種軟件,它能從數(shù)據(jù)中提取高價值的知識,只需要很少的人類監(jiān)督,有時候甚至不需要。學術界真正在研究機器學習的學者可能會反對把機器學習的定義局限在軟件。但是,在工業(yè)界,機器學習就是軟件。另外,如果我們把機器學習看成是一種軟件,我們就能像評估其他的企業(yè)級軟件一樣對它進行衡量:許可執(zhí)照、適用性、條款和安全等等。 初看,商業(yè)智能(BI)工具似乎已經(jīng)滿足我們對機器學習的定義,但是,定義中的關鍵詞其實是:只需要很少的人類監(jiān)督,有時候甚至不需要。
使用BI工具的操作者只需要10個雙向交叉表來分析5個復雜變量之間的關系。如果變量增加到100個,相同的操作者需要4950個表格;如果變量為1000,需要的表格可能要上百萬。機器學習軟件能在極其短暫的時間內(nèi),找到大量的模型,并且在不需要人類分析師的介入下確定模型。
把機器學習當成價值鏈上的一個生產(chǎn)環(huán)節(jié),這一比喻是有用的。機器學習“工廠”接收低價值的數(shù)據(jù),產(chǎn)出高價值的知識,其形式可以是一個數(shù)學公式、一系列規(guī)則或者編程代碼。機器學習產(chǎn)出的輸出,也許是其他機器可以讀懂的,或者是人類可以理解的東西,又或者是人和機器都能讀懂的??傮w上看,機器學習會以以下方式工作:
一個學習框架,為現(xiàn)實問題建模定義規(guī)則,其中包括一個或多個性能量化方式;
一個優(yōu)化過程,會搜索一系列參數(shù)或者規(guī)則,我們把這一過程叫模型,能在已有的訓練數(shù)據(jù)中提供最佳的表現(xiàn);
依賴于部署,算法可能會自動地用新數(shù)據(jù)定義模型,不然就是人類用戶來完成這一任務;
模型現(xiàn)在可以用于推理,可以在相同的軟件中應用,也可擴展到其他的應用。
大多數(shù)機器學習框架可分為以下三類:
監(jiān)督式學習,其目標是精確地為數(shù)據(jù)集中眾多變量中的一個變量的值建模。這種方法在預測問題上非常有用;
特征學習,或者無監(jiān)督學習,其目標是為數(shù)據(jù)中多變量的特征進行建模。比如,在聚類任務中,其目標是把相同的例子聚到一組,所以需要被優(yōu)化的性能參數(shù)可能是一個在不同聚類之間的距離數(shù)字;
增強學習框架通過不斷地與環(huán)境進行交互學習,正如在機器人或者自動駕駛中那樣。在最佳學習方式是交互時,增強學習特別適合。
其中,深度學習是一種機器學習方法,在多層次的網(wǎng)絡中對高水平的模型進行建模。微軟和谷歌等公司使用深度學習來解決語音識別、圖像識別、3D 對象識別和自然語言處理等問題。
關于機器學習,最近大多數(shù)的消息都是關于新興技術,比如自動駕駛、語音識別。這些創(chuàng)新很令人激動,但它們依然處于商業(yè)化的早期。今天,在產(chǎn)業(yè)界有其他許多普通的應用,機器學習也能產(chǎn)生價值。以下是幾個例子:
智能醫(yī)療。美國南北卡羅萊納州醫(yī)療系統(tǒng)(CHS)使用機器學習來為病人的情況打分。管理經(jīng)理能使用這些分數(shù)來為病人服務優(yōu)先次序排名。系統(tǒng)能讓CHS實現(xiàn)個性化醫(yī)療。使用這一系統(tǒng)之后,CHS的再入院率從21%降到了14%。
Cisco 使用機器學習來建立產(chǎn)品的個人購買傾向分數(shù)。銷售能使用該預測來發(fā)現(xiàn)最好的推銷對象。
PayPal 在采用機器學習來實時識別可疑交易之前,每個月因為詐騙損失1000萬美元。
以上的例子由兩個關鍵的特征:第一,機器學習的輸出,也就是病人風險分數(shù)、可能的購買意向分數(shù)以及欺詐預測,都產(chǎn)生了巨大的價值。第二, 它們之所以有價值,是因為它們值得信任。
從上面的例子,也可以看到,機器學習在以下四個方面可以做得很好:
在多個變量中找到復雜的交互;
從原始數(shù)據(jù)中學習低水平的特征;
預測高技術的分類,比如圖像分類;
處理非標簽數(shù)據(jù)。一些現(xiàn)象是多個變量間復雜交互后產(chǎn)生的,比如節(jié)育的發(fā)生率不僅是一個包含性別和年齡的函數(shù),而是這兩個變量一起與其他要素作用的結果。雖然專家能使用統(tǒng)計學知識對這些變量進行建模,但其過程需要消耗大量的人力和時間。機器學習能自動識別出這一交互過程,并且不需要過多的人為監(jiān)督。
統(tǒng)計技術的成功很大程度上取決于用于搜集數(shù)據(jù)的能力,這一過程要求大量的專業(yè)知識和技巧。作為一種規(guī)則,機器學習技術在混亂或者不完整的數(shù)據(jù)上能有穩(wěn)定的表現(xiàn)。機器學習,尤其是深度學習,加以大量擁有獨特價值的數(shù)據(jù),會產(chǎn)生很好的效果,實際的應用包括語音識別、圖像識別或者推薦引擎。機器學習能從非標簽數(shù)據(jù)中進行學習。這里所說的“非標簽”只的是缺乏對意義的定義。非標簽的圖像、視頻、新聞等都是非標簽數(shù)據(jù)。
比起統(tǒng)計學,機器學習產(chǎn)生的結果人類更難理解。這樣,當分析的目標是屬性或者方差分析時,機器學習的用處就不大。
一些研究者嘗試解決這一“黑箱”問題,他們進行了驗證和模擬測試,想要知道在提供新數(shù)據(jù)的情況下,模型會有什么表現(xiàn)。部分依賴關系分析(partial dependency analysis)的方法,讓了解機器是如何學習模型表現(xiàn)的成為可能。
機器學習的另一個潛在缺陷是,常常會發(fā)生過擬合問題,其中算法會對訓練數(shù)據(jù)的獨特個性產(chǎn)生“記憶”。一些機器學習算法采用了“嵌入”(built-in)控制避免這一問題。 機器學習算法要求復雜的計算,需要大量的計算能力。近年來,計算成本急劇下降,但是,計算并不是免費的,所以管理機器學習負荷問題也是一個巨大挑戰(zhàn)。計算的復雜度會讓部署變得很困難。 Netflix 曾舉辦過一個機器學習挑戰(zhàn)賽,并給冠軍團隊頒發(fā)了100萬美元的獎金,后來,Netflix 發(fā)現(xiàn)部署冠軍團隊的模型成本過高,不得不放棄。
盡管存在缺陷,但根據(jù) 10 月 26 日國際數(shù)據(jù)公司(IDC)發(fā)布的報告《全球半年度認知/人工智能支出指南》(Worldwide Semiannual Cognitive/Artificial Intelligence Systems Spending Guide):各行各業(yè)對認知系統(tǒng)和人工智能(AI)的廣泛采用,將使全球在這兩方面的收入從 2016 年的近 80 億美提升至 2020 年的 470 多億美元。也就是說,從 2016 年至 2020 年期間,認知/AI解決方案的復合年均增長率將達到 55.1%。
根據(jù)日前 IDC 官網(wǎng)發(fā)布的新聞稿,IDC認知系統(tǒng)和內(nèi)容分析研究總監(jiān) David Schubmehl 表示:“軟件開發(fā)人員和終端用戶組織已經(jīng)開始將認知/人工智能部署到幾乎所有類型的商業(yè)化應用或流程中。
“幾家大型科技公司的最新動向以及AI創(chuàng)業(yè)公司爆發(fā)的風險投資市場表明,企業(yè)需要制定并施行能把這些寬泛的技術綜合起來的策略。識別、理解以及使用實例,技術,以及認知/AI系統(tǒng)的增長機會,將成為大多數(shù)企業(yè)的差異因素,這些技術造成的數(shù)據(jù)干擾將十分嚴重。”
根據(jù) IDC 的這份報告,認知/AI系統(tǒng)能夠使用算法和基于規(guī)則的邏輯識別并響應數(shù)據(jù)流,因而能夠在許多不同行業(yè)中自動實現(xiàn)多種功能。2016年,吸引最多投資的AI使用實例是自動客服代理、質(zhì)管調(diào)查及推薦系統(tǒng)、診療系統(tǒng)、以及欺詐分析調(diào)查系統(tǒng)。另外,在未來五年中,最快實現(xiàn)收入增長的使用實例是公共安全和應急響應系統(tǒng)、新藥研究及發(fā)現(xiàn)、診療系統(tǒng)、供應和物流、質(zhì)管調(diào)查及推薦系統(tǒng)、以及車隊管理系統(tǒng)。
總體預測中,認知/AI收入的半數(shù)將被投入到軟件開發(fā),其中也包括認知應用(例如文本和富媒體分析、標記、搜索、機器學習、分類、聚類、生成假設、回答問題、可視化、過濾、警報、以及導航)和利用智能發(fā)展、咨詢及認知解決方案的認知軟件平臺。
認知應用支出作為最大、增長最快的類別,預計到 2020 年將達到 182 億美元規(guī)模。認知/AI相關的服務(包括商業(yè)服務和IT咨詢)是第二大收入類別,而硬件收入(疏遠來源于購買服務器和存儲器)的增長速度與軟件的增長速度相當,未來五年里的 CAGR 將超過60%。
從地理層面看,北美(美國和加拿大)是迄今最大的認知/AI支出區(qū)域,2016 年這方面的收入達到 62 億美元。預計歐洲、中東和非洲(EMEA)將繼續(xù)保持第二大區(qū)域,但到 2020 年,包括日本在內(nèi)的亞太地區(qū)在認知/AI方面的收入將基本接近 EMEA 地區(qū)水平。
上周,在多倫多大學羅特曼管理學院組織的機器學習與智能市場會議中,多倫多大學羅特曼管理學院從事人工智能經(jīng)濟學研究的教授 Ajay Agrawal 比較了當前的 AI 熱潮和 1995 年興起的互聯(lián)網(wǎng)潮流并將互聯(lián)網(wǎng)與人工智能作了類比。
當互聯(lián)網(wǎng)獲得足夠的主流牽引力后,就不再被視為一種新的技術;相反,它被視為一種全新的經(jīng)濟形式,互聯(lián)網(wǎng)商業(yè)開始興起。
Agrawal 認為,人類應該仔細思考深度學習等前沿 AI 技術將會如何重塑全球經(jīng)濟。
Gartner 分析認為:算法交易將會形成一個全球性的市場,世界各地的研究人員、工程師都能在這個市場上創(chuàng)造、分享乃至合成大規(guī)模的新算法;屆時,算法也將變得像集裝箱一樣,能夠任意組和擴展,從而搭建適用于不同應用的架構。也就是說,多個機器學習算法可以結合起來成為更強大的算法,從而更好地分析數(shù)據(jù),充分發(fā)掘數(shù)據(jù)里的價值。
Gartner 曾發(fā)表報告,對算法經(jīng)濟可能帶來的市場影響做出評估。Gartner 報告認為,算法經(jīng)濟將創(chuàng)造一個全新的市場,人們可以對各種算法進行買賣,為當下的公司匯聚大量的額外收入,并催生出全新一代的專業(yè)技術初創(chuàng)企業(yè)。
想象這樣一個市場:數(shù)十億的算法都是可以買賣的,每一個算法代表的是一種軟件代碼,能解決一個或多個技術難題,或者從物聯(lián)網(wǎng)的指數(shù)級增長中創(chuàng)造一個新的機會,算法經(jīng)濟將會促進下一代機器對機器互動演進的巨大飛躍。
人們將會通過產(chǎn)品使用的算法來評價它的性能好壞。企業(yè)的競爭力也不僅僅在于大數(shù)據(jù),還要有能夠把數(shù)據(jù)轉(zhuǎn)換為實際應用的算法。因此,CEO應該關注公司有產(chǎn)權的算法,而不僅僅是大數(shù)據(jù)。
正在涌現(xiàn)的機器智能平臺以“機器學習即服務”的方式,托管預訓練過的模型,讓企業(yè)能夠更容易地啟用機器學習,快速將其應用從原型轉(zhuǎn)化成產(chǎn)品。當這種范式形成后,接入并使用不同的機器學習模型和服務以提供特定功能的能力將變得越來越有價值。
然而,也并非所有人都認為情勢一片大好,有人明確對此表示出了擔心。
初創(chuàng)公司 Bonsai AI 致力于“讓所有人都能簡單使用 AI 工具”,其創(chuàng)始人兼 CEO Mark Hammonk 認為,谷歌、Facebook、IBM 和微軟在 AI 上投入了數(shù)十億美元的研究經(jīng)費,而且市場上還將會發(fā)生更多的兼并案例,不僅是來自這些巨頭,還有一些已經(jīng)意識到進入新興智能經(jīng)濟的機會的公司,比如三星(前不久收購了 Siri 之父開發(fā)的“超級大腦” Viv 公司)。
更重要的是,這些公司逐漸把 AI 工具,尤其是深度學習平臺開源,當然,這些工具能夠以一種前所未有的節(jié)奏加速 AI 創(chuàng)新的步調(diào),造福了整個開發(fā)者生態(tài),而這也是實現(xiàn)許多人期待的“AI 無處不在”的必要步驟。
但是,Hammonk 表示,僅僅開放 AI 平臺顯然是不夠的——開源不代表就能獲取。一些低難度的技術和資源,比如 TensorFlow、Torch 等,對于專業(yè)用戶來說是一個福利。但是,它們并沒有把缺乏經(jīng)驗的開發(fā)者囊括進來。雖然投資巨大增長明顯,但是對于AI來說,可獲得性依然是一個巨大的難題。
科技作者 Francesco Corea 認為,這些開源 AI 的科技巨頭在不付出成本且不承擔副作用的情況下,讓自己的技術得到了最好的擴展,同時,依然保留了獨特的大型數(shù)據(jù)庫、平臺和巨大的投資潛力,這能讓他們可以不斷發(fā)展。
Hammonk 指出,我們正在接近 AI 一個發(fā)展階段的終點,這一階段被統(tǒng)計學統(tǒng)治,使用暴力編程的方法,對計算能力依賴非常大。雖然在過去幾年間取得了長足進步,但最終我們會意識到,用統(tǒng)計學的方法來實現(xiàn)AI,在規(guī)模化上太難了。
AI 的下一發(fā)展階段的主題將是讓這一技術被更多的開發(fā)者使用,同時能應用到更多的設備上。在實現(xiàn)新的 AI 經(jīng)濟上,高質(zhì)量的 AI 專家和數(shù)據(jù)科學家的缺乏是非常明顯的。
根據(jù) Evans Data 最新研究顯示,全球開發(fā)者的人數(shù)有 2100萬,而數(shù)據(jù)科學家約有1.8 萬人。換句話說,世界上每個數(shù)據(jù)科學家都對應有超過1000名開發(fā)者。
這些開發(fā)者各有適應他們的組織的專長。他們知道自己想讓系統(tǒng)和應用程序?qū)W會什么,但缺乏能實現(xiàn)這些想法的基本的 AI 知識。交給他們一堆機器學習算法,對他們來說,只是被要求掌握創(chuàng)造更好的學習系統(tǒng)的技巧,也就是說創(chuàng)造更優(yōu)秀的學生。真正需要做的,是讓他們利用現(xiàn)有的技能和知識,成為更好的教師。
抽象出這些基本機制能為開發(fā)者解鎖 AI,讓他們能夠?qū)I(yè)知識應用到任何應用程序或系統(tǒng)上。假如你要雇傭一些開發(fā)者,你需要知道他們的價值不只體現(xiàn)在寫代碼的能力上,他們的專業(yè)知識和創(chuàng)造力才是應當努力拓展的“智能”。
雖然智能時代正在到來,剩下的問題是如何快速、高效地到達那里。Hammonk 表示,當軟件開發(fā)者能夠快速、高效地為應用程序注入智能,真正的知識經(jīng)濟就會到來。
編譯來源:
聯(lián)系客服