「AI Index」是什么?
這要從 2014 年說起,當時斯坦福大學決定啟動一個叫做「AI100」的項目 - 人工智能百年研究。其目標簡單來說就是持續(xù)地去調(diào)查、總結(jié)人工智能未來 100 年在學術(shù)研究、經(jīng)濟、道德倫理、法律等方面的進展和對此的展望。
在去年 9 月份,「AI100」專家小組推出了第一份《斯坦福人工智能百年研究:2030 年的人工智能與人類生活》的報告。
但是「AI 100」每五年才會推出一份報告,不能及時跟蹤 AI 的發(fā)展。于是在2016 年Yoav Shoham 退出了「AI100」的領(lǐng)導小組,并和幾位同仁一起,開發(fā)旨在及時跟蹤并反映人工智能當前發(fā)展現(xiàn)狀的一個指標體系——AI Index。
鏈接:http://cdn.aiindex.org/2017-report.pdf
正如這份AI Index報告中所說:
AI 領(lǐng)域在迅猛地發(fā)展,即使是專家也很難理解和跟蹤整個領(lǐng)域的進展。沒有相關(guān)合理的數(shù)據(jù)來呈現(xiàn) AI 技術(shù)的現(xiàn)狀,那么我們做與 AI 相關(guān)的決策其實就像是在「flying blind」。
而現(xiàn)在,我們真的在「flying blind」!
Yoav Shoham 教授希望能通過開放的、基于數(shù)據(jù)的公益AI Index 報告給各個領(lǐng)域的 AI 研究人員提供導航,讓他們不再茫然。這個報告有幾個特點,如下:
這是一個年報;
它所使用的所有數(shù)據(jù)都是公開的,且歡迎所有人提供新的數(shù)據(jù);
This is just a beginning. Yoav 呼吁更多人加入,來共同改進 AI Index。
簡單來說,《AI Index》年報大致有兩塊:
1. 數(shù)據(jù)章節(jié):調(diào)查圖表,并簡要說明遺漏了哪些東西,以及附錄的獲取和處理數(shù)據(jù)的方法;
2. 討論章節(jié):前面的圖表太冰冷,各位領(lǐng)域大牛(例如吳恩達)來溫暖解讀。
數(shù)據(jù)章節(jié)
一、活動體量——該領(lǐng)域的「how much」
1、學術(shù)
AI Index 從三個方面考量人工智能研究的發(fā)展:論文數(shù)量、高校招生情況以及AI會議參會人數(shù)的變化。
(1)發(fā)表論文數(shù)量
可以看到,從 1996 年到現(xiàn)在,AI相關(guān)的論文數(shù)量增長了近 9 倍!9倍是什么概念呢?或許對比一下更有感覺——
對比從 1996 年到現(xiàn)在所有論文、CS 領(lǐng)域論文和 AI 領(lǐng)域論文,增長比例分別為 2 倍、6 倍和 9 倍。通過仔細地觀察圖標就會發(fā)現(xiàn),CS 論文數(shù)量在 04 年到 09 年有一個很快速的增長,而 AI 領(lǐng)域論文數(shù)量也隨之開始急速增長,這說明 AI 的蓬勃發(fā)展是由 CS 其他領(lǐng)域的研究所驅(qū)動的。
(2)招生數(shù)量
限于數(shù)據(jù)的原因,AI Index只收集了斯坦福、伯克利、佐治亞大學、伊利諾伊大學香檳分校、華盛頓大學、卡內(nèi)基·梅隆大學的招生情況。
斯坦福大學從1990年開始招收 ML、AI 的學生,我們看到ML的招生人數(shù)在2000年前一直都非常少,但從2006年之后則開始迅速增長。
而招收學習AI的學生數(shù)在90年代經(jīng)歷了一次漲幅之后跌落到了冰點。從 1996 年的冰點開始招生人數(shù)只是緩慢增長,但是在2006年后招生人數(shù)出現(xiàn)了迅猛增長,2017年的人數(shù)是1996年的 11 倍之多。
對比一下在AI方向幾所高校的招生情況,可以看到伯克利在這方面似乎更有熱情一些,而其他幾所學校就稍微比較緩慢了一些。在機器學習ML方面,斯坦福大學則較為活躍。另一個值得注意的是,CMU 從 2012 年才開始有 ML 這門專業(yè),卻發(fā)展迅速。
(3)參會人數(shù)
下面是在2016 年參會人數(shù)超過一千人的大會。這種整體「碗底形」的數(shù)據(jù)表也說明人們的注意力逐漸由符號推理轉(zhuǎn)向了機器學習和深度學習,真所謂「三十年河東,三十年河西」。今年的NIPS會議的參會人數(shù)高達8000多人。
當然,仍有一小群人在 AI 中穩(wěn)步地推進符號推理方法的研究??傆幸徊糠秩说膶W術(shù)研究不是跟風的。
2、產(chǎn)業(yè)
(1)AI 相關(guān)的初創(chuàng)公司
直到2000 年之后,AI初創(chuàng)公司才開始多了起來,尤其是在 2006 年之后,美國的AI初創(chuàng)公司數(shù)量開始呈指數(shù)增長,2016 年的 AI 公司數(shù)量是 2000年的 14 倍之多。
(2)AI 相關(guān)的基金
投向美國 AI 初創(chuàng)公司的資金從2012年之后才開始注意到人工智能,大量地投資。對比一下 2000 年,2016年的總量是其 6 倍。
(3)職位空缺
數(shù)據(jù)主要來源于兩個網(wǎng)站 Indeed.com 和 Monster.com。從2013年開始,美國從 2013 年到現(xiàn)在要求有 AI 技能的工作增長了 4.5 倍。
不同國家的 AI 相關(guān)職位空缺增長情況也不一樣,加拿大和英國在這兩年增長非常迅速,但它們的絕對數(shù)量只有美國的5% 和 27%。
在特定領(lǐng)域,可以看出有 ML 相關(guān)經(jīng)驗的工作顯得更多,空缺量兩年時間增長了近10 K。而對深度學習有要求的工作在今年也成倍增長。
(4)機器人影響
北美和全球范圍內(nèi),工業(yè)機器人裝置的貨運數(shù)量在 2009 年之后增長了近 20萬。
北美和全球范圍內(nèi),對工業(yè)機器人的需求也在高速增長??梢钥闯鰪?2009 年之后,工業(yè)機器人貨運數(shù)量急劇增長。
3、開源軟件——Github 項目統(tǒng)計
Github 上 對Tensor Fow(深度學習軟件包)的關(guān)注度遠多于其他機器學習工具。
來張集體照,Tensorflow簡直是「遙遙領(lǐng)先」。
4、公眾興趣——媒體報道情緒
包含「Artificial Intelligence」詞項的媒體文章數(shù)量:積極和消極。可以看出積極占大部分,尤其是進入 2017 年以后。
二、技術(shù)表現(xiàn)——該領(lǐng)域的「how good」
1、視覺——物體檢測
從 2010 年 28.5% 的誤差率迅速降低到 2017 年的 2.5%,甚至超過了人類的表現(xiàn)。
2、視覺——視覺問答
對一個圖片問題的開放式回答任務中 AI 系統(tǒng)的表現(xiàn)。嗯,離人類表現(xiàn)差的還遠。
3、自然語言處理——Parsing
AI 系統(tǒng)在檢測語句語法結(jié)構(gòu)任務中的表現(xiàn)在近十年的時間里似乎并沒有太多的改變。
4、機器翻譯
AI 系統(tǒng)在英-德之間新聞翻譯任務中的表現(xiàn)在2015年之后有一次大的提升。注意之所以會出現(xiàn)下降,是因為翻譯系統(tǒng)在不同的任務中會有不同的表現(xiàn)能力。
5、問答
AI 系統(tǒng)在從文件中給問題找答案任務中的表現(xiàn)也像翻譯系統(tǒng)一樣,在2015年有一次大的提升,但是隨后則較為緩慢。
6、語音識別
AI 系統(tǒng)在識別手機電話中語音任務中的表現(xiàn)在進入今年以后逐漸逼近甚至超越人類水平。
7、理論證明
自動定理證明的一大組定理證明問題的平均易處理性。易處理性有下降是因為不同的理論可能只擅長特定的問題。
8、SAT Solving
在工業(yè)應用問題上 SAT(學術(shù)能力測驗) 方案解決問題的比率,從2009年已經(jīng)能夠達到及格水平,但近十年并沒有很大的提升。
三、衍生測量——多方數(shù)據(jù)交叉比較
1、學術(shù)-工業(yè)
數(shù)據(jù)顯示學術(shù)活動(論文發(fā)表和招生數(shù)量)驅(qū)動了AI工業(yè)界的發(fā)展。在 2010 年,投資者開始注意到 AI 的發(fā)展,到 2013 年投資開始急劇增長。
2、AI 活力指數(shù)
AI 活力指數(shù)匯總了來自學術(shù)界和產(chǎn)業(yè)界的結(jié)果(論文出版,招生數(shù)量和投資),以量化 AI 作為一個領(lǐng)域的活力。為了計算 AI 活力指數(shù),我們對以上三個因素求了平均。
這只是一個簡單的計算,Yoav 教授等人希望通過這個簡單的調(diào)查,能夠引發(fā)人們對如何更準確地分析 AI 指數(shù)產(chǎn)生興趣,并能夠探討出一個經(jīng)得起時間考驗的方案來。
四、接近人類水平的性能
把 AI 系統(tǒng)和人類對比,這幾乎是自然而然的事情。顯然在某些任務中,例如計算能力,AI遠遠優(yōu)于人類。但在處理復雜任務(例如問答、游戲、醫(yī)學診斷等)時, AI 系統(tǒng)就比較難以評估了。
AI 系統(tǒng)往往是針對狹窄的背景設(shè)計的,所以它在某一個特定任務中可能會表現(xiàn)出卓越的性能;但是如果稍微地修改一下任務,AI 系統(tǒng)的性能可能就會大大降低,而人類則完全不同。
不過雖然拿人類和 AI 系統(tǒng)進行比較有點困難,但是在某些方面,這類比較還是非常有意思的。例如下面羅列的這些里程碑:
1980 年,黑白棋
在 20 世紀 80 年代,李開復和 Sanjoy Mahajan 開發(fā)了 BILL,這是一個用語玩「黑白棋」游戲的貝葉斯學習系統(tǒng)。1989 年這個程序贏得了美國電腦玩家的全國錦標賽,并以 56-8 的成績擊敗了排名最高的美國選手 Brian Rose。在 1997 年,一個名為 Logistello 的程序在對陣黑白棋世界冠軍的比賽中六場全勝。
1995 年,跳棋
1952 年,亞瑟·塞繆爾(Arthur Samuels)制作了一系列玩跳棋的程序,并通過自我學習進行改進。然而直到 1995 年,一個名為 Chinook 的跳棋程序才擊敗了世界冠軍。
1997 年,國際象棋
在 20 世紀 50 年代就有一些計算機科學家語言計算機將在 1967 年擊敗人類國際象棋冠軍。但直到 1997 年,IBM 的 DeepBlue 系統(tǒng)才擊敗了國際象棋冠軍加里·卡斯帕羅夫(Gary Kasparov)。今天你可以在智能手機上運行的國際象棋與大師級的程序進行玩。
2011年,Jeopardy!
在 2011 年,IBM 的 Watson 計算機系統(tǒng)參加了熱門的智力競賽節(jié)目 Jeopardy!對抗前贏家 Brad Rutter 和 Ken Jennings。最終,Watson 贏得了 100 萬美元的第一名。
2015 年,Atari 游戲
2015 年,Google DeepMind 的一個團隊使用強化學習系統(tǒng)來學習如何玩 49 個 Atari 游戲。這個系統(tǒng)可以在大部分游戲中達到人類級別的表現(xiàn)(例如突出重圍),盡管有些仍然顯得遙不可及(例如蒙特祖瑪?shù)膹统穑?/p>
2016 年,ImageNet 中的對象檢測
在 2016 年 ImageNet 自動標注的誤差率從 2010 年的 28.5% 降到低于 3%,而人類的誤差則是 5%。
2016 年,圍棋
2016 年 3 月,Google DeepMind 團隊開發(fā)的 AlphaGo 系統(tǒng)擊敗了世界圍棋高手李世石,4-1。在 2017 年 3 月,DeepMind 發(fā)布的 AlphaGo Master,又打敗世界排名第一的圍棋大師柯潔。在 2017 年 10 月份,《自然》期刊上發(fā)表了另一個新版本的 AlphaGo Zero,以 100-0 的比分完敗之前的 AlphaGo。
2017 年,皮膚癌分類
在 2017 年《Nature》上的一篇文章中,Esteva 等人描述了一個 AI 系統(tǒng),他們用一組包含了 2094 中不同疾病的 129450 張臨床圖像的數(shù)據(jù)集訓練了這個系統(tǒng),隨后將它與 21 位認證皮膚科專家的診斷性能進行比較,發(fā)現(xiàn) AI 系統(tǒng)在對皮膚癌的分類上媲美皮膚科專家。
2017 年,語音識別
2017 年,微軟和 IBM 分別實現(xiàn)了可以媲美于人類的語音識別能力。
2017 年,撲克
2017 年 1 月,來自 CMU 的一個名為 Libratus 的程序在一個有 12 萬長比賽的錦標賽中擊敗了四位頂級的人類玩家。
2017 年 2 月,來自 Alberta 大學的一個名為 DeepStack 程序在 3000+場游戲中擊敗了 11 名專業(yè)選手。
2017 年,Ms.Pac - Man
微軟收購的深度學習團隊 Maluuba 開發(fā)了一個 AI 系統(tǒng),在 Atari 2600 上學到了如何達到游戲的最高分 999,900。
五、遺漏了什么?
前面的內(nèi)容覆蓋了很多,但很顯然并沒有包含 AI 的全部,這個報告還有很多有待改進的地方。
1、技術(shù)表現(xiàn)
這個報告有很多重要的技術(shù)領(lǐng)域并沒有覆蓋到,有些領(lǐng)域還沒有明確的標準化基準(如對話系統(tǒng)、pllanning、機器人的連續(xù)控制)。在其他一些領(lǐng)域,還沒有顯著的進步,例如常識推理,所以很難進行技術(shù)表現(xiàn)的評估。第三,有一些領(lǐng)域還沒來得及收集相關(guān)的數(shù)據(jù)(例如推薦系統(tǒng)、標準化測試)。
2、國際化
這份報告目前主要還是以美國為中心,而我們知道中國在 AI 方面的研究和投資也是極為活躍的。之所以沒有覆蓋的中國,主要原因是 Yoav 等人還沒拿到中國 AI 相關(guān)的數(shù)據(jù)。未來可能會得到完善。
3、多樣性和包容性
那些研究和開發(fā)人工智能系統(tǒng)的學者和工程師們,對于人工智能對社會的影響起著重要作用。AI Index報告中應該量化參與人工智能的交流的人群,并衡量他們對于未來人工智能研究和開發(fā)的影響力。
4、政府和法人投資
本報告展示的風險投資數(shù)據(jù)僅限于美國,僅能代表人工智能研發(fā)(R&D)投資總額的一小部分。政府和企業(yè)在 AI 研發(fā)上其實已經(jīng)投入大量的資金,這些數(shù)據(jù)可能很難收集,需要更多合作。
5、特定垂直領(lǐng)域的影響
報告還缺少 AI 在醫(yī)療保健、汽車、金融、教育等領(lǐng)域的相關(guān)指標。這些領(lǐng)域可能是最重要也最難處理的,因為相關(guān)指標很難被識別和聚合,需要對其領(lǐng)域有深入了解的專家人士來完成。Yoav 教授的小組也期待有這些領(lǐng)域的專家能夠與他們合作,共同完善AI Idex。
此外,這份報告也沒有討論種族、性別等方面的調(diào)查。
6、社會影響
這份報告尚無關(guān)于 AI 造成社會風險問題的分析。在隨后的報告中,Yoav 教授希望能夠提供關(guān)于 AI 安全性、可預測性、AI算法的公平性、AI時代的隱私、道德影響以及其他主題的討論。
以上問題這么多,主要原因還是:缺人、缺數(shù)據(jù)!所以 Yoav小組迫切地希望有人能夠加入他們,共同完善 AI Index,為 AI發(fā)展提供準確及時的趨勢報告。
專家論壇
數(shù)據(jù)總是冰冷的且不完整的,它只能描繪過去,卻無法告訴人們現(xiàn)在和未來。AI Index 獨創(chuàng)性地在報告中加入一系列跨學術(shù)界、產(chǎn)業(yè)界、政府和媒體的 AI 專家的觀點,讓人們對 AI 的現(xiàn)在和未來有一個生動的認識。
如何參與
需要再次重點強調(diào)的是,這份 AI Index 還很不完善,而另一方面,這是一個開放的報告,任何人都可以加入這個社區(qū),共同完成更有影響力的 AI Index。
本文轉(zhuǎn)發(fā)自AI科技評論
版權(quán)聲明:
聯(lián)系客服