過去十年間,人工智能技術(shù)突飛猛進,最瘋狂的科幻小說場景現(xiàn)在已經(jīng)成為我們生活中不可或缺的一部分。十年前,人們在談論 AI 的理論化和實驗,但這些年來,AI 變得更加切實了,也變成了主流。無論是國際標準課程、平臺、庫、框架、硬件,一切都順理成章。就算說這十年里取得的成績奠定了未來的基礎(chǔ),也不為過。 這篇文章將盤點 AI 十年來取得的重要突破。 卷積 2012 年是深度學習歷史上重要的一年。那一年,卷積神經(jīng)網(wǎng)絡(CNN)在著名的 ImageNet 挑戰(zhàn)賽中大放異彩。由 Alex Krizhevsky 等人設計的卷積神經(jīng)網(wǎng)絡「Alexnet」以遠超第二名的成績奪冠,在 ImageNet 數(shù)據(jù)集上的視覺識別錯誤率為 15.3%,降低了一半。該神經(jīng)網(wǎng)絡對貓的檢測準確度達到了 74.8%,在 YouTube 視頻中檢測人臉的準確率為 81.7%。 現(xiàn)在,手機和商場中的人臉識別應用都應該歸功于 2012 年的這項工作,識別準確率的提升使研究者能夠進行醫(yī)學成像模型的部署,這些模型具備高置信度。 與 AI 對話 Vaswani 等人 2017 年發(fā)表的《Attention Is All You Need》帶來了級聯(lián)效應,使得機器能夠以前所未有的方式去理解語言。得益于 Transformer 架構(gòu),AI 現(xiàn)在能夠撰寫假的新聞、推文,甚至可能引起政治動蕩。繼 Transformer 之后,谷歌又推出了 BERT 模型,將其用于關(guān)鍵字預測和 SEO 排名等。BERT 如今已經(jīng)變成了自然語言處理領(lǐng)域的實際標準,諸如 Microsoft 和 NVIDIA 之類的公司開始堆積更多參數(shù)來追趕該模型。 NVIDIA 的 Megatron 具有 80 億個參數(shù),而 Microsoft 的 Turing NLG 模型具有 170 億個參數(shù)。OpenAI 的 GPT 模型后來居上,1750 億參數(shù)的 GPT-3 目前是歷史記錄的保持者。 GPT-3 也是 Transformer 的擴展,是目前最大的模型,它可以編碼、寫散文、生成商業(yè)創(chuàng)意,只有人類想不到,沒有它做不到。 將人類一軍 AI 早已在國際象棋中擊敗了人類。而更加復雜的人類游戲,如 Jeopardy! 游戲、圍棋、德州撲克等,也沒有擋住算法的腳步。人工智能近幾年來最廣為人知的事件就是 AlphaGo 在最復雜棋類游戲——「圍棋」上擊敗了人類頂級選手。與此同時,在這個十年中,IBM 的 Watson 也在 Jeopardy! 決賽中擊敗了兩位人類,最終 Watson 獲得了 77147 美元獎金,而兩位人類分別獲得了 24000 和 21600 美元。 Facebook 和卡耐基梅隆大學共同開發(fā)的德?lián)?AI Pluribus 戰(zhàn)勝了五名專家級人類玩家,實現(xiàn)了前輩 Libratus(冷撲大師)未能完成的任務,該研究還登上了 2019 年的《科學》雜志。2020 年 12 月,DeepMind 提出的 MuZero 讓一種人工智能模型掌握多種游戲,包括將棋、國際象棋和圍棋。 解碼生命 每一個生物體的行為都可以在其蛋白質(zhì)中尋蹤溯源。蛋白質(zhì)承載著秘密,破解蛋白質(zhì)或許有助于擊敗新冠大流行。但蛋白質(zhì)結(jié)構(gòu)非常復雜,需要不斷地運行模擬。DeepMind 嘗試解決這一難題,其開發(fā)的深度學習算法「Alphafold」破解了出現(xiàn)五十年之久的蛋白質(zhì)分子折疊問題。計算機視覺被證明可以幫助診斷,而解決蛋白質(zhì)折疊問題甚至能夠幫助研發(fā)人員開發(fā)新藥。 AI:是藝術(shù)家,也是騙子 去年,在一則視頻中,比利時首相談論著解決經(jīng)濟和氣候危機的緊急需求,后來人們發(fā)現(xiàn)這其實是 Deepfake 視頻。在機器學習和 AI 對比利時首相聲音和表達方式的操縱下,這則假視頻讓首相發(fā)表了一場關(guān)于全球變暖影響的演講。 這些偽造內(nèi)容的背后是精心設計的算法——生成對抗網(wǎng)絡(GAN)。該算法在 2014 年提出,并得到廣泛應用,甚至已經(jīng)侵入了人類工作的最后一道壁壘:創(chuàng)作。這種網(wǎng)絡可以生成從未存在的人臉、互換人臉,讓一國總統(tǒng)胡言亂語。GAN 生成的一幅畫甚至在佳士得拍賣會上以破紀錄的價格——40 萬美元成交了。GAN 的另一面是被用于惡意目的,以致于像 Adobe 這種公司不得不研究新技術(shù)來鑒別偽造內(nèi)容。GAN 在下一個十年里仍將是被廣泛討論的對象。 秘密武器——硅 神經(jīng)網(wǎng)絡的概念誕生了半個世紀,今天流行的反向傳播方法也出現(xiàn)三十年了。但是,我們?nèi)匀蝗鄙倌軌蜻\行這些計算的硬件。過去十年,我們見證了十多家公司研究專門的機器學習芯片。這些年來,芯片技術(shù)得到了極大發(fā)展,我們可以在手掌大小的設備上執(zhí)行百萬次運算。這些芯片被用到數(shù)據(jù)中心,用戶可以觀看自己喜歡的 Netflix 電影、使用智能手機等。接下來,專為邊緣設備定制的 AI 芯片蘊含著價值數(shù)十億美元的商機。 蘋果等公司已經(jīng)開發(fā)了定制化機器學習芯片(如 A14 Bionic)來提供智能服務。即使是依賴英偉達和英特爾的 AWS,也正在慢慢進入芯片行業(yè)。隨著芯片變得越來越小,這一趨勢只會更加明顯:例如使用英偉達 Jetson AGX Xavier 開發(fā)者套件,你可以輕松創(chuàng)建和部署端到端 AI 機器人應用,用于制造、零售、智能城市等等。谷歌的 Coral 工具包可將機器學習帶到邊緣設備上。安全、實時輸出是目前的主題。 開源文化逐漸成熟 圖源:MIT Tech Review 2015 年,TensorFlow 開源。一年后,F(xiàn)acebook AI 又開源了基于 Python 的深度學習框架 PyTorch。今天,TensorFlow 和 PyTorch 已經(jīng)成為使用最廣泛的框架。通過不斷的版本更新,谷歌和 Facebook 為機器學習社區(qū)帶來了極大便利。自定義庫、軟件包、框架和工具的爆發(fā)式增長,使得更多人進入了 AI 領(lǐng)域,也為 AI 研究帶來了更多人才。 開源是近幾年的一個主要特性。開源工具和越來越多的可用資源(如 arxiv 或 Coursera)促進了 AI 變革。另一個催化劑是流行的競賽平臺——Kaggle。Kaggle 和 GitHub 滋養(yǎng)了一批高質(zhì)量 AI 開發(fā)者。 更多學習,更少規(guī)則 Schmidhuber 教授上世紀 90 年代初提出的元學習概念,最近才逐漸得到關(guān)注。元學習指在有限訓練示例的基礎(chǔ)上,使機器學習模型學習新技能并適應不斷變化的環(huán)境。通過操縱超參數(shù)對特定任務優(yōu)化機器學習模型需要大量用戶輸入的話,過程會較為繁瑣,而使用元學習后,這一負擔將得到極大緩解,因為元學習將優(yōu)化部分自動化了。自動優(yōu)化帶來了一個新的行業(yè) MLaaS(機器學習即服務)。 未來方向 關(guān)于一些專家預測以下領(lǐng)域或許將發(fā)揮主要作用:
可復現(xiàn)性
差分隱私
幾何深度學習
神經(jīng)形態(tài)計算
強化學習
盡管 AI 已經(jīng)進入許多我們未曾想象的領(lǐng)域,但它仍需應用到更流行的應用中,如自動駕駛汽車。然而,挑戰(zhàn)更多地在于數(shù)學層面:目前已有能夠做出準確決策的算法,也有能夠處理這些算法的處理器,但何時能夠部署到應用上仍未可知。不管是醫(yī)療還是自動駕駛汽車,AI 仍需要繼續(xù)進展,而這只有在透明性和可復現(xiàn)性得到建立時才會發(fā)生。 原文鏈接:https://analyticsindiamag.com/ai-top-decade-2010-2020-breakthroughs/