隨著 DeepMind 的 AlphaGo 在 2016 年戰(zhàn)勝了李世石,“人工智能”這個(gè)詞開始進(jìn)入大眾的視野。從那時(shí)起,不管是大型互聯(lián)網(wǎng)公司還是初創(chuàng)企業(yè)都開始大規(guī)模招聘機(jī)器學(xué)習(xí)的相關(guān)從業(yè)者,無論社招的求職者還是校招的應(yīng)聘學(xué)生都出現(xiàn)了大規(guī)模的增長(zhǎng)。由于機(jī)器學(xué)習(xí)的人才短缺并且大量應(yīng)屆生涌入,以至于現(xiàn)在某些公司的校園招聘出現(xiàn)了算法工程師簡(jiǎn)歷太多,并且移動(dòng)端崗位,web 開發(fā)崗位的簡(jiǎn)歷略有不足的情況,導(dǎo)致這些互聯(lián)網(wǎng)公司甚至通過郵件的方式來呼吁應(yīng)屆生盡量修改投遞職位。
就這幾年的人工智能發(fā)展情況和博主的個(gè)人經(jīng)驗(yàn)而言,人工智能可以大致分成以下幾個(gè)方向:
計(jì)算機(jī)視覺方向
自然語言處理方向
語音識(shí)別方向
機(jī)器學(xué)習(xí)方向
計(jì)算機(jī)視覺方向(Computer Vision)無論是在學(xué)校還是在公司,都有著大量的從業(yè)者,并且 ImageNet 項(xiàng)目可以提供上千萬的標(biāo)注圖片供大家使用。既然 ImageNet 是開源的數(shù)據(jù)集,那么無論是學(xué)校的教授還是學(xué)生,不管是大型互聯(lián)網(wǎng)公司還是初創(chuàng)企業(yè),都可以輕易地獲取到這些數(shù)據(jù)集,不僅可以進(jìn)行 CV 算法的研究工作,還可以進(jìn)行相關(guān)的工程實(shí)踐。由于計(jì)算機(jī)視覺方向的歷史悠久,不管是計(jì)算機(jī)系,工程系,甚至數(shù)學(xué)系,都有著大量的老師和相應(yīng)的學(xué)生從事該方向的研究工作,因此,學(xué)?;蛘哐芯克軌?qū)I(yè)界輸出的計(jì)算機(jī)視覺人才數(shù)量也是可觀的。
與計(jì)算機(jī)視覺方向相比,自然語言處理方向(Natural Language Processing)在學(xué)校里面也有不少的教授從事相關(guān)研究。不過要想讓計(jì)算機(jī)理解人類的語言可不是一件容易的事情。尤其是中文還擁有多音字,語義雙關(guān)等情形,而且理解中文很可能還要基于上下文來前后推敲。如果和聊天機(jī)器人聊過就會(huì)發(fā)現(xiàn),其實(shí)聊天機(jī)器人和人類的聊天給用戶的感覺是完全不一樣的。語音方向博主不是很了解,也只是道聽途說而已,在這里就不在贅述了。
除了以上三個(gè)方向,人工智能的另外一個(gè)研究方向自然就是機(jī)器學(xué)習(xí)了。在周志華老師的教材《機(jī)器學(xué)習(xí)》中,無監(jiān)督學(xué)習(xí),有監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)等方向都已經(jīng)在該教材中進(jìn)行了詳細(xì)的解釋。貌似幾年前強(qiáng)化學(xué)習(xí)這個(gè)方向也是不溫不火,但是在 AlphaGo 崛起之后,深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)就已經(jīng)開始進(jìn)入了大多數(shù)人的視野。隨著圍棋被攻克之后,德州撲克AI,或者其他的游戲 AI 也被很多學(xué)者和大型游戲公司所關(guān)注。DeepMind 也在 2017 年開放了星際爭(zhēng)霸的研究平臺(tái),今年無論是在 Dota2 還是星際爭(zhēng)霸上,游戲 AI 相比之前都有了巨大的突破。
除了強(qiáng)化學(xué)習(xí)之下的游戲 AI 之外,其實(shí)機(jī)器學(xué)習(xí)一直在一個(gè)領(lǐng)域發(fā)揮著巨大的用處,那就是推薦系統(tǒng)。無論是廣告推薦,YouTube 視頻推薦,甚至今年非?;鸬亩兑?APP,推薦系統(tǒng)在其中的作用都不容忽視。關(guān)于推薦系統(tǒng)的書其實(shí)有很多,博主也沒有一一讀過,不過就近些年的發(fā)展?fàn)顩r來看,無論是在學(xué)術(shù)界還是工業(yè)界,從零到一搭建一套推薦系統(tǒng)已經(jīng)不是壁壘,如何搭建一套結(jié)合業(yè)務(wù)場(chǎng)景的優(yōu)秀推薦系統(tǒng)才是難題。而推薦系統(tǒng)中常用的各種模型,例如邏輯回歸(logistic regression),SVD,ItemCF & UserCF,甚至深度神經(jīng)網(wǎng)絡(luò),在各種開源框架之下(Spark,Tensorflow等),只要擁有足夠的計(jì)算資源,訓(xùn)練出一個(gè)可以使用的模型已經(jīng)沒有太大的難度。難度在于算法工程師如何貼近業(yè)務(wù)并且理解業(yè)務(wù),在此基礎(chǔ)上如何使用機(jī)器學(xué)習(xí)算法將內(nèi)容庫(kù)里面的優(yōu)質(zhì)內(nèi)容推薦給用戶,而不引起用戶的反感,點(diǎn)擊率如何在合理的范圍內(nèi)進(jìn)一步提升。搭建一套推薦系統(tǒng)已經(jīng)不是難題,如何結(jié)合多種多樣的推薦場(chǎng)景才是關(guān)鍵,怎么結(jié)合業(yè)務(wù)來使用推薦系統(tǒng)則是算法工程師需要思考的問題。
就博主的個(gè)人經(jīng)驗(yàn)來看,推薦系統(tǒng)或者游戲 AI 其實(shí)只是機(jī)器學(xué)習(xí)的一個(gè)應(yīng)用領(lǐng)域。既然機(jī)器學(xué)習(xí)能夠應(yīng)用在推薦系統(tǒng)或者游戲 AI 上,那么為何不能夠應(yīng)用在別的領(lǐng)域上呢?
對(duì)于一些大型互聯(lián)網(wǎng)公司而言,推薦系統(tǒng)能夠給用戶們帶來足夠優(yōu)質(zhì)的體驗(yàn),游戲 AI 能夠幫助玩家提升自己的技藝。但是在給用戶帶來優(yōu)質(zhì)體驗(yàn)的時(shí)候,總有一些黑產(chǎn)用戶在伺機(jī)而動(dòng),通過 APP 的各種 bug 來尋找賺錢的機(jī)會(huì),給正常用戶帶來各種各樣的騷擾。在游戲中,有一些人使用了外掛等技術(shù),破壞了游戲中的平衡。在金融行業(yè)中,一直都有黑產(chǎn)用戶正在進(jìn)行各種各樣違法犯罪的事情,例如信用卡欺詐等,給正常用戶帶來了不少的損失。在社交網(wǎng)絡(luò)中,有一些用戶通過社交網(wǎng)絡(luò)傳播著各種各樣的不良信息,無論是謠言,虛假?gòu)V告還是各種各樣的假冒偽劣產(chǎn)品宣傳,都給正常用戶帶來了不好的體驗(yàn)。因此,安全業(yè)務(wù)一直是互聯(lián)網(wǎng)公司和金融公司的重點(diǎn)業(yè)務(wù),安全業(yè)務(wù)一直是保護(hù)著互聯(lián)網(wǎng)公司能夠正常運(yùn)行的基石。各種各樣的安全實(shí)驗(yàn)室在大型互聯(lián)網(wǎng)公司里面并不罕見,也是必須要配備的力量。對(duì)于業(yè)務(wù)安全上,無論是盜號(hào),刷帖,傳播虛假消息等都是需要關(guān)注的對(duì)象。在黑產(chǎn)力量日益壯大的情況下,打擊黑產(chǎn)的人力也越來越多。隨著人力的增多,如何使用機(jī)器學(xué)習(xí)算法來進(jìn)行人類經(jīng)驗(yàn)的傳承,或者說隨著黑產(chǎn)技術(shù)的升級(jí)如何才能夠盡快的提升互聯(lián)網(wǎng)公司的黑產(chǎn)對(duì)抗能力,這些都是值得做的工作。除了互聯(lián)網(wǎng)公司之外,銀行等金融機(jī)構(gòu)也需要進(jìn)行信用卡的風(fēng)控評(píng)級(jí),打擊信用卡盜刷,黑色產(chǎn)業(yè)的資金鏈條挖掘等。因此,銀行等金融機(jī)構(gòu)對(duì)于業(yè)務(wù)安全上面的要求有的時(shí)候可能比互聯(lián)網(wǎng)公司還要嚴(yán)格。
能夠用在安全領(lǐng)域上的機(jī)器學(xué)習(xí)算法有很多,最容易想到的當(dāng)然就是異常檢測(cè)。無論是高維異常檢測(cè),還是圖(Graph)上的異常檢測(cè),都在業(yè)務(wù)安全領(lǐng)域有著巨大的應(yīng)用場(chǎng)景。異常檢測(cè)算法可以從眾多的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)中的異常點(diǎn),然后通過人工審核等方式進(jìn)行數(shù)據(jù)的標(biāo)注,并且可以使用有監(jiān)督學(xué)習(xí)模型進(jìn)行訓(xùn)練和上線預(yù)測(cè)。整體來說,就是使用無監(jiān)督算法,有監(jiān)督算法,圖挖掘算法等機(jī)器學(xué)習(xí)常見技術(shù)來進(jìn)行惡意黑產(chǎn)的打擊工作。對(duì)于從事業(yè)務(wù)安全 機(jī)器學(xué)習(xí)方向的算法工程師來說有一些潛在的優(yōu)勢(shì),那就是業(yè)務(wù)安全方向是工業(yè)界的剛需。但是學(xué)術(shù)界并不完全有能力培養(yǎng)相關(guān)的人才,因?yàn)榛ヂ?lián)網(wǎng)或者金融公司的數(shù)據(jù)都具有保密性,很難把數(shù)據(jù)像 ImageNet 一樣開放給全世界,共同享受數(shù)據(jù)帶來的巨大優(yōu)勢(shì)。如果沒有基礎(chǔ)的數(shù)據(jù),那么學(xué)校的教授或者學(xué)生就無法接觸到這個(gè)領(lǐng)域,也就無法在學(xué)校提升相關(guān)的技術(shù)。雖然異常檢測(cè)等其他機(jī)器學(xué)習(xí)算法會(huì)在學(xué)術(shù)中有所突破,但是安全的業(yè)務(wù)經(jīng)驗(yàn)只有在做過相關(guān)業(yè)務(wù)之后,真正地打擊過黑產(chǎn)用戶之后才能夠有更深層次的體會(huì)和理解。一個(gè)沒有接觸過安全業(yè)務(wù)的人,即使他的學(xué)術(shù)造詣再高,在短時(shí)間內(nèi)也是很難提出一些靠譜想法或者技術(shù)方案的。
在這里做一個(gè)不恰當(dāng)?shù)谋扔鱽矸奖愦蠹依斫狻?/p>
如果把 APP 比喻成一棟樓房的話,那么后臺(tái)開發(fā)就是搭建鋼筋水泥的人,前臺(tái)開發(fā)就是負(fù)責(zé)刷墻貼磚的人,設(shè)計(jì)師是負(fù)責(zé)把這棟樓設(shè)計(jì)得更加美觀的人,安全人員就好比樓房的保衛(wèi)人員,那么運(yùn)維人員就是這棟大樓的檢修人員。
在一些互聯(lián)網(wǎng)公司,運(yùn)維人員也被稱為技術(shù)運(yùn)營(yíng)人員,整體來說就是保障APP或者業(yè)務(wù)穩(wěn)定運(yùn)營(yíng)的。例如:網(wǎng)絡(luò)抖動(dòng)了該怎么辦,交換機(jī)何時(shí)宕機(jī),大量用戶無法登陸APP了該怎么辦,APP的某個(gè)頁(yè)面無法打開了該怎么辦等諸如此類的問題。為了保障業(yè)務(wù)的穩(wěn)定運(yùn)營(yíng),就需要有一定數(shù)量的技術(shù)運(yùn)營(yíng)同事來維護(hù)整個(gè)業(yè)務(wù)的正常運(yùn)行。正所謂“天有不測(cè)風(fēng)云,人有旦夕禍福”,公司擁有安全人員和運(yùn)維人員好比買保險(xiǎn),在沒有黑客攻擊或者業(yè)務(wù)正常運(yùn)行的時(shí)候,通常存在感略低。但是一旦業(yè)務(wù)出了問題,第一個(gè)要召集的人肯定就是安全和運(yùn)維人員。因此,無論是安全工作還是運(yùn)維工作,都是大型互聯(lián)網(wǎng)公司和金融機(jī)構(gòu)必不可少的力量。
隨著機(jī)器學(xué)習(xí)的發(fā)展,智能運(yùn)維(Artificial Intelligence Operations),也就是所謂的 AIOps,也開始被眾多技術(shù)公司所關(guān)注。提到技術(shù)運(yùn)營(yíng)工作,根據(jù) 2018 年的《企業(yè)級(jí)AIOps實(shí)施建議白皮書V0.6》 的觀點(diǎn),可以大致分成以下三個(gè)方向:
質(zhì)量保障;
效率提升;
成本管理。
其中質(zhì)量保障就是為了保證業(yè)務(wù)的正常,高效,穩(wěn)定地運(yùn)轉(zhuǎn)。在質(zhì)量保障的過程中,無法避免的就需要進(jìn)行異常檢測(cè)。在運(yùn)維領(lǐng)域,異常檢測(cè)的范圍非常廣,不僅包括大家耳熟能詳?shù)臅r(shí)間序列異常檢測(cè),還包括多維數(shù)據(jù)下鉆分析,甚至還包括日志模板提取和異常挖掘。除了質(zhì)量保障之外,效率提升也是一個(gè)方面,無論是自動(dòng)化運(yùn)維領(lǐng)域還是使用 NLP 的技術(shù)來構(gòu)建智能聊天機(jī)器人,甚至使用機(jī)器學(xué)習(xí)等技術(shù)來進(jìn)行智能擴(kuò)縮容,機(jī)器學(xué)習(xí)技術(shù)在運(yùn)維領(lǐng)域都有著巨大的發(fā)揮空間。
在智能運(yùn)維領(lǐng)域,最重要的任務(wù)之一就是時(shí)間序列異常檢測(cè),這里的時(shí)間序列不僅包括服務(wù)器的各種各樣的指標(biāo)(CPU,進(jìn)程,PKG等),還有網(wǎng)絡(luò)出入流量等交換機(jī)數(shù)據(jù),甚至包括各種各樣的業(yè)務(wù)指標(biāo)(在線用戶數(shù),失敗數(shù),請(qǐng)求量等)。各種各樣的時(shí)間序列組合在一起就形成了一個(gè)時(shí)間序列數(shù)據(jù)庫(kù),而且這些時(shí)間序列通常來說都是按照分鐘量級(jí)來收集數(shù)據(jù),因此,時(shí)間序列項(xiàng)目完全符合機(jī)器學(xué)習(xí)項(xiàng)目的各種條件。在時(shí)間序列異常檢測(cè)或者趨勢(shì)預(yù)測(cè)中,時(shí)間序列和機(jī)器學(xué)習(xí),甚至深度學(xué)習(xí)結(jié)合的各種技術(shù)都可以在這里有著一定的用武之地。
除了時(shí)間序列之外,服務(wù)器的異常挖掘,多維度數(shù)據(jù)分析都是智能運(yùn)維中非常有挑戰(zhàn)的項(xiàng)目。除了質(zhì)量保障之外,效率提升中的智能聊天機(jī)器人將有希望把運(yùn)維人員從繁重的客服任務(wù)中解放出來,智能擴(kuò)縮容技術(shù)將有機(jī)會(huì)取代原來很多“拍腦袋”所做出來的容量估計(jì)。對(duì)于一家正常經(jīng)營(yíng)的公司而言,質(zhì)量保障和效率提升只是其中的兩個(gè)方面,如何有效地進(jìn)行成本的管理則是非常重要的項(xiàng)目。如果成本預(yù)算過少,那么明年的項(xiàng)目發(fā)展將會(huì)受到限制;如果成本預(yù)算過多,那么明年的資源勢(shì)必造成各種浪費(fèi)。因此,無論是質(zhì)量保障,效率提升,還是成本管理,都是技術(shù)運(yùn)營(yíng)領(lǐng)域的核心問題。
除了以上博主接觸過或者略微了解過的領(lǐng)域之外,其實(shí)機(jī)器學(xué)習(xí)在其他的領(lǐng)域應(yīng)該都是有著自己的用武之地。在量化分析方向,據(jù)說有的團(tuán)隊(duì)已經(jīng)開始用機(jī)器學(xué)習(xí)的方法進(jìn)行股票交易。在化學(xué)或者生物學(xué)領(lǐng)域,也有學(xué)者使用機(jī)器學(xué)習(xí)的方法來挖掘數(shù)據(jù)之間的信息。總之,除了人工智能在那幾個(gè)經(jīng)典領(lǐng)域的應(yīng)用之外,機(jī)器學(xué)習(xí)的方法應(yīng)該有希望應(yīng)用到各行各業(yè)中,改變?cè)瓉淼墓ぷ鞣绞剑嵘袑W(xué)科的效率。機(jī)器學(xué)習(xí)本身并不是一個(gè)新的東西,只要運(yùn)用得當(dāng),機(jī)器學(xué)習(xí)在各行各業(yè)都有著強(qiáng)大的創(chuàng)造力和生命力。
來源:https://www.icode9.com/content-4-769001.html聯(lián)系客服