公眾號(hào)后臺(tái)回復(fù):管理1904,免費(fèi)下載本月推薦精品管理類圖書
公眾號(hào)后臺(tái)回復(fù):人文歷史1904,免費(fèi)下載本月推薦精品人文歷史類圖書
公眾號(hào)后臺(tái)回復(fù):管理1904,免費(fèi)下載本月推薦精品管理類圖書
公眾號(hào)后臺(tái)回復(fù):人文歷史1904,免費(fèi)下載本月推薦精品人文歷史類圖書
加入“ICT銷售和大客戶聯(lián)盟”(微信ID:ICT-League),尋找志同道合的小伙伴!
您的關(guān)注就是我們最大的動(dòng)力,這里有大量企業(yè)家高凈值粉絲,每天分享最新商業(yè)資訊、趨勢(shì)、深度好文、把握財(cái)經(jīng)動(dòng)態(tài)。喜歡學(xué)習(xí)和閱讀的朋友請(qǐng)關(guān)注我,文章每天都會(huì)更新,歡迎轉(zhuǎn)發(fā)閱讀!
前言
過去的一年做了幾個(gè)項(xiàng)目都是關(guān)于人工智能的,典型的幾個(gè)項(xiàng)目都包含了音視頻的人工智能識(shí)別和分析,從而為決策提供依據(jù)。
典型的項(xiàng)目如:
1、證券和保險(xiǎn)行業(yè)用于合規(guī)的“個(gè)體實(shí)體行為管理和分析”,該項(xiàng)目用于實(shí)時(shí)鑒別內(nèi)部員工的非合規(guī)的行為,包括語音、通信、即時(shí)通信、郵件、電腦端的全部操作行為,并實(shí)時(shí)的對(duì)非合規(guī)行為報(bào)警,并提供各類行為的分析、統(tǒng)計(jì),查詢等等。
2、公共事業(yè)的“呼叫中心的智能語音互動(dòng)”,該項(xiàng)目是對(duì)呼叫中心的語音呼入、即時(shí)通信等等多渠道的溝通,采用人工智能的方法,替代大量的人工坐席,幫助解決保修、咨詢、工單派發(fā)......等等。
3、公檢法體系的“智慧執(zhí)法辦案中心”,系統(tǒng)采用先進(jìn)的規(guī)范化管理體系,系統(tǒng)與警務(wù)綜合應(yīng)用系統(tǒng)相互補(bǔ)充,將公安機(jī)關(guān)執(zhí)法管理與公安部下發(fā)相關(guān)政策要求相結(jié)合,打造規(guī)范執(zhí)法過程、可追蹤查詢執(zhí)法環(huán)節(jié)和執(zhí)法信息,案件審理全程閉環(huán)、全程監(jiān)督的執(zhí)法辦案新模式。最終實(shí)現(xiàn)執(zhí)法活動(dòng)有據(jù)可依,執(zhí)法監(jiān)督有據(jù)可查,執(zhí)法效率有顯著提升,執(zhí)法公信力和滿意度有明顯提高。
2018年,還有其他的好多關(guān)于大數(shù)據(jù)和人工智能的項(xiàng)目實(shí)施完成,在此不一一描述。
寫出這些項(xiàng)目的簡單介紹,其實(shí)就是想總結(jié)一下關(guān)于“人工智能”的一些想法,給自己一個(gè)總結(jié),同時(shí)督促自己更勤勉的去學(xué)習(xí),給自己一些動(dòng)力。
哈哈,這也應(yīng)了機(jī)器學(xué)習(xí)的一個(gè)方面了,算是一種“有監(jiān)督學(xué)習(xí)”吧。
額,一不小心就提到了“有監(jiān)督學(xué)習(xí)”。剛剛開始接觸人工智能/機(jī)器學(xué)習(xí)的人會(huì)經(jīng)??吹竭@個(gè)詞。
本文不是寫給技術(shù)老炮的,因?yàn)槔吓跁?huì)覺得這些太基本,根本不值得一提。
但是,但多數(shù)銷售和菜鳥而言,接觸到人工智能時(shí),突然發(fā)現(xiàn)撲面而來的都是各種“高大上”的新名詞,學(xué)習(xí)的曲線很陡,然后老炮們隨口說出來的話都讓自己犯雞頭暈。
所以本文是給菜鳥和很多的銷售同行們寫的。
有不恰的地方,望不吝賜教。
01
人工智能的發(fā)展
人類一直試圖讓機(jī)器具有智能,也就是人工智能。
從上世紀(jì)50年代開始,人工智能發(fā)展到今天的紅紅火火,經(jīng)歷了三個(gè)階段:
l 推理期
l 知識(shí)期
l 機(jī)器學(xué)習(xí)期
推理期:通過賦予機(jī)器邏輯推理能力使機(jī)器獲得智能,當(dāng)時(shí),程序能證明一些著名的數(shù)學(xué)定理,但因?yàn)闄C(jī)器缺乏知識(shí),遠(yuǎn)不能實(shí)現(xiàn)真正的智能。
知識(shí)期:將人類的知識(shí)總結(jié)出來教給機(jī)器,使機(jī)器獲得智能。記得當(dāng)時(shí)有大量的專家系統(tǒng)問世,在很多領(lǐng)域的確幫助人類取得大量成果,但人類知識(shí)量巨大,故出現(xiàn)“知識(shí)工程瓶頸”。
在這時(shí)期的機(jī)器都是按照設(shè)定的規(guī)則和總結(jié)的知識(shí)運(yùn)作,無法超越它的創(chuàng)造者,另外人力成本也太高。
這時(shí)候,傻子都會(huì)想到,要是機(jī)器能夠自我學(xué)習(xí)的話?那么,上訴的問題不就迎刃而解了嗎?
所以,機(jī)器學(xué)習(xí)就應(yīng)運(yùn)而生了。人工智能開始進(jìn)入“機(jī)器學(xué)習(xí)時(shí)期”。
80年代,IT和通信網(wǎng)絡(luò)開始普及,對(duì)機(jī)器學(xué)習(xí)的影響就是“連接主義”思維,于是出現(xiàn)了用于機(jī)器學(xué)習(xí)的“感知機(jī)”和“神經(jīng)網(wǎng)絡(luò)”;
90年代,睡著生產(chǎn)力的提高,互聯(lián)網(wǎng)普及,全球盛行“統(tǒng)計(jì)學(xué)習(xí)方法”,最有影響力的應(yīng)當(dāng)是“支持向量機(jī)”;
進(jìn)入新世紀(jì)后,大數(shù)據(jù)開始深入人心,隨著數(shù)據(jù)量和計(jì)算能力的不斷提升,摩爾定律促使計(jì)算資源越來越便宜,深度神經(jīng)網(wǎng)絡(luò)被提出,連接主義卷土從來,以深度學(xué)習(xí)(Deep Learning)為基礎(chǔ)的諸多AI應(yīng)用逐漸成熟。
02
人工智能,機(jī)器學(xué)習(xí)
神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)
2018年開始,隨著公司的產(chǎn)品經(jīng)歷了無數(shù)次的迭代后,市場也開始被許多的頭部用戶認(rèn)可。
公司的銷售們開始大規(guī)模的接觸人工智能的內(nèi)容,然后,好多的銷售開始反應(yīng),這坑太太太太大了!人工智能,機(jī)器學(xué)習(xí),深度學(xué)習(xí),還有神經(jīng)網(wǎng)絡(luò)等等的不同的術(shù)語,每一個(gè)都很高冷,以致于很多人都傻傻的分不清到底它們之間是什么樣的關(guān)系。
在與客戶溝通的時(shí)候,也常常被客戶導(dǎo)入到了:這些東東,是一個(gè)東西的不同表達(dá)而已。然后回來補(bǔ)課,學(xué)習(xí)!
經(jīng)歷了2018將近一年的時(shí)間,并且在成功的交付了若干個(gè)項(xiàng)目之后,我們的銷售才逐漸窄心里和項(xiàng)目規(guī)劃時(shí)有了一個(gè)大體的框架模型。
簡單來說,人工智能是追求目標(biāo),機(jī)器學(xué)習(xí)是實(shí)現(xiàn)手段,深度學(xué)習(xí)是其中一種方法!
1、機(jī)器學(xué)習(xí)
人工智能的核心可以說就是機(jī)器學(xué)習(xí):
機(jī)器學(xué)習(xí)的定義是“Machine learning is the idea that there are generic algorithms that can tell you something interesting about a set of data without you having to write any custom code specific to the problem. Instead of writing code, you feed data to the generic algorithm and it builds its own logic based on the data.”。
沒辦法,找來找去,還是覺得英文的定義跟清楚,只好還是用原文了。別扁我啊。
原文的關(guān)鍵詞是:不需要寫專門的業(yè)務(wù)邏輯代碼,而是通過輸入大量的數(shù)據(jù)給機(jī)器,由機(jī)器通過一個(gè)通用的機(jī)制來建立它自己的業(yè)務(wù)邏輯。
這就是說機(jī)器“自我學(xué)習(xí)”了業(yè)務(wù)邏輯。
然后,這種學(xué)習(xí)后的邏輯,可以用來處理新的數(shù)據(jù)。
這是不是跟我們?nèi)祟惖膶W(xué)習(xí)過程很類似?簡單的說,機(jī)器學(xué)習(xí)的過程可以表述如下。
基本上,每一個(gè)關(guān)于人工智能的項(xiàng)目都會(huì)設(shè)計(jì)到這幾個(gè)要素的。否則,人工智能就是“大量的人工”+“一點(diǎn)點(diǎn)的歸納“。
機(jī)器學(xué)習(xí)是一類算法的總稱,這些算法企圖從大量歷史數(shù)據(jù)中挖掘出其中隱含的規(guī)律,并用于預(yù)測或者分類。
機(jī)器學(xué)習(xí)可以看作是尋找一個(gè)“函數(shù)”,輸入樣本數(shù)據(jù),輸出期望的結(jié)果。
不過,這個(gè)“函數(shù)”過于復(fù)雜,以至于不太方便形式化表達(dá)。
機(jī)器學(xué)習(xí)的目標(biāo)是使學(xué)到的“函數(shù)”很好地適用于“新業(yè)務(wù)樣本”,而不僅僅是僅僅在“訓(xùn)練的業(yè)務(wù)樣本”上表現(xiàn)很好。
學(xué)到的“函數(shù)”要有適用“新業(yè)務(wù)樣本”的能力,這種能力就叫做“泛化能力”。
機(jī)器學(xué)習(xí)是思想手段,主要就分為“有監(jiān)督學(xué)習(xí)”和“無監(jiān)督學(xué)習(xí)”??傮w來說這兩類學(xué)習(xí)手段,當(dāng)然還有衍生的棒監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)。
通俗/簡單點(diǎn)來說,有監(jiān)督學(xué)習(xí)就是訓(xùn)練用歷史數(shù)據(jù)是既有問題又有答案,而無監(jiān)督學(xué)習(xí)就是訓(xùn)練用歷史數(shù)據(jù)是只有問題沒有答案。正式的說法一般是把答案稱之為標(biāo)簽label。
在無監(jiān)督學(xué)習(xí)中,主要是發(fā)現(xiàn)數(shù)據(jù)中未知的結(jié)構(gòu)或者是趨勢(shì)。雖然原數(shù)據(jù)不含任何的標(biāo)簽,但我們希望可以對(duì)數(shù)據(jù)進(jìn)行整合(分組或者聚類),或是簡化數(shù)據(jù)(降維、移除不必要的變量或者檢測異常值)。因此無監(jiān)督算法主要的分類包含:- 聚類算法(代表:K均值聚類,系統(tǒng)聚類) - 降維算法 (代表:主成份分析PCA,線性判斷分析LDA)
我們不在這里細(xì)數(shù)這些概念,網(wǎng)上多的是。
如何選擇有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)呢?
了解以上對(duì)比后,我們?cè)谧鰯?shù)據(jù)分析時(shí),就可以高效地做選擇了。
圖3 有/無監(jiān)督學(xué)習(xí)的選擇
首先,我們看是否有訓(xùn)練數(shù)據(jù),也即是否有標(biāo)簽。沒有標(biāo)簽的直接選擇無監(jiān)督。事實(shí)上,對(duì)數(shù)據(jù)了解得越充分,模型的建立就會(huì)越準(zhǔn)確,學(xué)習(xí)需要的時(shí)間就會(huì)越短。
什么是深度學(xué)習(xí)?
深度學(xué)習(xí)的概念并不新穎。它已經(jīng)存在好幾年了。但伴隨著現(xiàn)有的所有的炒作,深度的學(xué)習(xí)越來越受到重視。我們先來看看深度學(xué)習(xí)的官方定義:
“深度學(xué)習(xí)是一種特殊的機(jī)器學(xué)習(xí),通過學(xué)習(xí)將世界使用嵌套的概念層次來表示并實(shí)現(xiàn)巨大的功能和靈活性,其中每個(gè)概念都定義為與簡單概念相關(guān)聯(lián),而更為抽象的表示則以較不抽象的方式來計(jì)算?!?/span>
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的對(duì)比
深度學(xué)習(xí)與傳統(tǒng)的機(jī)器學(xué)習(xí)最主要的區(qū)別在于隨著數(shù)據(jù)規(guī)模的增加其性能也不斷增長。
當(dāng)數(shù)據(jù)很少時(shí),深度學(xué)習(xí)算法的性能并不好。這是因?yàn)樯疃葘W(xué)習(xí)算法需要大量的數(shù)據(jù)來完美地理解它。另一方面,在這種情況下,傳統(tǒng)的機(jī)器學(xué)習(xí)算法使用制定的規(guī)則,性能會(huì)比較好。下圖總結(jié)了這一事實(shí)。
03
訓(xùn)練數(shù)據(jù)
在機(jī)器學(xué)習(xí)任務(wù)實(shí)施前,如何快速尋找到可用數(shù)據(jù)集,是令每一位研究人員最頭痛的事情。
“專知”給我們列舉了八大主流數(shù)據(jù)集來源,不僅包含大量的數(shù)據(jù)集信息,而且包含了描述、用法以及一些實(shí)施案例等。
1、Kaggle數(shù)據(jù)集
Kaggle數(shù)據(jù)集地址https://www.kaggle.com/datasets
這是我最喜歡的數(shù)據(jù)集之一,每個(gè)數(shù)據(jù)集都對(duì)應(yīng)于一個(gè)小型社區(qū),你可以在其中討論數(shù)據(jù)、查找公共代碼,或者在其中創(chuàng)建自己的項(xiàng)目。這里包含了大量不同類型、不同結(jié)構(gòu)的數(shù)據(jù)集內(nèi)容。同時(shí),還可以在其中獲取到與每個(gè)數(shù)據(jù)集關(guān)聯(lián)的資料,其中包含了許多數(shù)據(jù)科學(xué)家們提供的數(shù)據(jù)集分析筆記等。
2、Amazon數(shù)據(jù)集
AWS開放數(shù)據(jù)地址https://registry.opendata.aws/
這個(gè)數(shù)據(jù)集中包含了不同領(lǐng)域的數(shù)據(jù)內(nèi)容,例如:公共交通、生態(tài)資源、衛(wèi)星圖像等。同時(shí)提供了搜索功能,以幫助用戶找到所需的數(shù)據(jù)集,還有各種數(shù)據(jù)集的描述信息以及用例,非常易于使用。
數(shù)據(jù)集存儲(chǔ)在Amazon Web Services(AWS)資源中,對(duì)于使用AWS構(gòu)建自己機(jī)器學(xué)習(xí)實(shí)驗(yàn)的用戶來說,傳輸速度將非???。
3、UCI機(jī)器學(xué)習(xí)數(shù)據(jù)集
UCI數(shù)據(jù)集地址:https://archive.ics.uci.edu/ml/datasets.html
這個(gè)數(shù)據(jù)集來自于加州大學(xué)信息與計(jì)算機(jī)科學(xué)學(xué)院,其中包含了100多個(gè)數(shù)據(jù)集。根據(jù)機(jī)器學(xué)習(xí)問題的類型對(duì)數(shù)據(jù)集進(jìn)行分類,可找到單變量或多變量時(shí)間序列數(shù)據(jù)集,以及分類、回歸或推薦系統(tǒng)的數(shù)據(jù)集。
4、Google數(shù)據(jù)集搜索引擎
Google數(shù)據(jù)集搜索引擎https://toolbox.google.com/datasetsearch
在2018年末,Google推出了數(shù)據(jù)集搜索服務(wù)。這是一個(gè)可以按名稱搜索數(shù)據(jù)集的搜索引擎,目標(biāo)是為數(shù)萬個(gè)不同數(shù)據(jù)集存儲(chǔ)庫提供統(tǒng)一搜索入口,非常好用。
5、微軟數(shù)據(jù)集
在2018年7月,微軟與外界研究社區(qū)一起,發(fā)布了微軟研究開發(fā)數(shù)據(jù)。
微軟數(shù)據(jù)集地址:https://msropendata.com/
它包含了云服務(wù)器中的數(shù)據(jù)存儲(chǔ)庫,致力于促進(jìn)全球研究社區(qū)的協(xié)作,并在其中提供了一系列用于已發(fā)表研究的數(shù)據(jù)集內(nèi)容。
6、Awesome開放數(shù)據(jù)集收藏列表
Awesom Public Datasetshttps://github.com/awesomedata/awesome-public-datasets
本數(shù)據(jù)集列表中,按主題整理了大量的數(shù)據(jù)集內(nèi)容,例如:生物學(xué)、經(jīng)濟(jì)學(xué)、教育等。其中列出的大多數(shù)數(shù)據(jù)集都是免費(fèi)的,但在使用任何數(shù)據(jù)集之前,均需檢查數(shù)據(jù)集的許可要求。
7、政府?dāng)?shù)據(jù)集
許多國家均在網(wǎng)絡(luò)上提供了多種公眾可用的政府?dāng)?shù)據(jù)集內(nèi)容,例如:
歐洲政府?dāng)?shù)據(jù)集https://data.europa.eu/euodp/data/dataset
美國政府?dāng)?shù)據(jù)集https://www.data.gov/
新西蘭政府?dāng)?shù)據(jù)集https://catalogue.data.govt.nz/dataset
印度政府?dāng)?shù)據(jù)集https://data.gov.in/
北愛爾蘭公共數(shù)據(jù)集https://www.opendatani.gov.uk/
8、VisualData數(shù)據(jù)集
VisualData數(shù)據(jù)集https://www.visualdata.io/
視覺數(shù)據(jù)包含了一些用于構(gòu)建計(jì)算機(jī)視覺模型的優(yōu)秀數(shù)據(jù)集,用戶可通過某個(gè)CV主題查詢,例如語義分割、圖像標(biāo)題、圖像生成、自動(dòng)駕駛汽車等內(nèi)容。
04
華云數(shù)創(chuàng)
集多年的多行業(yè)項(xiàng)目實(shí)踐
強(qiáng)大的專家團(tuán)隊(duì)
除了找到特定的數(shù)據(jù)集來解決各種機(jī)器學(xué)習(xí)是一個(gè)難點(diǎn)外,相信從業(yè)者的你們還有類似于:
如何針對(duì)業(yè)務(wù)特點(diǎn)進(jìn)行技術(shù)選型?
大數(shù)據(jù)平臺(tái)的如何從數(shù)據(jù)存儲(chǔ)轉(zhuǎn)變?yōu)閿?shù)據(jù)價(jià)值?
數(shù)據(jù)治理如何能創(chuàng)造價(jià)值?
如何從0到1構(gòu)建機(jī)器學(xué)習(xí)平臺(tái)?
如何對(duì)平臺(tái)進(jìn)行持續(xù)迭代優(yōu)化?
在政府、電力、金融、公共事業(yè)、公安、交通、企業(yè)應(yīng)用中的實(shí)踐如何?
在此實(shí)踐過程中又會(huì)踩哪些坑?
我們?nèi)绾文苷驹诰奕说募绨蛏细俑旄叩慕桓俄?xiàng)目?
華云數(shù)創(chuàng)開放的合作體系“銷盟”如何促進(jìn)各方的合作?
......
等等問題。
那么不妨來華云數(shù)創(chuàng)(北京)科技有限公司來坐坐,喝杯茶,一起找找思路、解決方案或者合作。
如果您喜歡此篇文章,記得發(fā)到朋友圈哦!分享智慧,好運(yùn)常伴您!
加入“銷盟”吧,有料的“ICT銷售和大客戶聯(lián)盟”(微信ID:ICT-League)讓我們走的更快,看的更高,做的更好。
Help You Do Different!
結(jié)識(shí)同行、洞悉商機(jī)、掌握技術(shù)和時(shí)訊
華云數(shù)創(chuàng)(北京)科技有限公司
www.chinaclouddata.com.cn
注意啦,現(xiàn)在
IT圈最有料的“ICT銷售和大客戶聯(lián)盟”(微信ID:ICT-League)
絕對(duì)讓你站在IT鄙視鏈的頂端
分享是一種美德,轉(zhuǎn)載請(qǐng)注明來源和出處!
聯(lián)系客服