慧聰安防網(wǎng)訊 還記得孩提時(shí)代,你是如何開(kāi)始學(xué)習(xí)辨認(rèn)水果、動(dòng)物、汽車以及其他事物的嗎?
多年來(lái),我們的大腦接受訓(xùn)練,識(shí)別這些圖像,然后將它們進(jìn)一步劃分為蘋果、桔子、香蕉、貓、狗和馬。除了學(xué)習(xí)辨認(rèn)食物和動(dòng)物,我們還學(xué)習(xí)了品牌和它們的區(qū)別:豐田、本田、寶馬等等。
受人類大腦的生物學(xué)習(xí)過(guò)程的啟發(fā),科學(xué)家們研究出了人工神經(jīng)網(wǎng)絡(luò)(ANN)?!?span>深度學(xué)習(xí)”指的是由許多層網(wǎng)絡(luò)層組成的人工神經(jīng)網(wǎng)絡(luò)。它是機(jī)器學(xué)習(xí)中發(fā)展最快的領(lǐng)域。它使用包括多層網(wǎng)絡(luò)層的深層神經(jīng)網(wǎng)絡(luò)(DNN)來(lái)學(xué)習(xí)表征和抽象,從而理解圖像、聲音和文本等數(shù)據(jù)。
那么深度神經(jīng)網(wǎng)絡(luò)到底深到什么程度呢?
為什么深度學(xué)習(xí)被稱為“深度”學(xué)習(xí)?這是因?yàn)檫@些ANN網(wǎng)絡(luò)的結(jié)構(gòu)。幾十年前,神經(jīng)網(wǎng)絡(luò)的深度只有兩層,這是因?yàn)橛?jì)算能力不足,無(wú)法構(gòu)建更大的網(wǎng)絡(luò)。而現(xiàn)在,10層以上或者100層以上的神經(jīng)網(wǎng)絡(luò)都是存在的。
在深度學(xué)習(xí)中使用多層網(wǎng)絡(luò)層,機(jī)器現(xiàn)在有能力去觀察、學(xué)習(xí)和應(yīng)對(duì)復(fù)雜的情況,有時(shí)甚至比人類做的更好。
通常情況下,數(shù)據(jù)科學(xué)家會(huì)花大量的時(shí)間在數(shù)據(jù)的準(zhǔn)備過(guò)程上,特征提取或變量選擇(選擇對(duì)預(yù)測(cè)分析有用的變量)。深度學(xué)習(xí)能自動(dòng)完成這項(xiàng)工作,讓生活更輕松。
為了促進(jìn)深度學(xué)習(xí)的發(fā)展,許多科技公司開(kāi)放了他們的深度學(xué)習(xí)研究資源,比如谷歌的Tensorflow和Facebook的開(kāi)源模塊Torch。亞馬遜在GitHub上發(fā)布了DSSTNE,而微軟也在GitHub上發(fā)布了其開(kāi)源深度學(xué)習(xí)工具包CNTK。
因此,今天我們看到了很多關(guān)于深度學(xué)習(xí)的例子,包括:
谷歌翻譯使用深度學(xué)習(xí)和圖像識(shí)別來(lái)翻譯語(yǔ)音和書面語(yǔ)言
CamFind使用移動(dòng)視覺(jué)搜索技術(shù)來(lái)告訴你圖片中的內(nèi)容,你只需拍下物體的圖片,無(wú)需打字,CamFind提供了快速、準(zhǔn)確的結(jié)果。
目前,Siri、Cortana、Alexa和Google等所有的智能語(yǔ)音助手都在使用深度學(xué)習(xí)來(lái)進(jìn)行自然語(yǔ)言處理和語(yǔ)音識(shí)別。
亞馬遜、Netflix和Spotify在他們的推薦引擎中也使用了深度學(xué)習(xí),機(jī)器為你推薦為下一部最佳影片、電影或音樂(lè)。
谷歌PlaNet可以查看照片,并告訴用戶照片拍攝的地點(diǎn)。
DCGAN用于增強(qiáng)和補(bǔ)充人臉圖像。
DeepStereo:將街景拍攝的靜態(tài)圖像轉(zhuǎn)換為3D空間,通過(guò)計(jì)算每個(gè)像素的深度和顏色,可以從不同的角度顯示出不同的視角。
DeepMind的WaveNet能夠模仿人類聲音來(lái)生成語(yǔ)音,且生成的語(yǔ)音比現(xiàn)有的文本語(yǔ)音轉(zhuǎn)換系統(tǒng)更自然。
Paypal正在利用深度學(xué)習(xí)來(lái)防止支付詐騙。
到目前為止,深度學(xué)習(xí)幫助了圖像分類、語(yǔ)言翻譯、語(yǔ)音識(shí)別,并且可以用來(lái)解決模式識(shí)別問(wèn)題。毫無(wú)疑問(wèn),這是一種顛覆性的數(shù)字技術(shù),越來(lái)越多的公司正在使用這種技術(shù)來(lái)創(chuàng)造新的商業(yè)模式。聯(lián)系客服