你想了解的有關(guān)計(jì)算機(jī)視覺的所有信息。
計(jì)算機(jī)視覺是最強(qiáng)大和引人注目的AI之一,你幾乎肯定會(huì)以各種方式體驗(yàn)過它,當(dāng)時(shí)卻不知道。 今天我們來好好研究一下它,包括它的工作原理以及它如此出色的原因(而且只會(huì)變得越來越好)。
計(jì)算機(jī)視覺屬于計(jì)算機(jī)科學(xué)領(lǐng)域,其重點(diǎn)是復(fù)制一部分人類視覺系統(tǒng)的復(fù)雜性,并使計(jì)算機(jī)能夠以與人類相同的方式識別和處理圖像和視頻中的對象。 直到目前,計(jì)算機(jī)視覺仍然以有限的能力發(fā)揮著作用。得益于人工智能的進(jìn)步以及深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的創(chuàng)新,該領(lǐng)域近年來取得了長足的飛躍,并且在與檢測和標(biāo)記物體有關(guān)的某些任務(wù)中已經(jīng)超越人類。
計(jì)算機(jī)視覺增長背后的驅(qū)動(dòng)因素之一是我們今天生成的數(shù)據(jù)量,這些數(shù)據(jù)隨后被用來訓(xùn)練和改善計(jì)算機(jī)視覺。伴隨著大量的可視數(shù)據(jù)(每天在線共享30億張圖像),現(xiàn)在可以訪問分析數(shù)據(jù)所需的計(jì)算能力。 隨著計(jì)算機(jī)視覺領(lǐng)域的發(fā)展、新硬件和算法的進(jìn)步,物體識別的準(zhǔn)確率也隨之提高。 在不到十年的時(shí)間里,當(dāng)今的系統(tǒng)已從50%的精度達(dá)到了99%的精度,使它們在對視覺輸入做出快速反應(yīng)時(shí)比人類更準(zhǔn)確。
早期的計(jì)算機(jī)視覺實(shí)驗(yàn)始于1950年代,到1970年代首次在商業(yè)上用于區(qū)分打字文本和手寫文本,如今計(jì)算機(jī)視覺的應(yīng)用呈指數(shù)增長。到2022年,計(jì)算機(jī)視覺和硬件市場預(yù)計(jì)將達(dá)到486億美元。
一、計(jì)算機(jī)視覺如何工作?
神經(jīng)科學(xué)和機(jī)器學(xué)習(xí)中的主要開放問題之一是:我們的大腦究竟如何工作,如何用我們自己的算法更加接近它? 現(xiàn)實(shí)情況是,目前缺少全面有效的大腦計(jì)算理論。 因此,盡管事實(shí)上神經(jīng)網(wǎng)絡(luò)應(yīng)該“模仿大腦的運(yùn)作方式”,但沒人能確定這是否真的成立。同樣的悖論在計(jì)算機(jī)視覺中也適用。由于我們尚未決定大腦和眼睛如何處理圖像,因此很難說生產(chǎn)中使用的算法能很好地逼近我們內(nèi)部的心理過程。
在某種程度上,計(jì)算機(jī)視覺與模式識別有關(guān)。因此,訓(xùn)練計(jì)算機(jī)如何理解視覺數(shù)據(jù)的一種方法是,將大量的圖像-成千上萬個(gè)圖像(如果可能的話)、已標(biāo)記的圖像饋送給它,然后使它們經(jīng)受各種允許計(jì)算機(jī)追蹤的軟件技術(shù)或算法,找到與這些標(biāo)簽相關(guān)的所有元素中的圖案。
因此,如果你向計(jì)算機(jī)喂入一百萬張貓的圖像,它將使它們?nèi)渴芩惴ㄓ绊懀瑥亩顾鼈兡軌蚍治稣掌械念伾?,形狀,形狀之間的距離,物體彼此相鄰的位置等等,以便可以識別“貓”的含義。完成后,如果再投放其他未標(biāo)記的圖像來查找屬于貓的圖像,則計(jì)算機(jī)(理論上)將能夠利用其經(jīng)驗(yàn)。
一幅圖像需要大量內(nèi)存,而算法要迭代需要很多像素。但是,要以有意義的精度訓(xùn)練模型,尤其是在你談?wù)撋疃葘W(xué)習(xí)時(shí),通常需要成千上萬張圖像,并且更多。
二、計(jì)算機(jī)視覺的演變
在深度學(xué)習(xí)出現(xiàn)之前,計(jì)算機(jī)視覺可以執(zhí)行的任務(wù)非常有限,并且需要開發(fā)人員和人工操作人員進(jìn)行大量的手工編碼和工作。例如,如果要執(zhí)行面部識別,則必須執(zhí)行以下步驟:
創(chuàng)建數(shù)據(jù)庫:你必須以特定格式捕獲要跟蹤的所有主題的單個(gè)圖像。
注釋圖像:然后,對于每個(gè)單獨(dú)的圖像,你都必須輸入幾個(gè)關(guān)鍵數(shù)據(jù)點(diǎn),例如眼睛之間的距離,鼻梁的寬度,上唇和鼻子之間的距離以及數(shù)十種定義獨(dú)特特征的其他度量每個(gè)人。
捕獲新圖像:接下來,你必須捕獲新圖像,無論是照片還是視頻內(nèi)容。然后,你必須再次執(zhí)行測量過程,在圖像上標(biāo)記關(guān)鍵點(diǎn)。你還必須考慮拍攝圖像的角度。
經(jīng)過所有這些手動(dòng)工作,應(yīng)用程序最終將能夠?qū)⑿聢D像中的測量結(jié)果與數(shù)據(jù)庫中存儲(chǔ)的測量結(jié)果進(jìn)行比較,并告訴你它是否與它正在跟蹤的任何配置文件相對應(yīng)。實(shí)際上,涉及的自動(dòng)化很少,大部分工作都是手動(dòng)完成的。而且誤差幅度仍然很大。
機(jī)器學(xué)習(xí)提供了解決計(jì)算機(jī)視覺問題的另一種方法。通過機(jī)器學(xué)習(xí),開發(fā)人員不再需要將每個(gè)規(guī)則手動(dòng)編碼到他們的視覺應(yīng)用程序中。相反,他們編寫了“功能”,這些較小的應(yīng)用程序可以檢測圖像中的特定圖案。然后,他們使用統(tǒng)計(jì)學(xué)習(xí)算法(例如線性回歸,邏輯回歸,決策樹或支持向量機(jī)(SVM))來檢測模式,對圖像進(jìn)行分類并檢測其中的對象。
機(jī)器學(xué)習(xí)幫助解決了許多傳統(tǒng)軟件開發(fā)工具和方法歷來具有挑戰(zhàn)性的問題。例如,幾年前,機(jī)器學(xué)習(xí)工程師能夠創(chuàng)建一種可以比人類專家更好地預(yù)測乳腺癌生存期的軟件。但是,構(gòu)建軟件的功能需要數(shù)十名工程師和乳腺癌專家的努力,并且花費(fèi)了大量的時(shí)間進(jìn)行開發(fā)。
深度學(xué)習(xí)為進(jìn)行機(jī)器學(xué)習(xí)提供了根本不同的方法。深度學(xué)習(xí)依賴于神經(jīng)網(wǎng)絡(luò),這是一種通用功能,可以解決通過示例表示的任何問題。當(dāng)你為神經(jīng)網(wǎng)絡(luò)提供特定類型數(shù)據(jù)的許多帶標(biāo)簽的示例時(shí),它將能夠提取這些示例之間的常見模式并將其轉(zhuǎn)換為數(shù)學(xué)方程式,從而有助于對將來的信息進(jìn)行分類。
例如,使用深度學(xué)習(xí)創(chuàng)建面部識別應(yīng)用程序只需要你開發(fā)或選擇一種預(yù)先構(gòu)建的算法,然后使用必須檢測的人臉示例對其進(jìn)行訓(xùn)練。給定足夠的示例(大量示例),神經(jīng)網(wǎng)絡(luò)將能夠檢測面部,而無需進(jìn)一步說明特征或測量。
深度學(xué)習(xí)是進(jìn)行計(jì)算機(jī)視覺的一種非常有效的方法。在大多數(shù)情況下,創(chuàng)建良好的深度學(xué)習(xí)算法歸結(jié)為收集大量帶標(biāo)簽的訓(xùn)練數(shù)據(jù)并調(diào)整參數(shù),例如神經(jīng)網(wǎng)絡(luò)和訓(xùn)練時(shí)期的類型和層數(shù)。與以前的機(jī)器學(xué)習(xí)類型相比,深度學(xué)習(xí)的開發(fā)和部署既簡單又快速。
當(dāng)前大多數(shù)計(jì)算機(jī)視覺應(yīng)用程序(例如癌癥檢測,自動(dòng)駕駛汽車和面部識別)都利用深度學(xué)習(xí)。由于可用性以及硬件和云計(jì)算資源的進(jìn)步,深度學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)已從概念領(lǐng)域轉(zhuǎn)變?yōu)閷?shí)際應(yīng)用。
三、解密圖像需要多長時(shí)間
總之,耗費(fèi)的時(shí)間不多。這就是為什么計(jì)算機(jī)視覺如此令人興奮的關(guān)鍵:在過去,即使是超級計(jì)算機(jī)也可能需要數(shù)天、數(shù)周甚至數(shù)月的時(shí)間才能完成所有所需的計(jì)算,而當(dāng)今的超高速芯片和相關(guān)硬件以及快速可靠的互聯(lián)網(wǎng)和云網(wǎng)絡(luò),使計(jì)算過程如閃電般快速。許多從事AI研究的大公司愿意共享他們的工作,比如Google,IBM和Microsoft,特別是通過開源一些他們的機(jī)器學(xué)習(xí)。
這樣一來,其他人就可以繼續(xù)工作,而不是從頭開始。因此人工智能行業(yè)正在不斷發(fā)展,不久前進(jìn)行的實(shí)驗(yàn)需要花費(fèi)數(shù)周的時(shí)間才能運(yùn)行,而今天的實(shí)驗(yàn)可能需要15分鐘。對于計(jì)算機(jī)視覺的許多實(shí)際應(yīng)用,此過程都在幾微秒內(nèi)連續(xù)發(fā)生,因此當(dāng)今的計(jì)算機(jī)能夠成為科學(xué)家所謂的“情境感知”。
四、計(jì)算機(jī)視覺的應(yīng)用
計(jì)算機(jī)視覺是機(jī)器學(xué)習(xí)的領(lǐng)域之一,核心概念已被集成到我們每天使用的主要產(chǎn)品中。
1)無人駕駛汽車
并非只有科技公司在圖像應(yīng)用中利用機(jī)器學(xué)習(xí)。計(jì)算機(jī)視覺使無人駕駛汽車能夠感知周圍環(huán)境。攝像頭從汽車周圍的不同角度捕獲視頻,并將其提供給計(jì)算機(jī)視覺軟件,然后該軟件會(huì)實(shí)時(shí)處理圖像,以查找道路的末端,讀取交通標(biāo)志,檢測其他汽車,物體和行人。然后,自動(dòng)駕駛汽車可以在街道和高速公路上駕駛,避免撞到障礙物,并(希望)安全地將其乘客送至目的地。
2)面部識別
計(jì)算機(jī)視覺在面部識別應(yīng)用程序中也起著重要作用,該技術(shù)使計(jì)算機(jī)能夠?qū)⑷藗兊拿娌繄D像與他們的身份進(jìn)行匹配。計(jì)算機(jī)視覺算法檢測圖像中的面部特征并將其與面部輪廓數(shù)據(jù)庫進(jìn)行比較。消費(fèi)類設(shè)備使用面部識別來驗(yàn)證其所有者的身份。社交媒體應(yīng)用程序使用面部識別來檢測和標(biāo)記用戶。執(zhí)法機(jī)構(gòu)還依靠面部識別技術(shù)來識別視頻源中的罪犯。
3)增強(qiáng)現(xiàn)實(shí)和混合現(xiàn)實(shí)
計(jì)算機(jī)視覺在增強(qiáng)和混合現(xiàn)實(shí)中也起著重要作用,該技術(shù)使智能手機(jī),平板電腦和智能眼鏡等計(jì)算設(shè)備能夠?qū)⑻摂M對象疊加并嵌入到現(xiàn)實(shí)世界的圖像中。利用計(jì)算機(jī)視覺,AR設(shè)備可以檢測現(xiàn)實(shí)世界中的物體,從而確定設(shè)備顯示屏上放置虛擬物體的位置。例如,計(jì)算機(jī)視覺算法可以幫助AR應(yīng)用程序檢測諸如桌面,墻壁和地板之類的平面,這是確定深度和尺寸并將虛擬對象放置在物理世界中的重要組成部分。
4)醫(yī)療健康
計(jì)算機(jī)視覺也是健康技術(shù)進(jìn)步的重要組成部分。計(jì)算機(jī)視覺算法可以幫助自動(dòng)化任務(wù),例如檢測皮膚圖像中的癌痣或在X射線和MRI掃描中發(fā)現(xiàn)癥狀。
五、計(jì)算機(jī)視覺的挑戰(zhàn)
幫助計(jì)算機(jī)去“看”非常困難。發(fā)明一臺(tái)看起來像我們一樣的機(jī)器是一項(xiàng)看似困難的任務(wù),這不僅是因?yàn)楹茈y使計(jì)算機(jī)做到這一點(diǎn),而且還因?yàn)槲覀儾荒芡耆_定人類視覺的工作原理。
研究生物視覺需要理解諸如眼睛的感知器官,以及對大腦內(nèi)部感知的解釋。在繪制流程圖和發(fā)現(xiàn)系統(tǒng)使用的技巧和捷徑方面都取得了很大的進(jìn)步,盡管與涉及大腦的任何研究一樣,還有很長的路要走。
六、計(jì)算機(jī)視覺的一些專業(yè)術(shù)語。例如:
Object Classification 物體分類 :這張照片中物體的大致類別是什么?
Object Identification 物體辨別 :照片中給定物體的類型是什么?
Object Verification 物體驗(yàn)證 :照片中是否有物體?
Object Detection 物體檢測 :照片中的物體在哪里?
Object Landmark Detection 物體位置檢測 :照片中物體的關(guān)鍵點(diǎn)是什么?
Object Segmentation 對象分割 :圖像中的對象屬于哪些像素?
Object Recognition 物體識別 :這張照片中有哪些物體,它們在哪里?
除了公正的認(rèn)識之外,其他分析方法還包括:
視頻運(yùn)動(dòng)分析使用計(jì)算機(jī)視覺來估計(jì)視頻中對象或攝像機(jī)本身的速度。
在圖像分割中,算法將圖像劃分為多組視圖。
場景重建可創(chuàng)建通過圖像或視頻輸入的場景的3D模型。
在圖像還原中,使用基于機(jī)器學(xué)習(xí)的濾鏡從照片中消除了諸如模糊之類的噪點(diǎn)。
任何其他通過軟件了解像素的應(yīng)用程序都可以安全地標(biāo)記為計(jì)算機(jī)視覺。
小結(jié)
盡管最近取得了令人印象深刻的進(jìn)步,但我們甚至還沒有解決計(jì)算機(jī)視覺問題。
在人工智能愈發(fā)熱門的大背景下,學(xué)習(xí)、體驗(yàn)新技術(shù)的需求也日漸增多。學(xué)以致用才能真正掌握一門技術(shù)。化繁為簡,簡單3步,只需5分鐘。
說到計(jì)算機(jī)視覺,鈦靈 AIX是一款集計(jì)算機(jī)視覺與智能語音交互兩大核心功能為一體的人工智能“超級大腦”,搭載 Intel 專業(yè)級 AI 加速運(yùn)算芯片與多種傳感技術(shù)。它支持邊緣深度學(xué)習(xí),搭配 Model Play 人工智能模型共享平臺(tái),開發(fā)者可以輕松將 AI 模型移植到程序中開發(fā)應(yīng)用。
聯(lián)系客服