九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
新手初入人工智能(圖像處理方向),我該向什么方向發(fā)展?

計(jì)算機(jī)視覺方向目前主要有幾大方向比較熱門,我下面將分別從他們的發(fā)展過程與現(xiàn)狀以及怎么入門學(xué)習(xí)來進(jìn)行介紹。首先,計(jì)算機(jī)視覺的主要方向有:

  1. 圖像分類
  2. 人臉識別
  3. 目標(biāo)檢測
  4. 圖像分割
  5. 關(guān)鍵點(diǎn)檢測
  6. 文字識別OCR

編程與數(shù)學(xué)基礎(chǔ)

首先,人工智能畢竟是一個(gè)計(jì)算機(jī)學(xué)科,需要具備基本的編程功底與數(shù)學(xué)能力。具體來說,編程方面,需要熟悉Python編程,熟悉Numpy,Pandas,Opencv等庫的使用,同時(shí)還得熟悉某個(gè)深度學(xué)習(xí)框架的使用,比如TensorFlow,Keras,PyTorch,Caffe等。以上這些是必須具備的,如果能再有點(diǎn)C++,Java方面的基礎(chǔ)就更好了。數(shù)學(xué)方面,肯定需要對大學(xué)的數(shù)學(xué)知識有一定的了解,比如求導(dǎo)與積分,偏導(dǎo)數(shù),梯度下降之類的高數(shù)知識,以及線代和概率與統(tǒng)計(jì)等知識。如果對這方面知識不太熟悉,建議從課本上好好學(xué)學(xué),當(dāng)然也可以通過如下圖所示的深度學(xué)習(xí)圣經(jīng)即'花書'的前幾章來學(xué)習(xí)。


圖像分類

圖像分類是一個(gè)計(jì)算機(jī)視覺的經(jīng)典方向。深度學(xué)習(xí)的火爆最早是因?yàn)镠inton帶領(lǐng)他的學(xué)生使用深度神經(jīng)網(wǎng)絡(luò)參加了ImageNet大賽,其最后成績遠(yuǎn)超使用傳統(tǒng)方法的第二名一大截。由此引發(fā)了最近幾年越來越熱門的深度學(xué)習(xí)研究,在2012年及以后,在ImageNet比賽上出現(xiàn)了更多的網(wǎng)絡(luò)結(jié)構(gòu),從最開始的AlexNet,到VggNet,GoogleNet,Inception,RestNet,Inception-ResNet-v1~3,Xception等。每次新的網(wǎng)絡(luò)的出現(xiàn)都讓正確率上升了一大截,可以說ImageNet比賽推動了整個(gè)計(jì)算機(jī)視覺的發(fā)展。


但是ImageNet的數(shù)據(jù)集太大,不太適合我們?nèi)腴T圖像分類。我們可以使用mnist數(shù)據(jù)集,或者CIFAR-10數(shù)據(jù)集(如上圖所示).CIFAR-10 數(shù)據(jù)集有 60000 張圖片,每張圖片均為分辨率為 32*32 的彩色圖片(分為 RGB3 個(gè)信道)。CIFAR-10 的分類任務(wù)是將每張圖片分成青蛙、卡車、飛機(jī)等 10 個(gè)類別中的一個(gè)類別。具體關(guān)于CIFAR-10的詳細(xì)介紹以及實(shí)例代碼,大家可以關(guān)注我頭條號置頂?shù)哪瞧恼?

人臉識別

人臉識別在引入深度學(xué)習(xí)之前主要使用PCA降維后進(jìn)行分類,在引入深度學(xué)習(xí)之后,采用了CNN來提取特征,然后使用SVM之類的分類器進(jìn)行分類,但是本質(zhì)上還是一個(gè)分類,需要提前錄入人臉數(shù)據(jù)進(jìn)行訓(xùn)練.直到FaceNet出現(xiàn)之后, 論文中提出了一種叫做triplet 的損失函數(shù),主要目標(biāo)是減低類內(nèi)(同一個(gè)人)的距離,增加類間(不同的人)的距離.由此將原本的分類問題轉(zhuǎn)變?yōu)榱艘粋€(gè)距離度量問題,是人臉識別變成了一個(gè)開放的問題,可以隨時(shí)送入兩張沒有參與訓(xùn)練過的人臉圖片提取特征向量,然后通過比較這兩個(gè)向量的距離來判斷相似性.



后來又出現(xiàn)了各種各樣的loss, 有些已經(jīng)達(dá)到了目前state-of-art的效果,我在這里只是羅列下,具體各位可以關(guān)注我,后面我會推出人臉識別綜述,與各種損失函數(shù)總結(jié)。目前損失函數(shù)主要有:

  1. centerLoss
  2. contrastiveLoss
  3. rangeLoss
  4. large-margin
  5. l2-norm
  6. AM-softmax
  7. CosFace
  8. ArcFace

大家如果想要入門的話,可以先下載一下lfw數(shù)據(jù)集,然后用TensorFlow實(shí)踐一下經(jīng)典的算法.

目標(biāo)檢測與圖像分割

目標(biāo)檢測的任務(wù)是從一個(gè)復(fù)雜場景的圖像中找到不同的物體,并且給出各個(gè)物體的邊界框。圖像檢測的三個(gè)著名的數(shù)據(jù)集是PASCAL VOC,ImageNet和微軟COCO. PASCAL VOC包含20個(gè)物體的類別,而ImageNet包含一千多種物體類別,COCO有80中物體類別和150萬個(gè)物體實(shí)例。


自從2012年的ILSVRC競賽中基于CNN的方法一鳴驚人之后,CNN已成為圖像分類、檢測和分割的神器。其中在圖像檢測的任務(wù)中,R-CNN系列是一套經(jīng)典的方法,從最初的R-CNN到后來的Fast R-CNN, Faster R-CNN 和今年的Mask R-CNN, 我們可以看到CNN在圖像檢測中是如何一點(diǎn)一點(diǎn)提高的。還有就是采用一步到位的檢測算法的SSD與YOLO系列算法.這些算法的詳細(xì)介紹,大家可以關(guān)注我頭條號之前發(fā)布的文章.

R-CNN 系列的四篇文章如下:

  1. R-CNN: https://arxiv.org/abs/1311.2524
  2. Fast R-CNN: https://arxiv.org/abs/1504.08083
  3. Faster R-CNN: https://arxiv.org/abs/1506.01497
  4. Mask R-CNN: https://arxiv.org/abs/1703.06870

關(guān)鍵點(diǎn)檢測

人體骨骼關(guān)鍵點(diǎn)對于描述人體姿態(tài),預(yù)測人體行為至關(guān)重要。因此人體骨骼關(guān)鍵點(diǎn)檢測是諸多計(jì)算機(jī)視覺任務(wù)的基礎(chǔ),例如動作分類,異常行為檢測,以及自動駕駛等等。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,人體骨骼關(guān)鍵點(diǎn)檢測效果不斷提升,已經(jīng)開始廣泛應(yīng)用于計(jì)算機(jī)視覺的相關(guān)領(lǐng)域。本文主要介紹2D人體骨骼關(guān)鍵點(diǎn)的基本概念和相關(guān)算法,其中算法部分著重介紹基于深度學(xué)習(xí)的人體骨骼關(guān)鍵點(diǎn)檢測算法的兩個(gè)方向,即自上而下(Top-Down)的檢測方法和自下而上(Bottom-Up)的檢測方法。相應(yīng)算法的詳細(xì)介紹大家可以關(guān)注我頭條號之前發(fā)布的文章.


文字識別OCR

OCR(Optical Character Recognition, 光學(xué)字符識別)傳統(tǒng)上指對輸入掃描文檔圖像進(jìn)行分析處理,識別出圖像中文字信息。場景文字識別(Scene Text Recognition,STR) 指識別自然場景圖片中的文字信息。我這里主要介紹難度更大的場景文字識別的發(fā)展.自然場景圖像中的文字識別,其難度遠(yuǎn)大于掃描文檔圖像中的文字識別,因?yàn)樗奈淖终宫F(xiàn)形式極其豐富:

  • ·允許多種語言文本混合,字符可以有不同的大小、字體、顏色、亮度、對比度等。

  • ·文本行可能有橫向、豎向、彎曲、旋轉(zhuǎn)、扭曲等式樣。

  • ·圖像中的文字區(qū)域還可能會產(chǎn)生變形(透視、仿射變換)、殘缺、模糊等現(xiàn)象。

  • ·自然場景圖像的背景極其多樣。如文字可以出現(xiàn)在平面、曲面或折皺面上;

  • 文字區(qū)域附近有復(fù)雜的干擾紋理、或者非文字區(qū)域有近似文字的紋理,比如沙地、草叢、柵欄、磚墻等。


文字識別其實(shí)主要包含兩個(gè)步驟, 文字檢測與文字識別, 但是近年來也有出現(xiàn)了以CRNN(具體可以關(guān)注華中科大白翔老師的研究)為代表的一步到位的端到端的識別模型,效果也還不錯(cuò).文本檢測工作目前可以大致分為三類:
  • 一是基于分割的思想,通過分割網(wǎng)絡(luò)提取文本區(qū)域,然后采取一些后處理方法獲取邊界框。代表性的工作是發(fā)表在CVPR2016的“Multi-oriented text detection with fully convolutional networks”;

  • 二是基于候選框的思想,直接用一個(gè)神經(jīng)網(wǎng)絡(luò)來檢測文本邊界框。代表性的工作是發(fā)表在CVPR2016的“Synthetic data for text localization in natural images”;

  • 三是混合思想,它采用多任務(wù)學(xué)習(xí)的框架,結(jié)合了分割和邊界框檢測的方法。代表性的工作是發(fā)表在ICCV2017的“Deep Direct Regression for Multi-Oriented Scene Text Detection”。

而文字識別大致分為兩類思路:其一是從單詞或字符層面入手,設(shè)計(jì)單詞分類器或字符分類器,將每一個(gè)單詞或字符作為一類目標(biāo),進(jìn)行多類別分類任務(wù)。

而近來循環(huán)神經(jīng)網(wǎng)絡(luò)大放異彩,它可以將文本識別看作一個(gè)序列標(biāo)簽問題,并能夠直接輸出標(biāo)簽序列。因此,第二種思路從序列層面入手,將文本看作一個(gè)字符序列,通過設(shè)計(jì)序列特征提取器,結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和CTC模型,將文本序列作為一個(gè)整體進(jìn)行識別。

目前OCR方面比較經(jīng)典的算法有CTPN,RRPN,DMPNet,SegLink,TextBoxes,FTSN,WordSup等, 具體可以關(guān)注我頭條號,我后面會推出詳細(xì)介紹.

總結(jié)

以上內(nèi)容總結(jié)了目前計(jì)算機(jī)視覺方向比較流行的方向,以及一些經(jīng)典的算法.能力有限,難免有總結(jié)的不到位地方,歡迎指正.最后,歡迎大家關(guān)注我的頭條號,會有大量深度學(xué)習(xí)相關(guān)資源不間斷放送.

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
改變你對世界看法的五大計(jì)算機(jī)視覺技術(shù)!
計(jì)算機(jī)視覺領(lǐng)域必知的開放數(shù)據(jù)集
Excel狂魔?單元格做計(jì)算機(jī)視覺:人臉檢測、OCR都不在話下
光學(xué)字符識別技術(shù):讓電腦像人一樣閱讀
三年磨一劍——微信OCR輕松提取圖片文字
【華為云技術(shù)分享】傳統(tǒng)OCR識別綜述
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服