盛開互動CEO 曾祥永
我們現(xiàn)在已經實現(xiàn)了讓機器人可以自主行走,它可以對空間進行地圖的構建,以及自主規(guī)劃路徑行走,但能否更進一步,讓機器人也能對物體進行識別呢?
現(xiàn)在國內也有不少企業(yè)已經在進行這方面技術的研究與落地,讓機器人能夠識別物體,如杯子、貓等,需要進行大量的圖片識別訓練,才能讓機器人具備識別物體的能力。
北京盛開互動科技有限公司(以下簡稱:盛開互動)這兩年來一直在進行圖像識別的技術研發(fā),目前已經有一定的進展,盛開互動CEO曾祥永說:“從今年5月推出SKEye平臺以來,目前已有30多家機器人等企業(yè)接入平臺,SKEye的目的就是讓智能產品能夠識別物體?!?/p>
當然,我們現(xiàn)在沒有辦法讓機器人識別所有的物體,因為這是大工程,但現(xiàn)在SKEye能夠識別2000類物品,開啟讓機器人能夠識別物體的大門。
1號機器人網記者:可否介紹一下,你們的SKEye產品,看你們官網的介紹是可以識別物體,請你詳細介紹一下這款產品?
曾祥永:
SKEye能夠識別2000種家用常見物品
SKEye是我們推出的一個深度學習視覺識別技術開放平臺,主要面向智能手機、智能硬件、智能機器人等消費級與服務型智能交互設備及場景,提供離線人臉識別與在線物體識別,賦予人機交互設備“認人識物”的終端視覺能力。
比如:服務機器人接入SKEye平臺,可以讓機器人具備認知物體的能力。如識別杯子、沙發(fā)、水果等常見的物體。
就計算機視覺技術而言,安防監(jiān)控、智能駕駛、金融身份認證及醫(yī)療圖像識別屬于嚴肅性應用領域,識別的目的是“確認”,為了識別準確率可以不惜計算代價與硬件成本;而SKEye關注的是“交互”,尤其是嵌入式設備的視覺交互,非??臁⒆銐驕?、低功耗是SKEye的核心目標。
深度學習大幅提升了算法的識別率、穩(wěn)定性,但它一般需要高性能CPU或GPU才能流暢運行,這又是弱計算能力終端設備無法滿足的,SKEye應用了我們自主研發(fā)的被充分優(yōu)化與裁剪的深度CNN模型,保障在達到足夠精度的條件下,盡可能滿足人機交互的實時性與低功耗需求。
自2017年5月推出以來,SKEye已有30余款智能機器人、智能手機等應用接入。包括:康力優(yōu)藍的小優(yōu)機器人、銳曼的曉曼機器人、智能管家的布丁豆豆機器人、上海元趣的好兒優(yōu)機器人等。
1號機器人網記者:讓機器人能夠識別物體,對機器人企業(yè)來說非常有吸引力,你們是通過什么方式進行研究的?目前能夠識別多少種物體?
曾祥永:我們做常見物品識別的初衷是希望智能產品具有像人一樣的視覺常識。目前SKEye可識別的常見物品超過了2000類,實際應用中的TOP1準確率達到了85%。
大概在四年前,我們就開始考慮如何利用深度學習實現(xiàn)家庭場景中的常見物品識別,為此,我們自己先列出了一個常見物品列表,如:家具家電、服飾玩具、蔬果食品及動植物等。
最初,我們通過互聯(lián)網下載收集這些物品的圖片,并清洗標注為樣本,通過卷積神經網絡分類算法訓練識別模型,之后再通過在線API接口授權給智能硬件、智能機器人及手機APP使用。
我們不斷獲得了新數(shù)據(jù),從中我們篩選出部分數(shù)據(jù)作為新樣本,然后迭代訓練識別模型并更新物品列表。
下一步,我們也將為離線應用場景提供“云端訓練+終端執(zhí)行”的物體識別SDK。
1號機器人網記者:人臉識別、人臉分析、物體識別,這幾項技術用的是同一個攝像頭嗎?如果把這幾項技術融合在一起使用,所涉及到技術難度是什么?
曾祥永:這幾項技術是用同一個攝像頭,也可以對同一幀圖像做分析處理。
但融合使用的難度在于要從整個交互邏輯上實現(xiàn)精度、速度、及功耗的平衡,尤其基于ARM-CPU等嵌入式弱計算能力設備上的融合使用。
人臉識別在實際應用中,首先會利用人臉檢測算法捕捉進入視野的人臉,之后采用人臉跟蹤與對齊算法快速定位人臉位置并評估人臉姿態(tài),當人臉尺寸足夠大(人與機器人達到一定距離)時,再對人臉進行分析(年齡、性別及表情狀態(tài))與識別。
跟蹤與對齊是其中最頻繁的操作,而檢測與識別及分析,并不是每一幀圖像都要做的。
而物體識別在實際應用中,首先會通過簡單的單幀圖像特征檢測算法判斷圖像是否有足夠的紋理細節(jié),同時通過連續(xù)多幀圖像評估圖像的穩(wěn)定性和清晰度,當圖像足夠穩(wěn)定、清晰且有紋理細節(jié)時,才會調用物體識別算法。
人機交互是一個閉環(huán)過程,人臉識別與物體識別在智能設備上融合使用時,“認人”與“識物”是分先后還是并行,需要根據(jù)交互邏輯而定,用戶對于識別結果的反饋也會決定下一步識別算法如何執(zhí)行。
1號機器人網記者:讓機器人做到對場景的分析是很難的,讓機器人分析場景,目前你們已經進展到什么程度?機器人可以對哪些場景進行判斷?以及你們是如何做訓練的?
曾祥永:在場景分析方面,我們主要是在家庭場景圖像的多目標檢測與定位,讓機器人能夠從圖像中分辨出哪些特定物體,并知道他們的位置。
對于家用機器人而言,人體檢測與重識別是其應具備的重要能力,因為它并不是每時每刻都能看到用戶的臉,一旦機器人“看”到人,就能發(fā)起交互。
更進一步,如果人周邊還存在一些已知物體,就能發(fā)起更深入的交互,例如,手拿藥瓶的主人出現(xiàn)在機器人面前,機器人在識別主人及手中的藥后,就能主動告知用戶“如何用藥”或關心用戶“記得按時吃哪幾種藥”(前提是機器人已經知道主人最近在吃哪些藥)。
再如,當機器人面前同時出現(xiàn)熟人和陌生人,機器人通過人臉分析,得出每個人的大致年齡及相互間的相貌相似度,就能給出“你們是一家人嗎?”、“你們是同學或朋友嗎?”等不同的招呼了。
此外,我們也在研究VSLAM(基于視覺的即時定位與地圖構建)技術,希望讓機器人能夠更理解它所處的場景。
1號機器人網記者:你們網站上有阿U兔子的案例,你們給阿U兔子提供什么方案?
曾祥永:從2015年,我們就開始將視覺技術應用于兒童智能硬件與智能機器人。
“阿U幻境”是一款基于圖像識別的兒童智能硬件,我們?yōu)樗峁┝送盔f畫、任意畫、字母識別、數(shù)字識別、七巧板識別、卡片識別、繪本識別及識物識別等全套圖像識別算法。
這套圖像識別算法經過特別的優(yōu)化,流暢性與識別率都很好,很少有用戶反饋誤識別或不識別的情況。
我們還深度參與了兒童機器人“阿U兔子”的研發(fā),為其提供了包括離線人臉識別、常見物體識別及整套交互系統(tǒng),讓它成為具備“認人識物”視覺能力的家庭機器人。
在深度參與這兩款產品的研發(fā)和SKEye不斷接入其他產品應用的過程中,我們積累了大量技術落地經驗,也深刻體會到,只有不斷提升樣本數(shù)據(jù)的多樣性與真實性,并對算法做場景化優(yōu)化,才可能提升AI的可用性與易用性。
算法研究是一回事,技術落地是另一回事,產品營銷更是更外一回事。專業(yè)的團隊做專業(yè)的事,才可能取得成功。
1號機器人網記者:最后一個問題,你們也在做VR/AR產品,你們是否可以提供AR/VR與機器人結合應用的方案?目前有沒有成功案例可尋?
曾祥永:在VR/AR方面,我們主要是在探索將圖像識別、語音識別及智能問答等多模態(tài)交互技術融合應用,實現(xiàn)更加自然與智能的人機交互。
我們正在為中國科技館開發(fā)一個智慧導覽APP。
其中不但應用了AR技術實現(xiàn)特定展品的互動,還應用了基于深度學習的物體識別與智能問答技術,用戶打開攝像頭掃一下展品,即可自動識別并跳入到對應展品介紹。
針對展品的原理與知識進行任意提問,也能獲得對應的解答。
未來我們希望可以更多的將VR/AR與圖像識別、智能問答等AI技術相結合,讓每一個VR都成為可自然交互的虛擬世界。
1號機器人網(www.1hjqr.com)機器人行業(yè)最權威媒體
聯(lián)系客服