智東西3月20日消息,百度大腦的開放日活動(dòng)在今日下午于中關(guān)村創(chuàng)業(yè)大街百度大腦創(chuàng)新體驗(yàn)中心召開。
這是百度大腦的首場(chǎng)開放日活動(dòng),也是百度大腦開放技術(shù)能力以及最新行業(yè)應(yīng)用的一次集中展示。
活動(dòng)當(dāng)天,百度AI技術(shù)生態(tài)部總經(jīng)理喻友平,重點(diǎn)介紹了百度大腦開源深度學(xué)習(xí)平臺(tái)PaddlePaddle的技術(shù)和產(chǎn)品更新,以及百度大腦在市政、物流、教育等行業(yè)的落地案例,與開發(fā)者們進(jìn)行深度交流。
同時(shí),喻友平還介紹了百度大腦全新開放的24種AI能力。此前在網(wǎng)絡(luò)上大火的智能貓窩設(shè)計(jì)者百度大腦工程師晚兮也在現(xiàn)場(chǎng)為大家講述了智能貓窩設(shè)計(jì)者們的初心。
開放日一開始,喻友平就重點(diǎn)宣布百度PaddlePaddle的核心框架Paddle Fluid 在近日迎來v1.3版本發(fā)布,在基礎(chǔ)框架、預(yù)測(cè)引擎、模型建設(shè)、分布式訓(xùn)練各個(gè)方向上完成多項(xiàng)升級(jí)。
首先,Paddle Fluid v1.3新增發(fā)布視頻分類模型庫,值得關(guān)注的是這是業(yè)界首個(gè)視頻分類模型庫。
據(jù)喻友平表示,這個(gè)新增視頻模型庫,可以提供5個(gè)視頻分類經(jīng)典模型以及適合視頻分類任務(wù)的通用骨架代碼,用戶可一鍵式高效配置模型完成訓(xùn)練和評(píng)測(cè)。
其次,PaddlePaddle新增支持NLP語義表示BERT模型,支持多機(jī)多卡訓(xùn)練,支持混合精度訓(xùn)練,訓(xùn)練速度對(duì)比主流實(shí)現(xiàn)提升50%+,并且提供完整部署示例。
另外,在最新更新中PaddlePaddle的分布式訓(xùn)練性能大幅提升。百度大腦發(fā)布了大規(guī)模稀疏參數(shù)服務(wù)器Benchmark,通過 CPU多機(jī)異步訓(xùn)練發(fā)布可以顯著提升點(diǎn)擊率預(yù)估任務(wù)IO吞吐的built-in reader,多機(jī)多卡訓(xùn)練性能多方面提升。
最后,喻友平還推出業(yè)界領(lǐng)先的深度強(qiáng)化學(xué)習(xí)框架PARL1.0。據(jù)他介紹,PARL曾在NeurIPS 2018 奪冠。具有高靈活性和可擴(kuò)展性,支持可定制的并行擴(kuò)展,覆蓋DQN、DDPG、PPO、A3C等主流強(qiáng)化學(xué)習(xí)算法。通過8塊GPU可拉動(dòng)近20000個(gè)CPU節(jié)點(diǎn)運(yùn)算,將近5個(gè)小時(shí)迭代一輪的PPO算法加速到不到1分鐘。
據(jù)百度表示,當(dāng)前百度PaddlePaddle已對(duì)外開放超過50種經(jīng)過工業(yè)場(chǎng)景驗(yàn)證的官方模型,在深度學(xué)習(xí)基礎(chǔ)之上,百度大腦通用AI能力開放涵蓋語音、視覺、自然語言處理、知識(shí)圖譜等全面AI技術(shù)。
語音方面,根據(jù)喻友平介紹,目前百度大腦語音開放能力包括語音喚醒、語音識(shí)別、語音合成等通用能力,還包括即將推出的語音識(shí)別自訓(xùn)練平臺(tái)、軟硬一體的語音開發(fā)套件以及各種場(chǎng)景方案。
此外,PaddlePaddle首次開放了搭載國際領(lǐng)先的注意力模型的語音能力——語音識(shí)別極速版。
在1月的百度輸入法探索版發(fā)布會(huì)上,首次發(fā)布了領(lǐng)先國際的語音技術(shù):在線語音領(lǐng)域全球首創(chuàng)的流式多級(jí)截?cái)嘧⒁饬δP蚐MLT「Streaming trancated multi-layer attention」。
這是首次在大規(guī)模語音識(shí)別工業(yè)界采用注意力(attention)模型,在百度輸入法產(chǎn)品發(fā)布后,驚艷的語音輸入體驗(yàn)得到了業(yè)界的一致好評(píng)。基于以上成果持續(xù)進(jìn)行更多創(chuàng)新,提升識(shí)別率的同時(shí)又大幅優(yōu)化解碼速度。百度大腦語音方向首次將這一系列技術(shù)創(chuàng)新整合為語音能力對(duì)外開放:“語音識(shí)別極速版”,擁有更快的響應(yīng)速度,相對(duì)識(shí)別準(zhǔn)確度提升15%,為開發(fā)者帶來更極致的識(shí)別體驗(yàn)。
此項(xiàng)語音能力在API調(diào)用方式下,實(shí)時(shí)率小于0.1,意味著5s的音頻不到500ms即可完成識(shí)別過程,極大減少了識(shí)別音頻所需的耗時(shí),提升了語音交互的響應(yīng)體驗(yàn)。在近距離安靜環(huán)境下,識(shí)別準(zhǔn)確率可達(dá)到98%,同時(shí)支持略帶口音、童聲、耳語的識(shí)別,使語音識(shí)別應(yīng)用更加廣泛。
同時(shí),多平臺(tái)的SDK也即將推出,使APP、服務(wù)器端更可實(shí)時(shí)識(shí)別,應(yīng)用這一領(lǐng)先技術(shù)。目前,每個(gè)開發(fā)者賬戶將贈(zèng)送5W次免費(fèi)調(diào)用量,針對(duì)新能力的使用者,也即將推出一系列贈(zèng)送及優(yōu)惠活動(dòng)。
另外,近場(chǎng)語音識(shí)別升級(jí)了預(yù)置語義解析。預(yù)置場(chǎng)景由35個(gè)升級(jí)為51個(gè),包括天氣、航班、電話、電影播放、頁面屏幕控制、電視劇、美食、手機(jī)設(shè)置、通用錄、提醒、短信、故事等,語義解析效果全面優(yōu)化,80%優(yōu)于原有解析結(jié)果。
不僅如此,還有一些新品即將上線。如:語音識(shí)別自訓(xùn)練平臺(tái),支持自動(dòng)評(píng)估選出最好的基線模型,僅上傳業(yè)務(wù)場(chǎng)景文本語料即可訓(xùn)練語言模型,零代碼自助訓(xùn)練專屬的語音識(shí)別模型,極大地方便語音開發(fā)者提升所在業(yè)務(wù)場(chǎng)景的識(shí)別準(zhǔn)確率,滿足業(yè)務(wù)上的語音識(shí)別需求。另外,遠(yuǎn)場(chǎng)語音開發(fā)套件也即將上架售賣,可快速進(jìn)行遠(yuǎn)場(chǎng)識(shí)別開發(fā)評(píng)估,此套件應(yīng)用于機(jī)器人、兒童故事機(jī)、家電、車載設(shè)備等硬件。同時(shí)還將開放離線合成,以及推出更多音庫。
視覺方面,百度大腦重點(diǎn)更新了OCR、車輛分析、人臉人體以及圖像識(shí)別四方面的能力升級(jí)。
首先,在極大便捷工作的OCR方面,卡證、票據(jù)、汽車三大場(chǎng)景方面均有重大更新
卡證OCR 新增了4個(gè)新能力:戶口本OCR、出生醫(yī)學(xué)證明OCR、港澳通行證OCR、臺(tái)灣通行證OCR,總數(shù)達(dá)到9種;
票據(jù)OCR 新增了4個(gè)新能力:行程單OCR、保單識(shí)別OCR、通用機(jī)打發(fā)票O(jiān)CR,定額發(fā)票O(jiān)CR,總數(shù)達(dá)到9種;
汽車場(chǎng)景的OCR則更新了3個(gè)新能力:車輛VIN OCR、機(jī)動(dòng)車銷售發(fā)票O(jiān)CR、車輛合格證OCR,總數(shù)達(dá)到6種。這些OCR新能力在關(guān)鍵字段的準(zhǔn)確率均在90%以上,并有多項(xiàng)是業(yè)界首次平臺(tái)化開放。
同時(shí),對(duì)已有的OCR能力,百度大腦也進(jìn)行了功能升級(jí):表格識(shí)別:支持合并單元格、無表格線等復(fù)雜樣式;iOCR 自定義模版文字識(shí)別:支持列寬不固定、有合并單元格的表格樣式的定制識(shí)別;駕駛證識(shí)別:支持駕駛證副頁的識(shí)別。
至此,OCR產(chǎn)品全系列共34款,實(shí)現(xiàn)卡證、票據(jù)、文檔、汽車全場(chǎng)景覆蓋。
在車輛分析方面,百度大腦推出全新系列服務(wù):包括車輛檢測(cè)、車流統(tǒng)計(jì)、車輛屬性分析和外觀損傷識(shí)別。
其中,車輛檢測(cè),通過識(shí)別圖像中的所有機(jī)動(dòng)車輛(包含小汽車、卡車、巴士、摩托車、三輪車),返回每輛車的類型和坐標(biāo)位置,并對(duì)每類車輛分別計(jì)數(shù),可應(yīng)用于違章停車監(jiān)測(cè)和智能停車場(chǎng)。
車流統(tǒng)計(jì),則是根據(jù)視頻抓拍圖片序列,進(jìn)行車輛檢測(cè)和追蹤,識(shí)別各類車輛(包括小汽車、卡車、巴士、摩托車、三輪車)在指定區(qū)域內(nèi)的駛?cè)?駛出情況,實(shí)現(xiàn)動(dòng)態(tài)車流統(tǒng)計(jì),可應(yīng)用于實(shí)時(shí)監(jiān)控交通道路、卡口的車流量,自動(dòng)統(tǒng)計(jì)不同時(shí)段各類車輛的進(jìn)出數(shù)量,分析路口、路段的交通狀況,為交通調(diào)度、路況優(yōu)化提供精準(zhǔn)參考依據(jù)。而車輛屬性分析和外觀損傷識(shí)別兩項(xiàng)服務(wù),也即將開放。
在人臉人體識(shí)別方面,百度大腦新發(fā)布了情緒識(shí)別,可以準(zhǔn)確識(shí)別7類情緒:生氣、害怕、厭惡、高興、悲傷、驚訝、無情緒。
此項(xiàng)技術(shù)可應(yīng)用于幼兒園安全監(jiān)控等場(chǎng)景,通過監(jiān)控孩子的心理狀態(tài),判斷教師和幼兒是否有異常狀況,從而保障幼兒安全、及時(shí)預(yù)警并參與輔導(dǎo)等。同時(shí)人臉融合以及手部關(guān)鍵點(diǎn)將在3月推出。
此外人臉人體方面,百度大腦還有2項(xiàng)功能全新升級(jí),包括:人臉檢測(cè)快速檢測(cè)人臉并返回人臉框位置、定位五官與輪廓關(guān)鍵點(diǎn)數(shù)量,從72個(gè)增加至150個(gè);新增2種手勢(shì),共24種常見手勢(shì),整體識(shí)別率在90%以上,使得手勢(shì)識(shí)別更豐富、更準(zhǔn)確;而即將上線的更高進(jìn)精度的人像分割,可應(yīng)用于人像美圖、影視后期等場(chǎng)景。
而在圖像識(shí)別方面,百度大腦新增紅酒識(shí)別和地標(biāo)識(shí)別這2個(gè)新能力。通過紅酒識(shí)別,用戶只需要對(duì)著紅酒標(biāo)簽拍照,系統(tǒng)就能自動(dòng)識(shí)別紅酒的品牌和名稱,目前可識(shí)別數(shù)十萬種國內(nèi)外紅酒,識(shí)別準(zhǔn)確率98%以上,從法國波爾多到中國張?jiān)?,商品信息都能得到?zhǔn)確關(guān)聯(lián),可以輕松為用戶提供參考和商品推薦。而地標(biāo)識(shí)別則能夠精準(zhǔn)識(shí)別約5萬中外著名地標(biāo)、景點(diǎn),準(zhǔn)確率高達(dá)94%以上。用戶只需要拍攝包含國內(nèi)外著名景點(diǎn)、地標(biāo)的照片,系統(tǒng)就能自動(dòng)生成足跡、圖文博客等有意思的交互內(nèi)容,提升用戶旅游體驗(yàn)。
同時(shí),開放日現(xiàn)場(chǎng),喻友平還宣布,百度大腦即將上線邀測(cè)錢幣識(shí)別功能。該功能可以精準(zhǔn)識(shí)別中外錢幣,支持?jǐn)?shù)百類幣種、數(shù)千種面額,識(shí)別準(zhǔn)確率98%以上,不僅能夠提升金融機(jī)構(gòu)貨幣兌換的效率,也能讓“外幣騙局”無處藏身。
從紅酒到地標(biāo)再到錢幣,目前百度大腦的圖像識(shí)別種類已經(jīng)多達(dá)11種。
同時(shí),百度大腦語言及知識(shí)技術(shù)也進(jìn)一步開放。這一方面,百度大腦此次開放日的更新亮點(diǎn)是:語言處理應(yīng)用技術(shù)、知識(shí)理解以及智能寫作平臺(tái)三大方面。
在語言處理應(yīng)用技術(shù)方面,百度大腦新增文本糾錯(cuò)、新聞?wù)⒅悄軐懺?、智能春?lián)和對(duì)話情緒識(shí)別等能力,在知識(shí)理解方面,百度大腦推出了作文檢索和知識(shí)問答兩個(gè)新能力。
同時(shí),智能寫作平臺(tái)將在4月全面上線,平臺(tái)同時(shí)提供自動(dòng)寫作和輔助寫作的能力。一方面,平臺(tái)支持天氣預(yù)報(bào)、股市大盤、比賽報(bào)道、智能寫詩寫春聯(lián)等自動(dòng)寫作的能力,能夠直接進(jìn)行自動(dòng)寫稿,從而解放創(chuàng)作者的雙手。另一方面,平臺(tái)提供熱點(diǎn)發(fā)現(xiàn)、熱點(diǎn)分析、自動(dòng)摘要、自動(dòng)糾錯(cuò)等輔助寫作的能力,能夠幫助創(chuàng)作者提供素材、激發(fā)靈感、質(zhì)量檢測(cè),提升創(chuàng)作者的寫作效率和產(chǎn)出質(zhì)量,降低寫作成本。
在AI技術(shù)加持下,百度大腦也在重點(diǎn)發(fā)力智能硬件和設(shè)備。
在百度大腦首場(chǎng)開放日,除了有以上多項(xiàng)核心的技術(shù)更新、能力升級(jí)、新品推出外,百度大腦在AI市場(chǎng)正式上架4款硬件產(chǎn)品。
截至目前,百度大腦已經(jīng)開放了近160項(xiàng)AI能力,平臺(tái)上開發(fā)者數(shù)量超過100萬,開放能力覆蓋語音、視覺、自然語言處理、機(jī)器學(xué)習(xí)等全面AI技術(shù)。
開放日當(dāng)天,網(wǎng)紅智能貓窩的設(shè)計(jì)者百度大腦工程師晚兮也在現(xiàn)場(chǎng)為大家講述了智能貓窩設(shè)計(jì)者們的初心。
為了讓流浪喵過上幸福的生活,程序員出身的他用百度大腦動(dòng)物識(shí)別技術(shù)和百度EasyDL打造出 “貓臉門禁”、“病貓識(shí)別”、“絕育識(shí)別”三大智能功能,給流浪貓一個(gè)溫暖的住所的同時(shí)幫助救助志愿者發(fā)現(xiàn)生病和未絕育的流浪貓。
晚兮提到,憑借百度大腦的開放技術(shù),他只用半天就設(shè)計(jì)出了智能貓窩的三項(xiàng)主要AI功能,讓看似高冷的AI技術(shù)最終化為貓咪們的守護(hù)神。
事實(shí)上,AI技術(shù)已經(jīng)滲透到各行各業(yè)的毛細(xì)血管之中,在賦能落地的過程中,AI的發(fā)展不僅要有代碼與邏輯組成的技術(shù)構(gòu)成,同時(shí)更是需要扎實(shí)可用的技術(shù)應(yīng)用以及惠及更多行業(yè)的開放生態(tài)。
其中,僅僅是百度大腦就已經(jīng)落地20+行業(yè),對(duì)外開放超過50種經(jīng)過工業(yè)場(chǎng)景驗(yàn)證的官方模型。無可置疑的是,AI生態(tài)賦能已成燎原之勢(shì)。
聯(lián)系客服