萬萬沒想到,國產(chǎn)AI技術(shù)的更新迭代真的是太快了。
在ChatGPT的余暉尚未消散之際,OpenAI攜Sora橫空出世。憑借精準(zhǔn)捕捉指令、細(xì)膩構(gòu)建場景、逼真演繹動態(tài)的卓越能力,Sora被部分業(yè)內(nèi)人士稱其 “人工智能領(lǐng)域的一次突破”。逼真的畫面令人很難區(qū)分它們是由實(shí)拍而得,還是由AI生成。
讓人驚訝的是,不少人還在被Sora的視頻生成能力征服,而國產(chǎn)大模型已經(jīng)悄悄帶來新的變化。
早在今年2月份,阿里巴巴發(fā)布了一款全新的生成式AI模型EMO,并且公布了技術(shù)論文。
EMO生成視頻案例
具體來說,EMO不僅能夠生成唱歌和說話的視頻,還能在保持角色身份穩(wěn)定性的同時,根據(jù)輸入音頻的長度生成不同時長的視頻。
而EMO的視頻效果,真的讓人一愣一愣的。
比如我們上傳一張伏地魔的照片,EMO便能制作出他正在唱歌的真實(shí)視頻,而且形象逼真。仔細(xì)觀察EMO產(chǎn)出的視頻,可以發(fā)現(xiàn)人物的口型與背景音樂的同步性極佳,表情變化也十分豐富,使得角色仿佛賦予了生命,整體效果令人印象深刻。
這樣的效果自然引發(fā)了很多海外用戶、科技巨頭的驚嘆,大家震驚于EMO的技術(shù)實(shí)力直逼Sora,EMO也隨之成為繼Sora之后最受關(guān)注的AI模型之一。
很多網(wǎng)友紛紛感嘆:“我們正在走進(jìn)一個新的現(xiàn)實(shí)!”
EMO掀起用戶討論熱潮
隨著EMO模型在技術(shù)圈的火爆,為了讓所有人都能體驗(yàn)到EMO的強(qiáng)大功能,阿里通義實(shí)驗(yàn)室,決定將其全面開放給所有人:4月25日,EMO上線通義APP,阿里通義實(shí)驗(yàn)室將其免費(fèi)集成至通義APP的“全民舞臺”頻道,所有用戶均可免費(fèi)使用。
在我們實(shí)際體驗(yàn)之后發(fā)現(xiàn),這個國產(chǎn)AI工具比論文中的使用步驟還簡單。從一張安靜的圖片,到一個活生生、會唱歌、會講段子的“人“,只需要十幾分鐘的時間。
毫無疑問,EMO的誕生以及媲美Sora的技術(shù)能力,標(biāo)志著中國AI大模型持續(xù)走在行業(yè)前列,正在與國際巨頭并駕齊驅(qū)。
國產(chǎn)AI進(jìn)化速度快的嚇人實(shí)際上,在Sora模型推出之后,曾有人擔(dān)憂國產(chǎn)AI無法跟上步伐。有很多人認(rèn)為:國產(chǎn)AI與Sora之間的差距越來越大。
我們必須承認(rèn),國產(chǎn)AI與美國大模型之間的差距的確存在,而明確差距的下一步,就是加速追趕。
目前來看,國產(chǎn)AI在語言模型、視頻生成模型、視覺理解模型等很多領(lǐng)域都在加速追趕,像EMO就在音頻生成視頻的領(lǐng)域做到了業(yè)界首創(chuàng)。
幾個月之前,國產(chǎn)AI也做過類似的視頻生成工作。當(dāng)時,整體生成的視頻時間比較短,基本在10秒以內(nèi),并且視頻中經(jīng)常出現(xiàn)錯誤,不連貫,視頻生成的速度也很慢。
可是萬萬沒想到,幾個月之后,當(dāng)前的國產(chǎn)大模型就已經(jīng)實(shí)現(xiàn)分鐘級別的audio2video生成,并且視頻的形象逼真,人物的表情變化也十分豐富。
同樣以阿里EMO模型為例:
從今年2月份放開技術(shù)論文到現(xiàn)在,僅僅過去不到2個月的時間,EMO就實(shí)現(xiàn)了低門檻使用、全量免費(fèi)上線等創(chuàng)新體驗(yàn)。
我們實(shí)際體驗(yàn)發(fā)現(xiàn),生成一段伏地魔唱歌的視頻,只需要等待10分鐘左右,即可完成。
令人驚艷的技術(shù)迭代速度,才是國產(chǎn)AI的真正實(shí)力所在。有外媒評論,talking head技術(shù)雖然才出現(xiàn)兩三年,但EMO一下子讓以前的技術(shù)方案變成了“老古董”。
具體來說,EMO是一種富有表現(xiàn)力的音頻驅(qū)動的肖像視頻生成框架,可以根據(jù)輸入視頻的長度生成任何持續(xù)時間的視頻。區(qū)別于Sora的文生視頻技術(shù),這種音頻驅(qū)動的肖像視頻框架,無需建模就可驅(qū)動肖像開口說話,不僅降低了視頻生成成本,還大幅提升了視頻生成質(zhì)量。
毫不夸張地說,我國視頻生成技術(shù)正在步入嶄新的2.0時代,加速縮小與國際先進(jìn)水平的差距。
見證歷史,見證國產(chǎn)AI的奇跡
不難看出,國產(chǎn)AI大模型與行業(yè)先進(jìn)技術(shù)并駕齊驅(qū)。以EMO模型和通義APP為代表的國產(chǎn)AI,在AI行業(yè)的激烈爭奪中,持續(xù)突破技術(shù)壁壘。
而目前國內(nèi)互聯(lián)網(wǎng)巨頭的大部分大模型都達(dá)到或者超過了GPT3.5的能力,全世界也只有中國有這個能力。
諸多行業(yè)相關(guān)數(shù)據(jù)也在證實(shí),中國已經(jīng)成為AI成果和AI專利方面的全球領(lǐng)導(dǎo)者。
來自斯坦福大學(xué)人工智能研究院AI Index報告顯示,在AI專利方面,中國處于領(lǐng)先位置。2022年,中國以61.1%的比例領(lǐng)跑全球AI專利來源地,遠(yuǎn)超美國(20.9%)。對比2010年,當(dāng)時美國在AI專利方面的占比高達(dá)54.1%。
國家工業(yè)信息安全發(fā)展研究中心和工信部電子知識產(chǎn)權(quán)中心聯(lián)合發(fā)布的《新一代人工智能專利技術(shù)分析報告》同樣顯示,我國成為全球AI技術(shù)創(chuàng)新重要競爭者。
與此同時,國產(chǎn)AI的爆發(fā),也在持續(xù)點(diǎn)燃普通用戶的參與熱情。
數(shù)據(jù)顯示,視頻生成模型EMO剛剛上線僅一天的時間,就吸引了400多萬用戶前來使用體驗(yàn),其應(yīng)用全量開放的瞬間,通義APP甚至一度被擠爆,需要排隊(duì)數(shù)小時。
圖源:通義千問APP
除了EMO模型的驚艷之外,越來越多的AI創(chuàng)新應(yīng)用,也在一步步走到我們身邊。
前段時間,一款名為“全民舞王”的現(xiàn)象級應(yīng)用在社交平臺上引發(fā)熱議,用戶們紛紛利用該應(yīng)用讓兵馬俑跳出科目三的舞步,創(chuàng)意玩法層出不窮,熱度持續(xù)飆升。除此之外,通義APP也陸續(xù)推出了超長文檔解析、AI編碼助手、AI會議助手等一系列免費(fèi)且實(shí)用的功能,讓人工智能真正融入日常生活,提升效率,豐富娛樂體驗(yàn)。
從某種意義上來說,國產(chǎn)AI帶來的新一輪工業(yè)革命已經(jīng)開始了。
而作為普通人的我們,正共同見證國產(chǎn)AI行業(yè)的蓬勃發(fā)展,每一個人都在親歷這一歷史性的技術(shù)變革,共享國產(chǎn)AI創(chuàng)造的奇跡。
作者 | 老電團(tuán)隊(duì)
聯(lián)系客服