真的非常炸裂!上段時間阿里開發(fā)了一款由音頻驅(qū)動的人像視頻生成模型EMO,一經(jīng)發(fā)布,震驚整個AI圈,其實AI生成圖片開口說話視頻,也并不是什么新鮮事,但阿里的生成視頻大模型EMO其質(zhì)量與之前的任何AI圖片開口說話工具生成的作品都不一樣,基本告別面部生硬表情時代。
EMO只需輸入一張參考圖像和人聲音頻(如說話和唱歌),就能生成具有生動表情和各種頭部姿勢,口型完全匹配高保真的人聲頭像視頻,同時還能根據(jù)輸入視頻的長度生成任意時長的視頻。
目前,EMO框架上線到GitHub中,相關(guān)論文也在arxiv上公開。
GitHub:
https://github.com/HumanAIGC/EMO
論文:
https://arxiv.org/abs/2402.17485
既然EMO還沒有正式上線,那么本期就給大家盤點一下目前市面上已有且好用的AI圖片開口說話工具。
1.HEYGEN
https://www.heygen.com/
HeyGen 就是一款可以制作數(shù)字人視頻的工具,功能非常強大,包括實時與數(shù)字人聊天交流,數(shù)字人克隆,視頻翻譯,圖片數(shù)字人開口說話功能,應該算在數(shù)字人領(lǐng)域中知名度較高的AI工具。
價格也是在一眾AI工具中,收費屬于中高階段,當然也可以在某寶上購買低價的積分賬號來用。
2.DID
https://www.d-id.com/
DID可以快速制作數(shù)字人口播視頻。只需上傳你的人物照片,輸入視頻介紹文本,幾分鐘之內(nèi),你就能看到一個虛擬人物栩栩如生地開口說話,而且它的嘴型與音頻完美匹配,真實感十足!
價格會比HEYGEN低一些,但個人覺得DID制作出來的效果比HEYGEN作品口型匹配上效果差一些,但也算在數(shù)字人圖片口播AI工具中排前三。
DID為了避免被白嫖,免費生成的視頻自帶的水印,基本無法去除,所以你在沒有其他工具選擇的情況下,再考慮付費會員吧!
3.SadTalker
SadTalker是Stable Diffusion的一個圖片口播數(shù)字人插件,通過它,我們就能實現(xiàn)只要提供一張圖片和聲音,就能實現(xiàn)一個會說話的視頻,重點開源免費,真的香,在目前所有免費工具中,SadTalker生成的對口型視頻效果應該是最強的。
但由于Stable Diffusion對于電腦硬件配置要求較高,因此也勸退了一大波人,不過感興趣的小伙伴可以選擇云部署,云端制作這類視頻。
最低配置:NVIDIA GeForce GTX 1060或AMD Radeon RX 5600
推薦配置:NVIDIA GeForce RTX 2070或AMD Radeon Pro 5700XT
Stable Diffusion的代碼和模型文件,可以從這里下載:
https://github.com/Stability-AI/stablediffusion
Sadtalker的代碼和模型文件,可以從這里下載:
https://github.com/OpenTalker/SadTalker
4.KreadoAI
?https://www.kreadoai.com/
Kreado AI只需輸入文本或關(guān)鍵詞,即可創(chuàng)作真實/虛擬人物的多語言口播視頻,它還提供 AI 生成的營銷文案。
Kreado Al的核心功能:AI視頻創(chuàng)作、虛擬人物視頻創(chuàng)作、AI模型創(chuàng)作、AI數(shù)字人物創(chuàng)作、數(shù)字人物創(chuàng)作
Kreado AI比起HEYGEN便宜些,功能也是非常強大。
像國產(chǎn)工具奇妙元、美冊、萬彩等也是可以生成高質(zhì)量的圖片開口說話數(shù)字人視頻,價格均不同,大家可以根據(jù)自己的預算需求來選擇。
聯(lián)系客服