如果你有很多老舊的生肉,找不到匹配的字幕,或者你手上的字幕時(shí)間軸原來(lái)是匹配閹割版、HDTV臺(tái)標(biāo)版、帶廣告錄屏ts版或者WEBDL視頻版,后來(lái)官方出了藍(lán)光版、加長(zhǎng)版、上下集二合一版,要重新洗版,原來(lái)的時(shí)間軸不能匹配現(xiàn)在的視頻,用舊的時(shí)間軸在新視頻播放一下子提前,一下子延后,或者連官方的字幕都是不對(duì)的,我就見(jiàn)過(guò)官方字幕少了幾句話的,在網(wǎng)上又找不到新的字幕匹配,那只能重新打時(shí)間軸,匹配現(xiàn)在的視頻。
首先要做一些準(zhǔn)備工作,如果你的視頻是5.1音軌的,先把純?nèi)寺暤囊糗壧崛〕鰜?lái),網(wǎng)上有很多軟件可以做到。如果你的視頻是2.0立體聲音軌,可以先用xmedia recode直接把音頻復(fù)制出來(lái),再用專(zhuān)門(mén)的人聲分離軟件提取出來(lái),比如spleeter gui和izotope。網(wǎng)上有命令行打包做成的spleeter,大小不到100M,搜一下就有了,用鼠標(biāo)直接把音頻拖到exe文件就行了,比gui簡(jiǎn)單好用,如果某些復(fù)雜編碼的he-aac、ogg vorbis、opus分離人聲失敗,就先把音頻用xmedia recode轉(zhuǎn)換成相同碼率的mp3或者ac3再分離,肯定可以,這種分離人聲的音頻識(shí)別效果會(huì)比5.1音軌分離出來(lái)的純?nèi)寺曇糗売幸稽c(diǎn)點(diǎn)差別,也不會(huì)差很多,畢竟分離2.0音軌不像5.1音軌的純?nèi)寺曇糗壞菢影俜职偌儍魺o(wú)雜音。
然后要下載這個(gè)subtitle edit綠色版,以下簡(jiǎn)稱(chēng)SE,版本號(hào)是3.6.5,以前的版本沒(méi)有這個(gè)功能,需要Windows安裝.Net4.7.2以上的版本。這個(gè)綠色版不是官網(wǎng)那個(gè),已經(jīng)自帶語(yǔ)音識(shí)別插件,如果使用官方exe版安裝的同學(xué)請(qǐng)自備梯子下載語(yǔ)音識(shí)別插件。FFmpeg和MPV自己上網(wǎng)下載最新版就行了,裝好以后自己在SE軟件的選項(xiàng)里面設(shè)置一下波形圖、播放器路徑,我已經(jīng)把mpv-1.dll打包好放在綠色版里面了,解壓以后在option那里選擇language中文就行了。這個(gè)軟件雖然說(shuō)也支持VLC,但是用VLC做字幕預(yù)覽視頻左邊右邊下面留了很多黑邊,不太好看。
https://pan.quark.cn/s/b576bfae87d8
點(diǎn)擊視頻→點(diǎn)擊打開(kāi)視頻文件,下拉菜單選擇所有文件,注意盡量選擇音頻文件識(shí)別。如果直接選擇視頻識(shí)別要花三四倍時(shí)間,直接使用音頻識(shí)別就可以了。點(diǎn)擊視頻/音頻到文本。然后選擇模型,軟件會(huì)自動(dòng)下載最小的模型。如果需要更大的模型或者其他語(yǔ)言的模型,請(qǐng)自行去VOSK的官網(wǎng)選擇下載。網(wǎng)絡(luò)不好的同學(xué)可以先用SE下載一個(gè)中文模型,知道軟件把模型放在什么路徑,然后去VOSK的官網(wǎng)下載更大更新的模型,解壓到SE主程序的目錄下面的VOSK文件夾就行了,最后點(diǎn)擊生成就可以等識(shí)別結(jié)果了。識(shí)別音頻的時(shí)間要比識(shí)別視頻的時(shí)間快很多,所以建議先把音頻提取出來(lái)再識(shí)別,識(shí)別速度跟你的電腦硬件有關(guān),我的筆記本識(shí)別音頻的時(shí)間基本上是視頻時(shí)間長(zhǎng)度的40%左右。
之后還要進(jìn)一步處理時(shí)間軸,先點(diǎn)擊工具→合并短行,點(diǎn)擊每行字符數(shù)。因?yàn)槲沂褂玫氖欠秸值染€gb18030,一個(gè)字體自帶中日韓英字體,這個(gè)字體在電視機(jī)上面看srt字幕比較接近東森洋片臺(tái),也不用另外改成ass字幕橫向縮到95%縱向拉到105%,更不會(huì)像思源更紗夢(mèng)源字體那樣在電視機(jī)用MX Player播放srt字幕位置明顯上移、bold字重不能被某些播放器識(shí)別。方正粗等線gb18030做出來(lái)的雙語(yǔ)字幕,具體設(shè)置方法放這里了
我設(shè)置的方法是在不超出電影黑邊的基礎(chǔ)上盡量把中英文雙語(yǔ)的字體調(diào)整到最大,不會(huì)像FRDS那樣中文很大英文又斜體,每一行字幕的中文最多是28個(gè)字符,英文數(shù)量最多顯示85個(gè),換成16:9或者2:1視頻直接調(diào)整縱邊距就行了,字體大小不用重新調(diào)整。如果是選擇其他字體,比如楷體什么的,字間距就會(huì)明顯變寬,中英文最多字符數(shù)量就比前面的28、85要少,需要自己去調(diào)整。兩行間最多毫秒數(shù)建議修改成500毫秒,默認(rèn)勾選“僅合并連續(xù)行“的意思是,時(shí)間軸少于半秒的、沒(méi)有任何標(biāo)點(diǎn)符號(hào)的相鄰字幕都會(huì)被合并,如果出現(xiàn)標(biāo)點(diǎn)符號(hào)就算少于500毫秒也不會(huì)合并字幕;如果去掉這個(gè)勾選,那就算出現(xiàn)標(biāo)點(diǎn)符號(hào),只要符合少于500毫秒間隔的相鄰字幕全部都會(huì)被合并。合并之后有些行可能超過(guò)了85個(gè)字符,需要重新調(diào)整。點(diǎn)擊工具→點(diǎn)擊分割長(zhǎng)行,英文填寫(xiě)85,中文填寫(xiě)28,我這里的例子是準(zhǔn)備用來(lái)做雙語(yǔ)字幕的純英文字幕,所以單行長(zhǎng)度和總行長(zhǎng)度都是填85,雙語(yǔ)字幕自己找插件導(dǎo)出單獨(dú)的純中文和純英文再調(diào)整合并就行了,有換行符的自己檢查一下用全選替換功能替換成一個(gè)英文空格或者一個(gè)漢字空格,最后點(diǎn)擊確定保存字幕就行了。
語(yǔ)音識(shí)別畢竟是機(jī)翻,有可能聽(tīng)出來(lái)的是錯(cuò)的,需要人工檢查,也可以到官網(wǎng)下載更大的模型,能識(shí)別出一些人名和地名,理論上模型數(shù)據(jù)越多,識(shí)別越準(zhǔn)確。開(kāi)源的模型畢竟比不上商業(yè)的模型,比如please識(shí)別成police,son識(shí)別成了sun,help識(shí)別成了health,us我們識(shí)別成了US美國(guó),上面這些錯(cuò)誤就算是在網(wǎng)易見(jiàn)外或者剪映我都見(jiàn)過(guò)。剪映只能識(shí)別日常對(duì)話,你用個(gè)醫(yī)療劇、法律劇或者科幻劇這些專(zhuān)業(yè)名詞很多的劇,剪映是識(shí)別成其他的文字的,網(wǎng)易見(jiàn)外因?yàn)槟P投?,所以情況會(huì)好一些。網(wǎng)易見(jiàn)外識(shí)別出來(lái)的字幕時(shí)間長(zhǎng)度有時(shí)候太長(zhǎng),有可能是十幾秒甚至幾十秒,但是都有智能標(biāo)點(diǎn)符號(hào)。剪映識(shí)別出來(lái)的字幕,網(wǎng)上有很多軟件可以直接導(dǎo)出srt,但是全部沒(méi)有標(biāo)點(diǎn)符號(hào),一條字幕換了幾個(gè)人說(shuō)話,中間一個(gè)標(biāo)點(diǎn)符號(hào)都沒(méi)有,如果片尾靜音時(shí)間超過(guò)幾十秒剪映就不識(shí)別了,直接結(jié)束。Vosk的情況在這兩者之間,智能標(biāo)點(diǎn)符號(hào)完全看軟件心情,有時(shí)候有標(biāo)點(diǎn),有時(shí)候沒(méi)有,而且標(biāo)點(diǎn)全部是句號(hào)。以上全部軟件都不能分清這句話是視頻里面哪個(gè)人說(shuō)的、根據(jù)說(shuō)話的人進(jìn)行斷句,據(jù)我所知,目前沒(méi)有一個(gè)軟件可以做到這么精確的語(yǔ)音角色識(shí)別,所以同時(shí)有幾個(gè)人吵架或者辯論的語(yǔ)音,不支持用這種方法打時(shí)間軸,所以需要人工檢查。就算是專(zhuān)業(yè)的字幕組聽(tīng)譯,我也見(jiàn)過(guò)有一些字幕組把he聽(tīng)成了she、is聽(tīng)成了was、eternal聽(tīng)成了internal,這個(gè)沒(méi)什么奇怪的,語(yǔ)音翻譯只是把他的模型里面最接近音頻發(fā)音的文字給識(shí)別出來(lái),只能做到盡量準(zhǔn)確,如果語(yǔ)速太快,一秒鐘說(shuō)了四五個(gè)單詞,或者很多專(zhuān)門(mén)的人名或者地名、醫(yī)療法律科幻專(zhuān)業(yè)名詞,模型里面沒(méi)有匹配到這個(gè)詞,就會(huì)找發(fā)音最接近的單詞代替,其他粵語(yǔ),日語(yǔ),韓語(yǔ)模型請(qǐng)大家自行測(cè)試。如果一個(gè)音頻有很多個(gè)語(yǔ)種,比如楊紫瓊最新的電影《瞬息全宇宙》,英文夾帶有各種不標(biāo)準(zhǔn)的普通話,粵語(yǔ),建議使用立體聲混音在SE里面調(diào)用百度語(yǔ)音輸入法語(yǔ)音識(shí)別自動(dòng)輸入,可以支持粵語(yǔ)和英文混合語(yǔ)音輸入,其他搜狗訊飛平臺(tái)沒(méi)試過(guò),請(qǐng)大家自行測(cè)試,不過(guò)這種識(shí)別方法比視頻時(shí)間長(zhǎng)度還要多兩三倍時(shí)間,也要人工檢查,而且現(xiàn)在很多筆記本都被閹割立體聲混音了,你有那個(gè)時(shí)間去搞混合語(yǔ)音輸入還不如直接人工檢查輸入字幕。
最后就是調(diào)整時(shí)間軸了,SE是根據(jù)FFmpeg打軸的,所以字幕顯示時(shí)間是完全匹配波形圖,人工打軸都沒(méi)這么準(zhǔn)確,畢竟這種體力活人類(lèi)是比不上機(jī)器的。但是人眼觀看字幕需要一個(gè)緩沖時(shí)間。有些字幕組的做法是在字幕結(jié)束時(shí)間之后延長(zhǎng)100毫秒~200毫秒,但是不會(huì)修改下一句字幕的開(kāi)始時(shí)間,如果間隔時(shí)間少于100毫秒~200毫秒,直接把上一句的結(jié)束時(shí)間改成下一句的開(kāi)始時(shí)間。這種方法看個(gè)人喜好,不過(guò)如果碰上語(yǔ)速太快的情況,還是有可能沒(méi)看完這條字幕就顯示下一條字幕了,就算你把兩條字幕合并在一起,時(shí)間間隔是0了,字幕還是按照原來(lái)的時(shí)間開(kāi)始和結(jié)束。我推薦的是一些藍(lán)光視頻的官方字幕和港臺(tái)影視頻道采用的方法,同時(shí)提前100毫秒和延遲100毫秒,使用Aegisub點(diǎn)擊計(jì)時(shí)→時(shí)間后續(xù)處理器調(diào)整時(shí)間軸,開(kāi)始時(shí)間和結(jié)束的時(shí)間里面填寫(xiě)100毫秒就可以了,如果上下兩條字幕間隔時(shí)間少于100毫秒,下一句的開(kāi)始時(shí)間就會(huì)改成上一句的結(jié)束時(shí)間,這樣就算語(yǔ)速太快。也能完整的看完字幕。
以上就是AI打軸的方法。你學(xué)會(huì)了嗎?
PS:說(shuō)一下SE的小技巧,可以在同步里面調(diào)整ass字幕的幀率,還可以導(dǎo)入sup圖形字幕簡(jiǎn)單修改時(shí)間軸、添加和刪除某一條字幕的圖片,還可以把srt字幕導(dǎo)出成為sup字幕,用鼠標(biāo)右鍵修改srt字幕的粗體、斜體、下劃線、顏色、字體、an8排列就行了,ass雙語(yǔ)雙色字幕可以先在編碼方式UTF8旁邊的格式那里轉(zhuǎn)換成帶有html格式的srt字幕再導(dǎo)出sup就行了。
聯(lián)系客服