今年下半年,生成式 AI 作畫突然爆火,許多人都對(duì)這種“以文生圖”的 AI 作畫感到好奇,并且進(jìn)行了自己的嘗試。在 AI 的幫助下,不乏一些讓人驚嘆的美術(shù)作品出現(xiàn),比如今年 8 月,美國(guó)游戲設(shè)計(jì)師 Jason Allen 就憑借一幅 AI 繪畫作品《太空歌劇院(Théatre D'opéra Spatial)》,獲得了美國(guó)科羅拉多州博覽會(huì)美術(shù)競(jìng)賽一等獎(jiǎng)。
《太空歌劇院(Théatre D’opéra Spatial)》,作者:Jason M. Allen
在欣賞 AI 作品的同時(shí),我們也不能忽略人工智能在作畫時(shí)產(chǎn)生的問題。
01
作品質(zhì)量參差不齊
首先就是作品質(zhì)量問題。像剛才提到的獲得一等獎(jiǎng)的《太空歌劇院》,其實(shí)也是被設(shè)計(jì)師進(jìn)行了多次修改,花費(fèi)了近 80 個(gè)小時(shí)后才得到的作品。在一些情況下,如果沒有人為的后續(xù)修改,那么 AI 繪畫的作品可能會(huì)“慘不忍睹”。
這是因?yàn)楸M管人工智能作品充滿了沖擊力和視覺張力,但和幾乎所有其他的深度學(xué)習(xí)模型一樣,在理解知識(shí)、推理、邏輯方面做得都不夠好。例如“畫一張世界上最大的貓科動(dòng)物的圖片”,甚至是“一只狗坐在一只貓的左邊”,都不會(huì)產(chǎn)生符合邏輯或常識(shí)的圖片。在生成偏寫實(shí)風(fēng)格的人類圖片的時(shí)候,有時(shí)候會(huì)因?yàn)槲⑿〉钠町a(chǎn)生“恐怖谷效應(yīng)”,讓人感到不適。
另一個(gè)已經(jīng)被廣泛注意到的問題,是人工智能經(jīng)常會(huì)生成奇形怪狀的手。
圖片來源:用戶在社交網(wǎng)絡(luò)上分享的圖片
這種現(xiàn)象的原因很可能是手部是人類身體上形狀最豐富的結(jié)構(gòu)之一——人的一只手有超過 20 個(gè)關(guān)節(jié)(相較而言,臉上只有 1 個(gè)關(guān)節(jié))。
而且在大部分用來訓(xùn)練的圖片中,手部經(jīng)常不是最核心的部位,所以角度不同、距離不同、手勢(shì)不同、還會(huì)被陰影和其他物體遮擋。
甚至還有些更加奇特的“手”,它們的手的形狀和手指數(shù)都不相同,但也都會(huì)被標(biāo)注成“手”,讓模型覺得它們的形狀——以及它們形狀的平均形態(tài),可能都是合理的,也就因此產(chǎn)生了各種崎嶇的手。
甚至這些也可以被標(biāo)注為“手”,圖片來源:《精靈寶可夢(mèng)》《黑貓警長(zhǎng)》《機(jī)器貓》和《忍者神龜》的動(dòng)畫介紹截圖。
另一個(gè)有趣的例子是,一家公司的團(tuán)隊(duì)照片幾乎都是通過人工智能技術(shù)生成的。如果仔細(xì)看的話,還是能發(fā)現(xiàn)一些線索。例如,第一排左起第二個(gè)人只帶了一個(gè)耳環(huán),第二排左起第二個(gè)人的耳朵輪廓不太正常。
圖片來源:Business Insider 截取了這家公司的網(wǎng)頁(yè)截圖。
可以看到,和開頭的獲獎(jiǎng)作品不同,AI 作畫在寫實(shí)風(fēng)格上還是存在不少問題的,但這并不妨礙人們對(duì) AI 作畫的嘗試和使用,同時(shí)還在幫助設(shè)計(jì)者們對(duì) AI 不斷優(yōu)化。畢竟讓機(jī)器有創(chuàng)造力一直是人工智能的最高理想之一,所以生成任務(wù)就成了衡量機(jī)器創(chuàng)造力的標(biāo)準(zhǔn)。
02
AI 也會(huì)產(chǎn)生偏見和刻板印象
除了質(zhì)量問題外,人工智能生成的內(nèi)容還有可能產(chǎn)生各種倫理問題。比如在語(yǔ)言模型上時(shí)常會(huì)出現(xiàn)的偏見和刻板印象,在圖片生成中也有體現(xiàn),例如生成“大公司 CEO”大概率會(huì)出現(xiàn)一個(gè)白人成熟男性的形象。更大的擔(dān)憂在于大量虛假內(nèi)容很可能會(huì)操縱公眾注意力和觀點(diǎn)。
每一次修改或生成內(nèi)容的新技術(shù)出現(xiàn),都會(huì)引發(fā)這樣的擔(dān)憂。技術(shù)的進(jìn)步讓生成虛假內(nèi)容的門檻變得越來越低,人們認(rèn)為,AI 技術(shù)有可能會(huì)讓虛假信息空前繁榮,因此傷害社會(huì)。除了推動(dòng)立法外,開發(fā)便捷的生成檢測(cè)技術(shù)也是必要的。
03
AI 生成的歷史
除了最近非常受歡迎的圖片生成,AI 創(chuàng)作還包括文字(問答、對(duì)話、詩(shī)歌、小說)和視頻生成,只不過,AI 在創(chuàng)造上還需要更多的訓(xùn)練和學(xué)習(xí)。
第一個(gè)能保證質(zhì)量水準(zhǔn)的 AI 創(chuàng)造模型是對(duì)抗生成網(wǎng)絡(luò)(Generative Adversarial Network,下簡(jiǎn)稱:GAN),它包括了一個(gè)生成器(G)和一個(gè)對(duì)抗(分類)器(A)。生成器需要不斷訓(xùn)練自己,得到逼真的圖片,騙過分類器;而分類器則要盡量將生成的圖片和真實(shí)的圖片區(qū)分開來。
GAN 的作者伊恩·古德費(fèi)洛(Ian Goodfellow)在原始論文里用一個(gè)假想的警察和假鈔犯來舉例子:警察不停地使用越來越強(qiáng)的驗(yàn)鈔機(jī),逼迫假鈔犯露出馬腳,但隨著驗(yàn)鈔機(jī)的能力越來越強(qiáng),假鈔機(jī)的模仿能力也變得更強(qiáng)。
最早的 GAN 放在今天看,效果其實(shí)并不好。圖片來源:伊恩·古德費(fèi)洛等人于 2014 年發(fā)表的論文《對(duì)抗生成網(wǎng)絡(luò)(Generative Adversarial Nets)》
最早的 GAN 其實(shí)效果一般,但隨后各種 GAN 的變體開始像雨后春筍一樣涌現(xiàn)出來。其中,相當(dāng)有名的是 StyleGAN,它能生成極為逼真的人臉。這些人臉和任何已有的人臉都不相同,是由計(jì)算機(jī)全新創(chuàng)作出的面孔。
StyleGAN 生成的高清人臉。值得注意的是,這些人臉并非從真人照片中修改而來,而是模型從零開始生成的全新人臉。圖片來源:Tero Karras 等人于 2019 年發(fā)表的論文《一種基于風(fēng)格的生成對(duì)抗網(wǎng)絡(luò)生成器架構(gòu)(A Style-Based Generator Architecture for Generative Adversarial Networks)》。
作為圖片生成模型,GAN 仍然有很多缺點(diǎn)。例如,不同的場(chǎng)景需要訓(xùn)練不同的 GAN 模型,但需求的種類是無(wú)限的,有些場(chǎng)景也會(huì)非常復(fù)雜。所以,GAN 只能理解專門用于某個(gè)場(chǎng)景的訓(xùn)練圖片數(shù)據(jù),而無(wú)法理解人類的語(yǔ)言,因此不能通過文字控制圖片的生成。
04
風(fēng)格逐漸豐富的 AI 創(chuàng)作
新的模型很大程度上解決了這一問題。2021 年 1 月,美國(guó)研究機(jī)構(gòu)OPEN AI 發(fā)布了 DALL·E,OPEN AI 隨后又在 2022 年 4 月公布了 DALL·E 2。和 GAN 相比,DALL·E 是預(yù)先訓(xùn)練好的大模型,也有理解人類語(yǔ)言的能力,所以只需要用戶輸入一段文字,就能直接生成對(duì)應(yīng)的圖片,不再需要每次都根據(jù)對(duì)應(yīng)數(shù)據(jù)集重新訓(xùn)練。
因?yàn)椴辉傩枰?xùn)練模型的專業(yè)知識(shí),直接輸入文字就能生成效果驚人的圖片,DALL·E 2 在國(guó)外的社交網(wǎng)絡(luò)上引起了巨大轟動(dòng)。大家紛紛嘗試用各種各樣奇怪的文字輸入模型,再把生成的圖片公布出來,一度形成了網(wǎng)絡(luò)迷因。
很快,大家發(fā)現(xiàn),DALL·E 2 不僅能準(zhǔn)確地生成各種實(shí)體,比如動(dòng)物、植物、建筑、人,還能按照要求改變繪畫風(fēng)格,從寫實(shí)照片到數(shù)字藝術(shù),從油畫到簡(jiǎn)筆畫,從梵高到安迪霍爾,從中國(guó)國(guó)畫到日本浮世繪,從毛線織物到橡皮泥風(fēng)格。只需要在輸入文字中加入一兩個(gè)描繪風(fēng)格的詞,DALL·E 2 就能自動(dòng)生成符合這種風(fēng)格的圖片。
圖片來源:DALL·E 2官網(wǎng)
圖片來源:DALL·E 2官網(wǎng)
圖片來源:用戶在社交網(wǎng)絡(luò)上分享的圖片
更令人驚訝的是,DALL·E 對(duì)語(yǔ)言的內(nèi)涵經(jīng)常有非常準(zhǔn)確的理解,因此在面對(duì)一些完全虛構(gòu)的場(chǎng)景時(shí),也能生成帶有復(fù)雜邏輯的驚人圖片。例如:
圖片來源:用戶在社交網(wǎng)絡(luò)上分享的圖片
圖片來源:用戶在社交網(wǎng)絡(luò)上分享的圖片
除了 OpenAI,谷歌也隨后推出了自己的模型 Disco Diffusion。在技術(shù)原理上它和 DALL·E 很類似,但允許藝術(shù)家在輸入主題文字外,還能控制一些圖片參數(shù)。
圖片來源:用戶在社交網(wǎng)絡(luò)上分享的圖片
圖片來源:用戶在社交網(wǎng)絡(luò)上分享的圖片
雖然這些模型都很強(qiáng)大,但卻不能理解中文,也難以生成有中國(guó)特色的圖片,例如國(guó)畫。因此,很多中國(guó)的機(jī)構(gòu)也在訓(xùn)練有創(chuàng)作能力的模型。百度于 2022 年 8 月發(fā)布了文心一格,不僅可以接受中文輸入,還能生成中國(guó)國(guó)畫或帶有古詩(shī)詞意境的圖片。
在百度文心一格上生成的“江南水鄉(xiāng)”
05
AI 創(chuàng)作的版權(quán)問題
最后,人工智能模型生成的作品也面臨版權(quán)爭(zhēng)議。美國(guó)版權(quán)局多次判決,擁有版權(quán)的只有可能是自然人,不能是程序或者機(jī)器。另外,有很多人工智能團(tuán)隊(duì)在沒有征求原作者同意的情況下就用他們的作品用預(yù)訓(xùn)練模型,這也引起了廣泛的爭(zhēng)議。目前,已經(jīng)有程序員群體在起訴微軟的 Github 和 Open AI,因?yàn)樗麄冋J(rèn)為這兩個(gè)機(jī)構(gòu)使用他們的代碼訓(xùn)練自動(dòng)寫程序的模型。不過,因?yàn)槿斯ぶ悄艿膭?chuàng)作模型仍是一個(gè)非常新的產(chǎn)品,所以各方的邊界都沒有被法律明確界定,可能還需要更多的案例才能逐漸明晰。
作者|管心宇
審核|馬珂 阿里云 人工智能計(jì)算機(jī)視覺 高級(jí)工程師