相比于文生圖,圖生圖功能除了文本提詞框以外還多了一個圖片框的輸入口,因此,我們還可以通過圖片來給與AI創(chuàng)作的靈感。我們隨便照一張照片,直接拖入進來。然后可以看到,在文本輸入框的旁邊有兩個反推提示詞的按鈕:CLIP是可以通過圖片反推出完整含義的句子;DeepBooru是可以反推出關鍵詞組。 上面的那一張圖,我們通過兩種反推方式得到的提示詞分別為: CLIP——a young boy sitting on a bench with a toy train and a lego train set on the floor next to him, Adam Rex, detailed product photo, a stock photo, lyco art。(一個小男孩坐在長凳上,旁邊的地板上放著一輛玩具火車和一輛樂高火車,亞當·雷克斯,詳細的產(chǎn)品照片,一張庫存照片,萊科藝術,)DeepBooru——shoes, solo, hat, orange_background, yellow_background, smile, socks, black_hair, sitting, sneakers。(鞋子,獨奏,帽子,橙色背景,黃色背景,微笑,襪子,黑發(fā),坐著,運動鞋)可以看到兩種方式生成的提示詞都有些瑕疵,比如第一組里面沒有描述小孩的穿著,第二組里面沒有描述小孩的性別和周圍的物品,所以我們需要手動來補充提示詞的信息。寫好提示詞之后,我們再調(diào)整一下寬度和高度,讓這個紅框剛好匹配我們的圖片即可。接下來,最重要的是這兩個參數(shù):提示詞相關性和重繪幅度。我們使用Stable Diffusion中的【X/Y/Z plot】腳本來做一個參數(shù)對比,將X軸設置為提示詞相關性,取值范圍是1-30(+5),代表著從1到30,每次增加5;將Y軸設置為重繪幅度,取值范圍是0-1(+0.2),代表著從0到1,每次增加0.2 。這個對比結(jié)果,電腦一共需要生成42張圖片,結(jié)果如下:可以看到,提示詞相關性在6—11中間為最佳,大于11之后,畫面的色彩和臉型就開始崩壞了,尤其是當重繪幅度變大之后,較高的提示詞相關性會讓AI走向完全不同的畫風。 而重繪幅度的大小可以控制生成圖與原圖的相似度,在對比圖中可以看到,0.4時和原圖比較接近,0.6時畫面就變成了一個小女孩,當然這個數(shù)值也會因每幅圖的不同而有所差異。 通過對比,我們使用提示詞相關性7和重回幅度0.5,繪制如下:接下來是繪圖功能,比如我們現(xiàn)在想給這個人物增加一個紅色的眼鏡,可以使用紅色的畫筆工具做一個簡單的描繪,然后在提示詞中增加Red glasses,再點擊生成。如果我們想去掉衣服上的圖案,可以先用吸管吸取黃色部分,然后用畫筆涂上。再生成時就沒有圖案了。繪圖功能的話,每次生成都會重新調(diào)整整個畫面,但是局部重繪的話可以只改變我們涂抹的部分,現(xiàn)在我們將人物的頭部涂抹掉,文字提示改為“一個粉色頭發(fā)的女孩的臉”,點擊生成,就可以將頭部換掉了。我們再使用局部重繪(手涂蒙版),修改一下帽子的部分,增加提示詞“貓耳”,點擊生成。我們將這幅圖再次放入以圖生圖中,通過DeepBooru反推關鍵詞,并使用一個新的大模型“AbyssOrangeMix2”和LORA“blindbox”進行重新生成,便將圖片改成了這種2.5D的人物風格。 當然,目前的圖還有不少細節(jié)上的瑕疵,我們需要不斷地調(diào)整參數(shù)去讓繪圖更接近我們想要的狀態(tài),包括后期借助PS來進行修補也是非常必要的。但是,我們也能看到圖生圖功能又擁有的巨大潛力,AI繪圖的可操作性方面擁有了更多的想象空間。END我是一個IP設計師