大家在使用Midjourney的過程中有沒有出現(xiàn)過類似問題:不知如何去表達腦海中的想象,即使借助提示詞工具、數(shù)據(jù)庫工具等,也很難在眾多提示詞中找到滿意答案,只能不斷試錯。
那么,有沒有辦法可以更加智能地寫提示詞?于是我用GPT和提示詞工程搭建了一款A(yù)I繪畫提詞器,比如輸出“產(chǎn)品經(jīng)理”,提詞器會從6個維度展開提示詞聯(lián)想,任何一個關(guān)鍵詞都配置了GPT推薦的一個解釋。這時候點擊解釋,即可將解釋復(fù)制到臨時收藏夾中,隨后一鍵復(fù)制參數(shù),再將參數(shù)放到Midjourney里,即可得到解決方案。綜上,用戶可以通過一個非常短的輸入得到大量的輸出,且過程自主可控,并有各式各樣的提醒。
這個工具存在的意義即讓想象有更多的想象,比如輸入“皮卡丘”,它可以為你展示皮卡丘的外貌,這個時候?qū)⑦@些外貌信息給到Midjourney,就能更好地控制Midjourney的表現(xiàn);又或者輸入“水下攝影”,提詞器可以提供一些藝術(shù)家,我們可以用藝術(shù)家在Midjourney中控制畫面表現(xiàn);包括一些構(gòu)圖視角的參數(shù)也可以影響到畫面,且提詞器會為你解釋推薦理由。
當(dāng)然,這個工具的出現(xiàn)目的不在于取代屏幕前的你,而是為了幫助你獲得更多的想象和描述角度。
現(xiàn)階段,這款非常簡單的工具產(chǎn)品已經(jīng)有1萬多人次使用,且有12多萬次生成,我也借此建立了6個AI繪畫社群,感興趣的同學(xué)可以體驗一下:MidJourney.TalkGame.AI。
接著展開講解這款產(chǎn)品的研發(fā)工作流。我本身作為一個不懂任何代碼的設(shè)計師,要如何完成這款產(chǎn)品的開發(fā)?這時,就要借助GPT-4的力量了,大致的工作流如下:
產(chǎn)品策劃 → 產(chǎn)品設(shè)計 → 產(chǎn)品開發(fā) → 提示詞工程 → 上線
產(chǎn)品策劃階段:
吳恩達在其提示工程課中講到:編寫明確和具體的指令,留給模型足夠的思考時間。基于這點,我開始進行測試,比如詢問MidJourney“能否給我提供相應(yīng)的設(shè)計師,風(fēng)格要鮮明,描述他的風(fēng)格,并提供對應(yīng)的英文名”,MidJourney就給出了系列答案。隨后再迭代先前的提示詞,讓它按照你的規(guī)則進行輸出。最后,我們利用所得的東西返回前端。
產(chǎn)品設(shè)計階段:
在交互領(lǐng)域,我感受到了一個特征,即GUI(圖形用戶界面)會向LUI(自然語言交互界面)進化,LUI可以大大降低用戶的學(xué)習(xí)成本,更為簡單、直接。比如這款工具,界面工具只有一個輸入框,用戶輸入關(guān)鍵詞,輸入框下便可展開更多關(guān)鍵詞,以詞條形式展示。此時,鼠標懸浮詞條將有對詞條的推薦理由,用戶只需要挑選、點擊,然后一鍵復(fù)制。
產(chǎn)品開發(fā)階段:
GPT帶給我們更多的可能性,我便是在B站上搜索“自然語言編程”,嘗試讓GPT幫忙寫代碼。在產(chǎn)品開發(fā)上,所有的代碼都是由GPT完成的,我所做的事情,就是建立一個TST文檔,將代碼復(fù)制粘貼進去。過程中也會遇到問題,這個時候,你可以將問題丟給GPT,它會告訴你問題出在哪里,隨后你再解決即可。
就這樣,在某個深夜的凌晨四點,我終于將它開發(fā)出來了。過程中也有技術(shù)大佬的支持,比如幫忙搭建服務(wù)器等,最后,便搭建出了一個超級MVP。
提示詞工程階段:
基于MVP模型不斷地迭代,同樣“編寫明確和具體的指令,留給模型足夠的思考時間”,然后進行迭代,輸出不同維度的提示詞,通過這些產(chǎn)出,我們得到了最后的產(chǎn)品。
在能力標準上:
效率指標——在繁復(fù)地詞條記憶和詞庫篩選過程中,我們迭代了“聰明地提供詞條建議”,所以輸入一個簡單詞匯,工具便可以展開豐富聯(lián)想,效率至少提高了100%;
技術(shù)能力——通過對GPT進行數(shù)據(jù)集訓(xùn)練,而后提示詞工程生成JSON代碼,最后在前端頁面表現(xiàn)。這個過程中,GPT可以真正地服務(wù)于我們的工作流程,而不僅僅服務(wù)于對話;
于自身而言——我從一個不懂技術(shù)、不懂代碼的人,到結(jié)合GPT-4,實現(xiàn)了一個像模像樣的產(chǎn)品,開始學(xué)會運用AI能力解決用戶痛點。
以上實踐,讓我真正地參與到了這場AI變革當(dāng)中,并由一個將要被AI淘汰的設(shè)計師,轉(zhuǎn)型成為了一名推進AI發(fā)展的產(chǎn)品經(jīng)理,為淘汰設(shè)計師這件事,“貢獻了”一份綿薄之力。
我們基于斯坦福AI小鎮(zhèn)這款游戲的技術(shù)與場景,做了一款游戲demo《伊甸島》,這款A(yù)I游戲的一個目標在于,讓NPC不止有GPT的腦子,還有GPT的眼睛和GPT的身體,NPC可以充分地認知所處的世界,且NPC輸出的內(nèi)容和行為不脫離游戲場景,最終,用玩家與虛擬世界的交互去影響游戲走向。
可以看到,由GPT操縱的NPC遇難漂泊到了一座荒島上,NPC會和世界發(fā)生自主交互,目標是完成逃生。在這個過程中,玩家作為上帝可以進行有限的影響,玩家與虛擬世界的交互會影響游戲故事的走向,產(chǎn)生蝴蝶效應(yīng)。NPC則在過程當(dāng)中記憶它的事件,迭代執(zhí)行邏輯,并不斷地學(xué)習(xí)和相互協(xié)同。
而我們想探索AI Agent在極端環(huán)境下,是否會產(chǎn)生違背人性倫理的行為?最后的結(jié)果是沒有,GPT對這類現(xiàn)象的發(fā)生是有所限制的。
值得一提的是,在開發(fā)過程中,95%的美術(shù)資產(chǎn)全部是由AI生成的:
當(dāng)然,過程中也遇到了一些工作難點。
這里簡單介紹一下我們走過的彎路和突破點。
在道具資產(chǎn)上,我們起初通過復(fù)雜的提示詞以期望達到穩(wěn)定控制的效果,也嘗試使用MJ生成資產(chǎn)雛形,再使用SD去控制統(tǒng)一風(fēng)格,但效果都不是很好。所以最后我們通過藝術(shù)家的限定,實現(xiàn)對MJ產(chǎn)出結(jié)果的絕對控制,利用AI提詞器找到某個具體的藝術(shù)家,運用其設(shè)計風(fēng)格,最后得到結(jié)果。而產(chǎn)出的素材已經(jīng)基本符合做獨立游戲的要求,在一到兩個小時之內(nèi),我們便解決了所有的游戲資產(chǎn)。
原畫資產(chǎn)同樣都是由AI生成的,風(fēng)格統(tǒng)一,只需一個藝術(shù)家,便可解決原畫資產(chǎn)問題。
人物資產(chǎn)相對復(fù)雜一些,最后,我們通過MJ的皮克斯風(fēng)格實現(xiàn)對產(chǎn)出效果的控制,并使用SD文生圖加上ControlNet去統(tǒng)一風(fēng)格。可以看到,每個角色的形態(tài)都非常穩(wěn)定, MJ生成了穩(wěn)定角色,再利用SD轉(zhuǎn)換成手繪風(fēng)格。
地圖資產(chǎn)的生成也遵循大致相同的邏輯,即使用SD進行原始地圖生成,再使用MJ生成地皮紋理;游戲Logo資產(chǎn)也大致類似,使用SD的圖生圖模式,加上ControlNet的Canny、Reference和Tile進行風(fēng)格遷移。我唯一做的事情,便是用PS生成了一個底圖墊進去。
綜合上述內(nèi)容,可以看到我們的工作成果:
對于初學(xué)者而言,所謂的參數(shù)、工具可能會看起來很復(fù)雜,甚至不知如何操作。那么,有沒有什么方法可以直接抄大佬作業(yè)呢?比如我們可以下載源文件在PS里修修補補,最終得到自己的產(chǎn)出,那么這個過程,是否有可能復(fù)用到SD上?
結(jié)果是有可能的,即使用工具——SD工作流的開源插件,LightFlow。這款工具的使用很簡單,它可以將所有SD操作數(shù)據(jù)打包,生成工程文件,而后直接一步到位給到SD復(fù)原所有工作。
可是問題來了,我們要去哪里找LightFlow源文件呢?為了解決這個問題,我們搭建了一個SD工作流開源社區(qū):https://LightFlow.ai/ 。大家可以在社區(qū)上分享SD工作流,用戶在進入社區(qū)后挑選自己想要的效果,點擊下載,然后打開SD將文件拖拽進去,一鍵設(shè)置好所有參數(shù),最后,點擊生成。雖然過程可能看不明白,但無所謂,我們可以直接得到結(jié)果。
創(chuàng)作者也可以通過LightFlow導(dǎo)出所有操作數(shù)據(jù),上傳工作流,分享給社區(qū)用戶使用,從而建立自己的AI繪畫的影響力。使用者則可以挑選相應(yīng)的工作流,下載LightFlow源文件,通過LightFlow一鍵導(dǎo)入所有操作數(shù)據(jù),得到新的生成。
綜合來看,LightFlow極大地降低了初學(xué)者的學(xué)習(xí)門檻,可以實現(xiàn)“大口喂飯”、一鍵進階;而對于SD進階者而言,LightFlow則可以幫助保存優(yōu)質(zhì)工作流,從而實現(xiàn)快速復(fù)用、一鍵復(fù)現(xiàn)。SD進階者也可以發(fā)揚開源精神,幫助建設(shè)SD生態(tài)。
這也隱含著另一種商業(yè)化的可能性,比如SD大神可以幫助企業(yè)建立一系列可復(fù)用的工作流,而后打包給企業(yè),幫助企業(yè)團隊快速建立AI繪畫能力,實現(xiàn)降本增效,真的“讓AIGC像光一樣流暢”。
有一個概念,即“奇點時刻”,意思即電腦智能與人腦智能兼容的那個時刻。孫正義曾經(jīng)說道:
在30年后,計算機、人工智能,他們都將會比我們聰明,對此我深信不疑。所以我們只在一件事上投資了1000億美元,那就是人工智能。
某種意義上來看,ChatGPT 的出現(xiàn)其實就是一種“奇點時刻”,它用最簡單的方式改變了全世界對人工智能的一個看法。
而對于我們而言,這也是一個新的時代機遇,各行各業(yè)都可以用AI重新定義,而我們可以在落地應(yīng)用這一維度上發(fā)光發(fā)熱,因為太多的需求都可以被重新滿足,我們要盡可能去創(chuàng)造新的需求。比如對于大企業(yè)來說,AI提高生產(chǎn)力是很有效的,也是很有意義的,大企業(yè)可以在過程中實現(xiàn)降本增效。而對于小團隊或個人,則可能更應(yīng)該去考慮如何利用AI創(chuàng)造新的需求,從而實現(xiàn)“彎道超車”,創(chuàng)造更有意思的結(jié)果。
人人都可以發(fā)現(xiàn)新的、未被滿足的需求,譬如我先前的身份是設(shè)計師,了解設(shè)計師的需求所在,所以做了AI提詞器、搭建了SD工作流,而這些就是新出現(xiàn)的、未被滿足的需求。如果想突破,我們可以往這些方向進行琢磨。別想太多,做了再說。
最后,于我自己而言,我是一名忠實的 AI 降臨派。在《納瓦爾寶典》這本書中,有一個詞,即“專長”。我通過自己訓(xùn)練的一個蘇格拉底的GPT模型,找到了自己的“專長”——我是一個擅長發(fā)現(xiàn)新需求、擅長提升用戶體驗的人。而我的愿景,是推動AI的發(fā)展;我的夙愿,便是成為硅基生命的墊腳石。如果你們也和我一樣,那就真的“泰褲辣”!
目前大會回放已上架,戳此購買,即可收看回放:https://996.pm/7gX2B
題圖來自大會現(xiàn)場
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
聯(lián)系客服