來源丨海外獨角獸(ID:unicornobserver)作者丨h(huán)aina編輯丨penny題圖丨《太空歌劇院》由Midjourney生成文生圖賽道是 AIGC 概念下商業(yè)模式較成熟的領域,而 Midjourney 是其中最具競爭力的選手,是將 AIGC 技術成功產品化的代表。Midjourney 創(chuàng)始人堅持 AI 不是現(xiàn)實世界的復刻,而是人類想象力的延伸,塑造了充滿科幻色彩的產品定位。因最早開放公眾測試,能通過簡單的 prompt 生成獨具藝術感的圖片而收獲大量用戶。Midjourney 用戶數量飛速增長,并具有很強的盈利能力。其產品搭載在 Discord 上,擁有了超 1000 萬社區(qū)成員,是目前用戶最多的服務器,年營收約為 1 億美元。但 AI 技術發(fā)展日新月異,如近期出現(xiàn)的 ControlNet,將推動文生圖進一步深入設計工作流;而未來多模態(tài)模型的出現(xiàn)勢必會進一步顛覆目前的產品形態(tài)。雖通過差異化產品定位擁有了早期數據積累及活躍社區(qū),但作為上層應用,Midjourney 并沒有建立起穩(wěn)固的護城河,時刻面臨著挑戰(zhàn)。雖然無法確定該行業(yè)的終局,但我們認為 Midjourney 憑借著驚艷的圖片生成效果、活躍的 Discord 社群、通過數據飛輪建立的早期壁壘以及逐步的設計工作流滲透,在一定時間內能夠保持較強的盈利能力;其團隊的快速迭代能力也使其能夠緊跟技術的進步,保持產品的競爭優(yōu)勢。Thesis1. Midjourney 圖片生成效果驚艷,藝術風格在市場上具有差異化優(yōu)勢。Midjourney 的 prompt 簡短,具有明顯的科幻性,因圖片精美而具有更強的商業(yè)可行性,鎖定基數大、付費意愿強的創(chuàng)意設計用戶群,被大量實踐證明能顯著提高工作效率。相比之下,DALL-E2 偏寫實風格,Stable Diffusion 無風格偏向,但需要更長的 prompt 和更多的嘗試才能獲得好的圖片效果。2. Midjourney 巧妙地通過 Discord 社區(qū)搭建產品,具有社區(qū)優(yōu)勢。社區(qū)共創(chuàng)是藝術創(chuàng)作中不可缺少的要素,Discord 的交互形式也是吸引、留存用戶的一大要素。目前 Midjourney 已成為 Discord 用戶最多的服務器,擁有了超 1000 萬名社區(qū)成員。3. Midjourney 已形成數據飛輪,有利于建立競爭壁壘。Midjourney 最早開放 Openbeta 版本,通過龐大用戶量積累了獨有的數據集,形成數據飛輪,根據用戶需求針對性地訓練模型并快速迭代產品,長期來看更有利于建立競爭壁壘。4. 目前商業(yè)化仍在早期,潛在市場空間巨大。· 目前采取 SaaS 訂閱制模式,價格為 10 - 60 美元/月。雖未公布具體付費用戶數量,但根據客戶訪談可知用戶付費意愿較強。以目前用戶數量保守估計,年營收能到達約 1 億美元。· 付費用戶主要為創(chuàng)意設計人群和個人愛好者,若對標 Canva 的用戶群,以 Midjourney 目前訂閱價格計算,未來收入能達到約 23 億美元。· 技術的不斷迭代會改變目前的產品形態(tài)。如 ControlNet 的發(fā)布增強了生成圖片的可控性,進一步深入設計工作流;多模態(tài)模型會改變目前的單點產品現(xiàn)狀。未來 Midjourney 計劃開發(fā)多功能產品,創(chuàng)造更豐富的應用場景,進一步擴大市場想象空間。5. Midjourney 團隊技術和產品并重,具有“創(chuàng)業(yè)基因”。創(chuàng)始人 David Holz 為連續(xù)創(chuàng)業(yè)者,曾是 Leap Motion 創(chuàng)始人之一,團隊成員及顧問擁有 AI 技術及產品創(chuàng)業(yè)的復合背景;團隊成員僅 11 人,人效極高。由于技術發(fā)展迅速,Midjourney 必須緊跟技術發(fā)展,不斷迭代產品。目前來看,Midjourney 團隊在產品研發(fā)能力、開發(fā)速度方面都有較好的表現(xiàn)。文生圖應用的爆發(fā)2015 年,Google 研究員 Alexander Mordvintsev 創(chuàng)建了首個用于藝術創(chuàng)作的機器學習應用 DeepDream,這一應用被谷歌開源,首批藝術家通過算法生成藝術圖像。從那時起,AI 藝術生成開始走進大眾的視野中。2021 到 2022 年, 文生圖應用出現(xiàn)了突破性的進展,生成的圖像質量得到了迅速提高。2022 年初,用 Disco Diffusion 僅可以生成一些很有氛圍感的草圖;2 個月后,DALL-E2 相比 DALL-E 分辨率提高了 400%,已經可以刻畫細節(jié),生成準確的五官;如今,Stable Diffusion 和 Midjourney 創(chuàng)作的圖像更加精致且具有藝術感,并且將作畫速度縮短到 30s 。從技術視角來看,這是一場底層模型的飛躍式進步:從 GAN 轉變至 Diffusion 模型。2022 年前,文生圖的模型以生成性對抗網絡(GANs)為主。但因為在實踐中存在明顯不足,還不如用 Photoshop 等工具直接創(chuàng)作,無法用于商業(yè)化。
Midjourney botMidjourney 采取 SaaS 訂閱制模式。最初使用時,用戶可以免費生成 25 張照片。之后按照訂閱制收費。月付制為 10、30、60 美元,或者使用年付制,價格為 8、24、48 美元/月。值得注意的是,用戶只有在訂閱之后,才能擁有使用 midjourney 創(chuàng)作的圖片的版權。Midjourney CEO David Holz 曾說過:“人們在紙上繪畫只需要幾秒,但在電腦前卻需要幾分鐘到幾小時;這不是因為電腦不夠智能,也不是因為人們不知道自己想要什么,而是因為人類和計算機之間存在的某些障礙阻止了我們進行最基本的交換?!?Midjourney 想要加強人類與計算機的連接,將 “探索思想的新載體,擴展人類想象力” 作為目標。Midjourney 在 AI 公司 Value Chain 上占據了多個位置,擁有數據層、模型層、應用層整個技術棧。它參考 CLIP 及 Diffusion 構建了自己的閉源模型,抓取公開數據進行訓練,并構建了 Discord 中的 Midjourney bot 應用。作為應用層公司,Midjourney 收集用戶反饋數據,迭加技術的進步,不斷迭代模型。
AI's next frontier: building and investing in Large Language Models2022 年 3 月,Midjourney 啟動邀請制 Beta 版本。因為文生圖本身具有極強的吸引力,且 Midjourney 創(chuàng)作的圖片質量很高,所以很快就吸引了大量用戶。
Food Advertising Photography created by Midjourney
An image of a house for a pianist, designed by Tim Fu using Midjourney. Source: Tim Fu
情緒版 (mood board) 是指一系列圖像、文字或樣品的拼貼組合物,用來展現(xiàn)設計師對一個項目的想法或感覺。
NFT 從業(yè)者NFT 無疑也是文生圖的一大應用場景。Midjourney 目前被廣泛應用在 NFT 創(chuàng)作上,因此公司發(fā)布規(guī)定,如果在 "與區(qū)塊鏈相關的事物" 中使用 Midjourney 生成圖像,需要對每月超過 20,000 美元的收入部分支付 20% 的版稅。
NFTs Created by Midjourney個人愛好者Midjourney 用戶群體中不乏個人愛好者,如自媒體群體。文生圖大大降低了藝術創(chuàng)作門檻,使得普通用戶也可以成為藝術家和設計師,并通過 AI 創(chuàng)作獲取收入。為什么是Midjourney?Midjourney 是一款 AI 軟件,也是一個垂類 SaaS 產品,引用 Point Nine Capital 的創(chuàng)始合伙人 Christoph Janz 的觀點,垂直 SaaS 產品的成功離不開以下基本原則:對所在行業(yè)的客戶有更深入的了解;以最好的方式解決他們的具體問題;專門向目標的群體進行營銷/銷售;隨著時間的推移增加更多的功能層,增加 ACV( 平均客戶價值)和粘性。我們在 Midjourney 的產品中看到了以上特點,也在其未來發(fā)展規(guī)劃中看到了對增加 ACV 和用戶粘性的努力。驚艷的產品效果Midjourney 產品定位具體,“了解用戶到底需要什么”,商業(yè)可行性強,能在更大程度上提高創(chuàng)意設計的效率。正如 Discord 中的用戶評價:“ Midjourney 超過其競爭對手是因為它生成的圖片都是可以商業(yè)化的?!?具體而言,Midjourney 的 prompt 簡短,具有科幻色彩。相比之下,DALL-E2 更偏寫實風格,Stable Diffusion 無風格偏向,但需要更長的 prompt 和更多的嘗試來獲得好的圖片效果。
Mobile App UIs, created by midjourney
Prompt 包括圖片內容描述、藝術風格描述、藝術媒介&手段、光線描述、圖片細節(jié)描述等等,使用不同的 prompt 可以實現(xiàn)圖片的精細化調節(jié)。利用 Midjourney 獲得美術競賽數字藝術類別一等獎的 Théatre D’opéra Spatial (太空歌劇院),創(chuàng)作者 Jason Allen 經過了 80 個小時的創(chuàng)作、大約 900 次嘗試才完成了這個作品。
Midjourney Discord 社群界面
Four generations of Midjourney AI models released in 2022Midjourney 也在擴展地理版圖。目前已經登錄中國市場,使用微信內測群的方式提供服務。用戶在內測群中艾特 Bot,并輸入關鍵詞,就可以生成 AI 圖片。逐漸深入設計工作流Midjourney 替代了 Google Images、Shutterstock、Getty Images、Pinterest、Unsplash 等傳統(tǒng)圖庫平臺,用戶不再需要花費數小時搜索他人的作品激發(fā)靈感,而是直接生成,據稱可以將一個月的工作量降低至一星期。ToB 端,Midjourney 目前還主要在設計工作流初期。因為自定義能力有限,無法調整樣式;也無法與其他平臺集成,要生成滿意的圖片需要反復的嘗試;所以只能用于靈感激發(fā)和提高工作效率,對于工作流的滲透并不深入。近期發(fā)布的 ControlNet 使得 Diffusion 模型更好地受控生成圖片,提高了圖片生成的速度和精準度,并可以調整圖片細節(jié),將會進一步深入工作流,改變專業(yè)設計行業(yè)的生產模式。Midjourney 若要進一步深入工作流需盡快集成 ControlNet。
Style groups in midjourney — Image by Lars Nielsen由于用不同的 prompt 獲得的圖片效果差異很大,甚至出現(xiàn)了 prompt 交易平臺。PromptBase 就是一個包含 Midjourney、DALL-E2、GPT-3 等不同平臺 prompt 的交易平臺,產品定價為 1.99 - 5.99 美元不等,平臺抽傭 20%。目前為止,PromptBase 已有 1 萬多名用戶,最受歡迎的內容為 Logo、網站、服裝等商業(yè)化設計場景,能夠賣出幾百到幾千次。
Prompt 交易市場之所以能存在,一方面是因為人們表達能力的不同;另一方面是模型內部邏輯的原因,一些看似不合常理的詞語組合卻能獲得意想不到的效果。OpenAI 創(chuàng)始人 Sam Altman 在采訪中表示,未來的 AI 系統(tǒng)不會因為增補特定詞就產生截然不同的輸出,而是能更好地理解自然語言。所以未來,該平臺的價值會被表達能力更強的人捕獲。團隊背景Midjourney 正式團隊成員十分精簡,共 11 人。除了 CEO 之外,有 8 位研究與工程師,2 位財務與法務。除此之外,還有 4 位編外顧問,以及 60 位兼職 Discord 運營。CEO David Holz 高中時便嘗試創(chuàng)意領域的創(chuàng)業(yè),大學主修數學物理學,在攻讀流體力學博士的同時為 NASA 和 Max Planck 工作。之后創(chuàng)立了 Leap Motion,獲得來自 a16z、Founders Fund、Intel Capital 和 JP Morgan 的超 1.2 億美元投資。Leap Motion 的核心技術是手部追蹤技術,想要成為 Metaverse 中的“鼠標和鍵盤”,但因為 VR&AR 一直難以突破瓶頸,所以“鼠標和鍵盤”自然也缺乏應用場景。雖然 Holz 離開了 Leap Motion,但從未放棄 Metaverse 的藍圖,他創(chuàng)立了 Midjourney,或許也期待成為 Metaverse 中的生產力和 “大腦”。Midjourney 團隊的多個核心成員來自 Leap Motion,如 CFO Nadia Ali 和高級研發(fā)工程師 Johnathon Selstad。團隊成員及顧問擁有 AI 技術及產品創(chuàng)業(yè)的復合背景。這使得 Midjourney 不僅擅長模型優(yōu)化,也能夠理解用戶,打造優(yōu)秀的產品。David Holz 認為 AI 不應該被限制,而是人類應該去適應。他將 AI 比作水,既危險,又是文明的驅動力。懂得如何與水一起生活和工作的人類,將有能力在水中游泳、做船、筑壩發(fā)電,從而更好的生活。同時,他認為文生圖的核心并不是藝術或深度偽造(deepfakes),而是人類想象力的引擎。正是團隊的思維方式使得 Midjourney 的風格充滿了科幻色彩,也使其選擇了 Discord,以最開放的方式面向用戶。在 2022 年 8 月的采訪中,Holz 表示 Midjourney 目前不以財務回報為動機,也沒有成為上市公司的計劃。只是期待未來十年能夠做對個人和世界有意義的事情,并且從中享受樂趣。競爭格局競爭對手Midjourney 主要的競爭對手為以下幾家使用了 Diffusion 模型的文生圖軟件公司:
科技大廠也在文生圖領域積極布局,但速度較慢,目前僅僅發(fā)布了理論模型。Apple 若未來將 Stable Diffusion 嵌入 Iphone 中,可能會對行業(yè)格局產生較大影響。
傳統(tǒng)設計軟件也積極進入該領域,如 Photoshop 推出 Alpaca 插件,集成 Stable Diffusion,在 Twitter 上引發(fā)轟動,用戶將它描述為“a game changer",流暢的同工作流結合。傳統(tǒng)設計軟件占據了用戶熟悉的使用場景,且作為產品功能的一部分擁有組合價格優(yōu)勢,對 Midjourney 構成挑戰(zhàn)。
Midjourney vs. Stable DiffusionMidjourney 最有力的競爭對手是 Stability.AI,與 Midjourney 的閉源不同,其模型 Stable Diffusion 因開源模式受到了廣泛關注。Stable Diffusion 于 2022 年 8 月推出, 以開源底層代碼的形式在 HuggingFace/Github 公開發(fā)布?!皩?AIGC 交到數十億人手中,實現(xiàn)技術民主化”,用戶可以在其代碼的基礎上運行或修改,制作自己的應用程序,向終端用戶提供服務。作為稀缺的開源模型,同時有著良好的性能,公測后就受到了廣泛的關注和好評,積累了大量用戶。截止 2022 年 10 月,Stable Diffusion 已經有超過 20 萬開發(fā)者下載和獲得授權,各渠道累計日活用戶超過 1000 萬。團隊開發(fā)的付費在線平臺 DreamStudio 目前獲得了超過 150 萬用戶,生成超過 1.7 億圖片。Stable Diffusion 的開源優(yōu)勢在于能夠吸引大量的開發(fā)者,最大程度的把模型用起來。開源社區(qū)會齊心協(xié)力地完善模型文檔,共同推進 prompt engineering,解決技術難題。這使得代碼的迭代速度非???,優(yōu)化效率遠遠高于閉源系統(tǒng),使得文生圖行業(yè)快速成長和普及。同時社區(qū)成員會創(chuàng)建新的 UI,通過擴展現(xiàn)有的功能創(chuàng)造新的用例,因此 Stable Diffusion 模型上長出了繁榮的應用。缺點在于商業(yè)化不夠直接,可能為別人“做了嫁衣”。同時,Midjourney 與 Stable Diffusion 因使用的數據集及模型微調方式不同,在產品層面存在較大差異。· 產品定位上,Midjourney 是給創(chuàng)意設計群體開發(fā)的靈感激發(fā)及效率工具。而 Stable Diffusion 更為開放,在風格變化的多樣性上具有優(yōu)勢,但獲得想要的圖片效果需要更長的 prompt 和更多的嘗試,同時在特定領域都不如該領域的專業(yè)化產品。· 商業(yè)化維度,對比 Midjourney 的閉源與 Stable Diffusion 的開源,Midjourney 商業(yè)化層面更為占優(yōu)。因為模型閉源,并通過龐大的用戶量積累了獨有的數據集,可以根據用戶需求不斷地針對性訓練模型,長期來看更有利于建立競爭壁壘。在與 Stable Diffusion 的競爭中,因為其模型的開源,Midjourney 可以隨時集成其模型優(yōu)勢。· 用戶獲取層面,Midjourney 最早開放了 Openbeta 版本,短時間獲得大量用戶。但 Stable Diffusion 的商業(yè)化版本 DreamStudio 需要等待 Wait list,而開源模型的本地部署有較高的門檻。Midjourney 獲得大量用戶后,養(yǎng)成了用戶使用習慣,且在開啟付費訂閱后就進一步加強了用戶粘性。收入估算及未來發(fā)展收入估算雖然團隊一直表示不在意財務回報,但 Midjourney 具有極強的盈利能力。2022 年 8 月份,創(chuàng)始人 Holz 就聲稱 Midjourney 已經實現(xiàn)盈利。A16Z 也在《Who Owns the Generative AI Platform?》文章中提到 Midjourney 年收入已超過 1 億美金。因為沒有公開收入情況,我們在這里對它進行一個簡單的估算。假設 Discord server 用戶(約 1081 萬) 的 5% 是付費會員,共 54.05 萬人。若付費用戶的 70% (約 37.84 萬)訂閱每月 10 美元的基本計劃,25% (約 13.51 萬)訂閱每月 30 美元的標準計劃,5% (約 2.7 萬) 是每月支付 60 美元左右的公司用戶。則 Midjourney 目前的收入能達到每月約 945.9 萬美元,年收入 1.14 億美元。
因為 Midjourney bot 可以在所有 server 中使用,所以 discord server 用戶數小于總用戶數。
目前來看,Midjourney 的毛利率約為 80%。Midjourney 搭建在 Discord 上,Discord 會收取約 10% 的手續(xù)費。雖不清楚 Midjourney 的模型訓練成本,但 Stable Diffusion 的訓練共使用了 256 張 Nvidia A100,耗時 15 萬小時,成本為 60 萬美元。每次生成圖像的推理在云端的 GPU 上完成,生成一張圖片的成本約 0.5 美分一張,且未來成本會不斷壓縮。相對于訂閱收入,生成圖片的成本可以逐漸忽略不計。近期市場空間Midjourney 為付費訂閱的商業(yè)模式,廣泛滲透各個視覺場景。目前付費用戶主要為創(chuàng)意設計人群和個人愛好者兩大類。To smb 端,Midjourney 以 PLG 的模式成為專業(yè)設計從業(yè)者的辦公軟件。ToC 端,Midjourney 成為非專業(yè)設計師的工具,以及藝術愛好者的“玩具”。
我們根據客單價和付費用戶量建立了以下坐標軸,可以看到,Adobe 作為專業(yè)性極強的設計軟件擁有最高的客單價和最多的付費用戶,年訂閱收入遠超其他公司。Midjourney 因剛剛起步,付費用戶量少,但憑借著較高的客單價,有可觀的增長空間。
對比傳統(tǒng)設計工具,Midjourney 在使用門檻、客單價和目標客戶群的定位上都與 Canva 更為相近,面向更廣泛的 C 端和 smb 用戶。截止 2022 年底,Canva 用戶達到 1.1 億人,證明了全世界至少有 1.1 億人有設計需求。假設這 1.1 億設計人群中有 5% 會成為 Midjourney 的付費用戶,付費用戶的 70% 訂閱每月 10 美元的基本計劃,25% 訂閱每月 30 美元的標準計劃,5% 是每月支付 60 美元左右的公司用戶。則 Midjourney 的市場空間能達到 12*11000*0.05(0.7*10+0.25*30+0.05*60)= 11.6 億美元。所以 ,Midjourney 能看到 10 億美元左右的年營收,成長為百億美金的公司。未來產品形態(tài)Midjourney 未來可能會有以下幾種發(fā)展前景:1. Midjourney 將目前的圖庫功能做到極致。目前 Midjourney 替代了 Google Images、Shutterstock、Getty Images、Pinterest、Unsplash 等傳統(tǒng)圖庫平臺,成為新的“視覺搜索引擎”。Pinterest 擁有超 4.5 億月活用戶,若其中的 1% 能成為 Midjourney 的付費用戶,則能達到約 10 億美元的營收;樂觀來看,若 5% 能成為付費用戶,則能達到約 47 億美元的營收。2. Midjourney 不再局限于 Discord ,并且作為插件接入其他設計產品,仍扮演圖庫功能。如上文提到的 Canva、Adobe 等等,這將進一步增加其分銷渠道,觸達更多的付費用戶群。3. Midjourney 自己開發(fā)了端到端的產品,和設計工作流緊密結合,進一步提高客單價。功能方面,Midjourney 通過不斷集成最新的技術,迭代產品功能,打造產品矩陣。如近期可以通過接入 ControlNet 深入設計工作流,Holz 也稱短期內會在現(xiàn)有產品上增加 Text-to-3D,與 VR&AR 相結合。形態(tài)方面,搭建 Discord、網站、本地應用、插件等多維度產品組合,通過增加產品形態(tài)來為更廣闊的客戶群提供服務。4. 未來多模態(tài)模型的發(fā)布改變目前的單點產品現(xiàn)狀,Midjourney 作為功能單一的上層應用,被技術的快速進步所顛覆。Apple 計劃將 Stable Diffusion 嵌入 Mac 和 Iphone 中,作為用戶熟悉的平臺,且使用 Apple 終端推理成本更低、速度更快,也會對 Midjourney 構成挑戰(zhàn)。Midjourney 可能會被集成,變成多功能產品的一個環(huán)節(jié),甚至完全被新產品取代。不過 Apple 終端也并非是完美的解決方案,API 的形式將無法對垂直領域的模型進行特定化訓練;將應用放在本地也面臨著用戶數據收集及進一步迭代模型的困難。雖目前無法看清該行業(yè)的終局,但作為 ToC 屬性很強的產品,我們認為 Midjourney 憑借著獨特的圖片風格及藝術效果、活躍的 Discord 社群帶來的絕佳用戶體驗,在一定時間內能夠保持用戶粘性和較強的盈利能力;團隊的快速迭代能力也讓我們看好其未來的發(fā)展前景。參考材料:https://digitalnative.substack.com/p/ai-in-2023-the-application-layerhttps://stratechery.com/2023/ai-and-the-big-five/https://www.forbes.com/sites/robsalkowitz/2022/09/16/midjourney-founder-david-holz-on-the-impact-of-ai-on-art-imagination-and-the-creative-economy/?sh=3028d77e2d2bhttps://www.forbes.com/sites/kenrickcai/2022/09/07/stability-ai-funding-round-1-billion-valuation-stable-diffusion-text-to-image/?sh=66afb3b424d6https://www.bloomberg.com/news/features/2023-01-31/architects-embrace-ai-art-generator-midjourney?srnd=premium-europehttps://learn.g2.com/graphic-design-statisticshttps://mp.weixin.qq.com/s/6Fh76q0K0AsyqvFFRrY9Dw