大概半年前,AI 繪畫工具 Disco Diffusion 從 Text-to-Image 開發(fā)社區(qū)和設(shè)計(jì)行業(yè),火到了普通用戶的視野中。即便它界面簡(jiǎn)陋,滿屏英文和代碼,也“勸退”不了人們。因?yàn)閷?duì)那些沒有任何美術(shù)功底的他們來說,往輸入框?qū)懸恍《巫?,就能指?dǎo) AI 生成畫面足夠驚艷的畫作。
Simon_阿文用 Disco Diffusion 生成,他輸入的描述詞是 ?? ?? ??|作者授權(quán)
AI 繪畫工具進(jìn)化的速度,在這半年遠(yuǎn)超人們想象。Disco Diffusion 之后,搭在 Discord 群聊上的 Midjourney、OpenAI 擅長(zhǎng)寫實(shí)的 DALL·E 2、開源的 Stable Diffusion 等工具涌現(xiàn),它們更強(qiáng)大,更用戶友好,生成一張圖的時(shí)間甚至壓縮到了數(shù)秒。
AI 繪畫的熱度被一步步推高。在國內(nèi)一些電商平臺(tái),你甚至可以看到有零散商家在賣教程。
今天,我們整理了 3 個(gè)對(duì)普通用戶來說最容易上手的工具:它們中一個(gè)專于生成二次元畫作;一個(gè)社區(qū)氛圍濃厚,生成圖藝術(shù)感極強(qiáng);一個(gè)是國內(nèi)團(tuán)隊(duì)的產(chǎn)品,這回,你用中文揮灑創(chuàng)意!
Stable Diffusion
特點(diǎn):被認(rèn)為是最強(qiáng)的 AI 繪畫工具,已完全開源,市面上還有很多”魔改版“,比如專用來生成二次元人像的 Waifu Diffusion;
事前準(zhǔn)備:以下介紹的是 Stable Diffusion 的在線版本 DreamStudio,這種方案對(duì)設(shè)備沒有要求,只要用瀏覽器打開 https://beta.dreamstudio.ai/dream 即可。
相比 Disco Diffusion,Stable Diffusion 這個(gè)在線工具的界面非常簡(jiǎn)潔、友好,你打開網(wǎng)站后注冊(cè),然后在底下的輸入框?qū)懞妹枋稣Z句,點(diǎn)擊“Dream”就能一鍵生成,等待時(shí)間僅為數(shù)秒。
描述詞為 A dream of a distant galaxy(圖像主體), by Caspar David Friedrich(藝術(shù)家), matte painting trending on artstation HQ(繪畫風(fēng)格)丨界面截圖
界面右側(cè)還有一系列的調(diào)節(jié)選項(xiàng),從上到下分別是:
Width、Height:生成圖的長(zhǎng)寬尺寸;
Cfg Scale:大概可以理解為是圖像和描述詞(prompt)的匹配程度,高于 20 容易有失真效果;
Steps:模型生成圖片的迭代步數(shù),每多一次迭代都會(huì)給 AI 更多的機(jī)會(huì)去比對(duì)描述詞和當(dāng)前結(jié)果,默認(rèn)值為 50;
Number of images:生成圖的數(shù)量;
Sampler:擴(kuò)散去噪算法的采樣模式;
Seed:隨機(jī)種子,系統(tǒng)每次產(chǎn)生的隨機(jī)種子都不同,所以即使你原封不動(dòng)搬來了藝術(shù)家給的描述詞,也無法生成相同的圖片,但如果他給了你特定的隨機(jī)種子碼,就能生成。
基本的配置搞定后,開始做畫作生成中最關(guān)鍵的一步——寫描述詞。該怎么寫呢?官方提供了一份入門教程:
先輸入你圖像的對(duì)象、主體,比如一只熊貓、一個(gè)持劍的戰(zhàn)士,如果只是如此簡(jiǎn)單的描述,生成的風(fēng)格會(huì)非常隨機(jī),所以需要描述風(fēng)格來加以限定;
常被使用的風(fēng)格有寫實(shí)、油畫、鉛筆畫、概念藝術(shù)等,你可以指定你要的是一幅畫(a painting of raw prompt)還是一張照片(a photograph of raw prompt);
加上風(fēng)格鮮明的藝術(shù)家關(guān)鍵詞,來進(jìn)一步明確和加強(qiáng)生成圖的風(fēng),比如加上達(dá)芬奇、米開朗基羅、莫奈等,另外,官方還建議嘗試混合多個(gè)藝術(shù)家,這或許可以融合成更讓人驚嘆的效果;
還可以加上一些特定的描述詞,來完成最后的潤(rùn)色。比如,你如果讓畫面有更逼真的光照,可以帶上“Unreal Engine”,建議的關(guān)鍵詞還有 surrealism(超現(xiàn)實(shí)主義)、sharp focus(有銳利的對(duì)焦)、8k,甚至是“the most beautiful image ever seen”。
在線版本目前調(diào)教功能偏弱,比如無法批量生成圖像等,如果你想有更好的生成體驗(yàn),可以將已開源的 Stable Diffusion 部署到自己的電腦上,配置要求 RTX 2060 顯卡等 6GB 顯存(及以上)顯卡等。這里不展開了。
自 Stable Diffusion 開源以來,市面上迅速出現(xiàn)了它的各種“魔改版”,其中近期熱度最高的要數(shù) Waifu Diffusion。Waifu 指漫畫、動(dòng)畫、游戲中的一些女性角色,有些玩家、觀眾喜歡這類角色到了會(huì)將她們當(dāng)成妻子。可見,這是一個(gè)專于生成“紙片人”的模型。
界面截圖
只要打開 https://colab.research.google.com/drive/1_8wPN7dJO746QXsFnB09Uq2VGgSRFuYE#scrollTo=1HaCauSq546O,然后點(diǎn)擊上方的“全部運(yùn)行”,等幾分鐘就能看到描述詞的輸入框。
界面截圖
至于描述詞參考,可以在 Twitter 上搜索“waifudiffusion ALT”,之后你就會(huì)看到玩家們的圖像,圖像上如果有 ALT 標(biāo)識(shí),點(diǎn)開即可找到生成圖的描述詞。
界面截圖
在 Stable Diffusion 上試驗(yàn) AI 作畫的人太多了,各渠道累計(jì)日活用戶超過 1000 萬。創(chuàng)始人 Emad Mostaque 說,“我們遲早會(huì)到達(dá)每天生成 10 億張圖片的階段,尤其是當(dāng)動(dòng)畫生成的功能被解鎖后。”
現(xiàn)在,甚至有人建起了 AI 作畫關(guān)鍵詞相關(guān)的搜索引擎,比如 KERA。
界面截圖
目前,KERA 已經(jīng)收錄了百萬條關(guān)鍵詞,比如搜索“Elon Musk”就能得到以上結(jié)果,如果對(duì)某一個(gè)結(jié)果感興趣,還可以點(diǎn)進(jìn)去看看對(duì)應(yīng)的描述語句。
收費(fèi)標(biāo)準(zhǔn):有大概 200 張的免費(fèi)生成額度,之后需要付費(fèi)購買點(diǎn)數(shù)(生成越復(fù)雜,尺寸越大,消耗的點(diǎn)數(shù)越多)
版權(quán)要求:可以商用自己創(chuàng)作的圖像,但圖像如果是通過 DreamStudio 生成的,就自動(dòng)變成了 CC0 1.0 授權(quán),這樣,服務(wù)提供商 Stability.ai 也能處理你的圖像,無需付費(fèi)甚至不會(huì)經(jīng)過你同意,也會(huì)一并成為通用公共領(lǐng)域 royalty-free 的圖片資源。如果是你自己部署了開源的 Stable Diffusion,消耗的是你自己的 GPU 資源,那著作權(quán)都?xì)w你所有。
Midjourney
特點(diǎn):可以邊聊天邊生成,社區(qū)氛圍濃重,畫作藝術(shù)感強(qiáng);
事前準(zhǔn)備:備好電腦,以及注冊(cè)一個(gè)通訊軟件 Discord 的賬號(hào),打開 https://discord.gg/midjourney。
點(diǎn)擊上方鏈接進(jìn)入官方服務(wù)器后,你在左側(cè)頻道列表中找到任意一個(gè) #newbies 頻道進(jìn)入,然后在對(duì)話框輸入/imagine,在其后出現(xiàn)的填空框里輸入描述詞,按下回車。Midjourney bot 會(huì)在 60 秒內(nèi)生成 4 張圖像。
如圖所示的紅框內(nèi),是屬于我們 #newbies 的頻道 | Midjourney 頁面截圖
圖像生成后,下方會(huì)附帶 4 個(gè)“U”和 4 個(gè)“V”選項(xiàng),U 代表 upscaling(提升清晰度),V 代表 variations(基于已生成圖像的風(fēng)格再生成四張不同的圖像)。你可以點(diǎn)擊它們進(jìn)一步優(yōu)化圖像。
描述詞為埃德加·艾倫·坡的塔羅牌,新藝術(shù)風(fēng)格,安妮·麥卡弗里 --s 1250 | Midjourney 頁面截圖
Midjourney 設(shè)在一個(gè)人聲鼎沸的聊天室,初次接觸 Discord 的人或許會(huì)有些暈頭轉(zhuǎn)向,這里有幾點(diǎn)需要注意:首先,你在公開的頻道里試用時(shí),生成結(jié)果是所有人可見的!同時(shí),你的請(qǐng)求可能會(huì)混入快速變化的信息流,不要走開!如果真的找不到了,不要慌張,點(diǎn)擊右上角的收件箱找回你的請(qǐng)求。
任意時(shí)間點(diǎn)進(jìn)去,都有很多人在跟你一起玩 | Midjourney 頁面截圖
對(duì)于描述詞,官方給出了一些建議:
使用已經(jīng)存在大量視覺圖像的物體,比如 Wizard(巫師)、Angel(天使)、Rocket(火箭)等;
使用風(fēng)格、藝術(shù)家、繪畫媒介作為提示詞,比如賽博朋克、達(dá)利、吉卜力、水墨畫、雕塑等;
避免否定句,因?yàn)槟P屯ǔ?huì)無視它,比如當(dāng)你輸入“一頂不是紅色的帽子”,模型看到的更可能是“帽子”、“紅色”;
使用單數(shù)或具體數(shù)字,而非“一堆”、“很多”、“一些”;
避免空泛概念,你知道的,就是老板開會(huì)時(shí)經(jīng)常會(huì)說的那些,以及甲方的需求。
火龍,但是建筑草圖風(fēng)格
真正的“高玩”還可以加入一些“黑話”,也就是一系列以“--”為前綴的提示詞為圖片設(shè)定條件。比如,輸入--ar 16:9”,圖片比例會(huì)變成 16 乘 9;輸入“--s”加一個(gè)數(shù)值,你可以決定 AI 要在風(fēng)格化這條路上走多遠(yuǎn),數(shù)字越大越離譜,--s 60000,天知道會(huì)發(fā)生什么!”
實(shí)在寫不動(dòng)描述詞了,或者某張圖片符合你想要的感覺,也可以直接把圖片鏈接寫進(jìn)描述詞里。
看看別人是怎么寫的是個(gè)很好的學(xué)習(xí)渠道。當(dāng)然,你也可以隨時(shí)在 #prompt-chat 頻道禮貌請(qǐng)教:我想生成特定樣式的圖像,該用怎樣的提示詞呢?或者常在官方畫廊(https://www.midjourney.com/showcase/)那里逛逛,可以參考自己與別人生成的作品。
與別的模型相比,Midjourney 以其藝術(shù)性聞名。有人如此評(píng)價(jià),“Midjourney 就像一個(gè)有它自己風(fēng)格的藝術(shù)生?!鄙砩细街砂偕锨囆g(shù)家先輩的魂靈。
從生成結(jié)果也能看出,不管你輸入什么,Midjourney 都更傾向于給你輸出一幅繪畫一樣的圖像,而不是假照片。比如,同樣是面對(duì)描述詞“女孩發(fā)現(xiàn)生命的意義”,Midjourney 和 DALL-E 得到的分別是以上的樣子|https://dallery.gallery/midjourney-guide-ai-art-explained/
這也讓它備受美術(shù)領(lǐng)域青睞,此前廣受爭(zhēng)議的在數(shù)字藝術(shù)比賽上獲獎(jiǎng)的作品《太空歌劇院》就是由 Midjourney 生成(后用 Photoshop 潤(rùn)色)。
《太空歌劇院》|Jason Allen
新平臺(tái)層出不窮的情況下,讓 Midjourney 仍能保持吸引力的是它的超級(jí)社群——目前人數(shù)已經(jīng)超三百萬,遠(yuǎn)超原本占據(jù)頭部的 Minecraft 和《堡壘之夜》。在紅杉總結(jié)的當(dāng)前 AIGC 創(chuàng)業(yè)圖譜中,只有 Midjourney 同時(shí)具備了圖像生成和消費(fèi)者 / 社交兩項(xiàng)特性。
社群里,人們會(huì)自發(fā)地為新手答疑解惑,互相稱贊,大方分享自己使用的描述詞。官方也會(huì)定期發(fā)起主題創(chuàng)作,舉行 Office Hour。用創(chuàng)始人的話說,他想讓人們體驗(yàn)“一起做一件事”的快樂:你“畫”出一只“狗”,有人會(huì)添一筆把它變成“太空狗”,緊接著有人把它變成“阿茲特克太空狗”……
你能不能在 Midjourney 里用中文呢?也不是不可以,但它似乎不是很懂。
收費(fèi)標(biāo)準(zhǔn):任何人都可以免費(fèi)在公共頻道生成 25 張圖片,之后繼續(xù)使用需要會(huì)員訂閱。基礎(chǔ)會(huì)員價(jià)格為每月 10 美元,可生成 200 張圖片;標(biāo)準(zhǔn)會(huì)員為每月 30 美元,生成次數(shù)不限。
版權(quán)要求:公共頻道里生成的作品默認(rèn)為 CC BY-NC 4.0 版權(quán),意味著他人可任意使用或改動(dòng)你的這些作品。付費(fèi)用戶可以任意商用生成的圖片,但有一個(gè)例外,如果是一家年收入超 100 萬的公司在使用,就需轉(zhuǎn)而訂閱企業(yè)會(huì)員。
6pen
特點(diǎn):支持用中文描述,還列出了很多藝術(shù)家和風(fēng)格限定詞供參考;
事前準(zhǔn)備:在 iOS 平臺(tái)下載 app,或者打開 https://6pen.art/ 直接在網(wǎng)頁生成。
Disco Diffusion 大火之后,國內(nèi)一些團(tuán)隊(duì)開始嘗試降低其使用門檻,將它產(chǎn)品化,比如說重整 UI、提供云端算力、對(duì)模型做 finetune(微調(diào))等。6pen 就是其中一支團(tuán)隊(duì)。
6pen 基于市面上已有的開源模型 Latent Diffusion 和 Disco Diffusion,做了自研模型,還根據(jù)生成速度和體量,分別研發(fā)了擅長(zhǎng)小體量、簡(jiǎn)單場(chǎng)景的南瓜模型,和擅長(zhǎng)復(fù)雜場(chǎng)景,但響應(yīng)速度較慢的西瓜模型。官方表示,相比原版,自研模型比較重要的優(yōu)化部分,是提高分辨率和支持中文。
6pen 很自信,在合適的文本描述和風(fēng)格修飾下,他們相信 6pen 可以實(shí)現(xiàn)不輸于 Midjourney 甚至 DALL·E 2 的效果。
界面簡(jiǎn)潔,引導(dǎo)細(xì)致,還列出了很多藝術(shù)家和風(fēng)格限定詞供參考丨app 界面截圖
官方自己有一份非常詳細(xì)的使用教程,手把手教,親切地像生怕你學(xué)不會(huì)的老母親。
我們整理了這樣一些建議:
你可以直接使用中文描述!
描述詞要具體,講出你要的物體和它的特征,但物體不要太多,兩到三個(gè)就好;
放棄描述情緒和事件,模型不會(huì)懂什么是“她愛不愛我”并畫下來;
視角、細(xì)節(jié)和紋理、物體占據(jù)畫面的大小、色調(diào)、畫面特點(diǎn)、年代、渲染 / 建模工具,這些是模型可以處理的信息;
如果點(diǎn)選的參考藝術(shù)家畫過很多裸體,會(huì)有概率出現(xiàn)純黑的圖片(系統(tǒng)判定你在“搞黃色”);
描述詞之外,可以加入畫面類型、藝術(shù)家、尺寸等信息,他們有點(diǎn)像濾鏡,能讓你的畫看起來更像那么回事兒;
如果你有繪畫基礎(chǔ),可以自己畫底稿,再由 AI 在你的基礎(chǔ)上描繪具體場(chǎng)景,底稿建議使用色塊和形狀而非純線稿,因?yàn)?AI 不會(huì)自動(dòng)填色。
官方給的描述詞案例丨界面截圖
此外,6pen 還會(huì)返回每個(gè)生成過程的迭代圖,Loss 曲線,甚至電量消耗等數(shù)據(jù),讓用戶更好了解生產(chǎn)過程,幫助改進(jìn)。
在等待生成期間,6pen 會(huì)讓你為一些生成作品投票,看看哪張作品效果更好。這時(shí)你會(huì)覺得自己像一個(gè)給 AI 的打工者,幫助模型升級(jí)進(jìn)步。
6pen 的創(chuàng)始人王登科指出過 AI 繪畫技術(shù)目前的不足,比如人的肢體(主要是手指)和眼球效果較差,多主體對(duì)象生成效果差,也無法進(jìn)行有邏輯延續(xù)的故事性生成。
收費(fèi)標(biāo)準(zhǔn):可以免費(fèi)排隊(duì)生成,也可以付費(fèi)快速生成,價(jià)格為 0.1 元起;
版權(quán)要求:6pen 的自研模型都采用 MIT 協(xié)議開源,生成出來的圖片版權(quán)完全授權(quán)給生成者本人。6pen 也支持采用 CC0 協(xié)議的 Stable Diffusion,這時(shí)產(chǎn)生的作品版權(quán)就不由生成者獨(dú)享了。生成者如果使用了還在世的藝術(shù)家作為畫面參考,且生成作品的風(fēng)格與藝術(shù)家相似,也可能存在版權(quán)爭(zhēng)議。同理,如果使用了參考圖,且參考圖并非原創(chuàng) (如攝影、繪畫),那么生成的結(jié)果也存在版權(quán)爭(zhēng)議。
AI 繪畫還在狂奔路上,現(xiàn)在這些工具解決的是“寫寫字就能畫畫”,未來可能會(huì)進(jìn)一步解決“寫寫字就能畫多好”的問題。
隨著這些工具的基礎(chǔ)功能,以及背后的模型逐步完善,我們要爭(zhēng)的,就是如何寫 prompt 了。
那天,我看到有人問“prompt 這個(gè)詞現(xiàn)在有中文翻譯了嗎?”底下有人回答,“咒語?!?/strong>
參考文獻(xiàn)
[1] 中國 AI 繪畫行業(yè)調(diào)查報(bào)告——技術(shù),用戶,爭(zhēng)議與未來 https://mp.weixin.qq.com/s/CSdAfew2wPbt2yhsNWav8g
[2] 當(dāng)下最強(qiáng)的 AI art 生成模型 Stable Diffusion 最全面介紹 https://mp.weixin.qq.com/s/Q4ZYjUxt22Jsx2W2179C8Q
[3] @Simon_阿文 的微博“這是我所知道的關(guān)于 AI 繪畫的一切” https://share.api.weibo.cn/share/342626167,4780343335326874.html?weibo_id=4780343335326874
[4] https://midjourney.gitbook.io/docs/
[5] https://www.nytimes.com/2022/09/02/technology/ai-artificial-intelligence-artists.html
[6] https://tokenizedhq.com/midjourney-copyright-commercial-use/#:~:text=Can%20I%20use%20Midjourney%20commercially,Midjourney%20for%20any%20business%20purpose.
作者:翁垟、睿悅、biu
聯(lián)系客服