機器之心報道
編輯:張倩
進入 2023 年,一個名為 ControlNet 的模型將 AI 繪畫水平推向了新的高峰。
從騎馬的宇航員到三次元小姐姐,在不到一年的時間里,AI 繪畫似乎已經(jīng)取得了革命性的進展。
這個「騎馬的宇航員」由 OpenAI 2022 年 4 月推出的文生圖模型 DALL?E 2 繪制。它的前輩 ——DALL?E 在 2021 年向人們展示了直接用文本生成圖像的能力,打破了自然語言與視覺的次元壁。在此基礎(chǔ)上,DALL?2 更進一步,允許人們對原始圖像進行編輯,比如在畫面中添加一只柯基。這一個看似簡單的操作其實體現(xiàn)了 AI 繪畫模型可控性的提升。
不過,就影響力而言,2022 年最火的文生圖模型并不是 DALL?E 2,而是另一個和它功能相似的模型 ——Stable Diffusion。和 DALL?E 2 一樣,Stable Diffusion 也允許創(chuàng)作者對生成的圖像進行編輯,但優(yōu)勢在于,這個模型是開源的,而且可以在消費級 GPU 上運行。因此,在 2022 年 8 月發(fā)布之后,Stable Diffusion 迅速走紅,短短幾個月就成了最火的文生圖模型。
在此期間,人們也在進一步探索各種控制這類模型的方法,比如 Stable Diffusion 背后團隊之一的 Runway 公司發(fā)布了一個圖像擦除和替換(Erase and Replace)工具,該工具可以修改圖像任何部分。用戶需要做的就是擦除該區(qū)域并編寫自然語言描述,剩下的交給程序就可以了。
谷歌和波士頓大學(xué)的研究者則提出了一種「個性化」的文本到圖像擴散模型 DreamBooth,用戶只需提供 3~5 個樣本 + 一句話,AI 就能定制照片級圖像。
此外,來自 UC 伯克利的研究團隊還提出了一種根據(jù)人類指令編輯圖像的新方法 InstructPix2Pix,這個模型結(jié)合了 GPT-3 和 Stable Diffusion。給定輸入圖像和告訴模型要做什么的文本描述,模型就能遵循描述指令來編輯圖像。例如,要把畫中的向日葵換成玫瑰,你只需要直接對模型說「把向日葵換成玫瑰」。
進入 2023 年,一個名為 ControlNet 的模型將這類控制的靈活度推向了高峰。
ControlNet 的核心思想是在文本描述之外添加一些額外條件來控制擴散模型(如 Stable Diffusion),從而更好地控制生成圖像的人物姿態(tài)、深度、畫面結(jié)構(gòu)等信息。
這里的額外條件以圖像的形式來輸入,模型可以基于這張輸入圖像進行 Canny 邊緣檢測、深度檢測、語義分割、霍夫變換直線檢測、整體嵌套邊緣檢測(HED)、人體姿態(tài)識別等,然后在生成的圖像中保留這些信息。利用這一模型,我們可以直接把線稿或涂鴉轉(zhuǎn)換成全彩圖,生成具有同樣深度結(jié)構(gòu)的圖等等,通過手部關(guān)鍵點還能優(yōu)化人物手部的生成。
這一模型在 AI 繪畫領(lǐng)域掀起了巨浪,相關(guān)項目 GitHub star 量已破萬。
項目鏈接:https://github.com/lllyasviel/ControlNet
雖然當(dāng)前很多人只是用它來生成二次元、三次元小姐姐,但其更廣泛的用途也被逐漸挖掘出來,比如房屋設(shè)計、攝影攝像、影視制作、廣告設(shè)計等。在這些場景中,ControlNet 被拿來和之前的一些工具一起使用,比如處理大模型微調(diào)問題的 LoRA、視頻 - 動畫轉(zhuǎn)換工具 EbSynth 等。這些工具的組合應(yīng)用加速了 AI 繪畫模型與生產(chǎn)過程的融合。
利用 ControlNet 和 EbSynth 等工具重新進行室內(nèi)裝潢設(shè)計。圖源:https://creativetechnologydigest.substack.com/p/controlling-artistic-chaos-with-controlnet (內(nèi)附完整教程)利用 ControlNet 和 Houdini 工具生成 3D 模型。圖源:https://www.reddit.com/r/StableDiffusion/comments/115eax6/im_working_on_api_for_the_a1111_controlnet/用 Dreambooth 和 ControlNet 改變 2D 圖像光照,可用于照片、視頻的后期制作。圖源:https://www.reddit.com/r/StableDiffusion/comments/1175id9/when_i_say_mindblowing_i_mean_it_new_experiments/用 ControlNet 和 EbSynth 實現(xiàn)動畫轉(zhuǎn)真人。雖然效果還不太好,但已經(jīng)顯示出了把動漫改編成真人版但無需演員出鏡的潛力。圖源 https://www.reddit.com/r/StableDiffusion/comments/117ewr9/anime_to_live_action_with_controlnet_ebsynth_not/某設(shè)計師利用 ControlNet 生成的著名品牌「新 logo」。圖源:https://twitter.com/fofrAI/status/1628882166900744194驚喜之余,這些技術(shù)的進展也讓繪畫等領(lǐng)域的從業(yè)者陷入焦慮和憤怒。焦慮的是,AI 可能會奪走自己的飯碗。憤怒的是,AI 生成的圖像很多是對當(dāng)前畫師的抄襲和模仿,畫師的知識產(chǎn)權(quán)受到了侵犯。
圖源:https://www.zhihu.com/question/583294094
在這些問題尚未解決的情況下,AI 繪畫在畫師圈成了一個尖銳的問題。很多人認為大家應(yīng)該一起抵制 AI 繪畫,共同捍衛(wèi)自己的權(quán)益。因此,當(dāng)某知名畫師疑似采用 AI 繪畫為某游戲工作室供稿的消息傳開后,其他畫師們被徹底激怒。
同時被激怒的還有游戲玩家。由于目前 AI 繪畫還存在一些局限,比如處理不好手部細節(jié)(仔細觀察本文第一張圖的小姐姐可以看出來),達不到玩家所要求的美術(shù)視覺效果精湛、人物富有個性和創(chuàng)意等要求,很多玩家產(chǎn)生了「被糊弄」的感覺。因此,上述游戲工作室只能緊急發(fā)布聲明,稱「不會在產(chǎn)品中使用 AI 作畫」。
但這種情況會持續(xù)多久呢?當(dāng) AI 繪畫的水平達到肉眼難以分辨的程度,你怎么知道你玩的游戲究竟出自畫師還是 AI,亦或二者組成的「團隊」?
圖源:https://m.weibo.cn/2268335814/4870844515358190
或許再過幾個月,AI 繪畫工具就會像程序員使用的 Copilot 一樣,成為繪畫師日常工作必不可少的工具。當(dāng)然,這也在無形中提高了這一行業(yè)的門檻,正如已經(jīng)被 AI「入侵」的其他行業(yè)一樣。如何在這樣的浪潮中保持自己的競爭力可能是每個人都應(yīng)該思考的問題。
聯(lián)系客服