AIGC:Stable Diffusion(一項普通人就能實現(xiàn)的AI前沿科技)的簡介、Stable Diffusion2.0的改進(jìn)、安裝、使用方法(文本到圖像/圖像修改/超分辨率/圖像修復(fù))之詳細(xì)攻略
導(dǎo)讀:Stable Diffusion能夠通過文本 prompt 生成圖像,執(zhí)行圖像的超分辨率、風(fēng)格遷移、圖像修復(fù)等任務(wù),隨著影響力逐漸變大,基于Stable Diffusion 二次開發(fā)應(yīng)用會越來越多。當(dāng)然,它最牛叉在,它不僅是一個開源模型,而且能夠在消費級GPU上就能運(yùn)行,關(guān)鍵是效果還不錯,相比AIGC的明星產(chǎn)品DALL-E 2,Stable Diffusion是一項普通人就能自行部署、自己娛樂的AIGC科技產(chǎn)品。
近期,Hugging Face社區(qū)以Stable Diffusion為核心的技術(shù),構(gòu)建了一個包含擴(kuò)展和工具的龐大生態(tài)系統(tǒng),這也極大地推動了Stable Diffusion的迅速發(fā)展。
那么,Stable Diffusion到底有多優(yōu)秀呢?舉個例子吧,就在前幾天,蘋果官方開發(fā)人員親自部署優(yōu)化,手把手教大家如何直接將 Stable Diffusion 模型轉(zhuǎn)換為自家 iPhone、iPad 和 Mac 可以運(yùn)行的版本,從而實現(xiàn)在C端快速出圖。能夠讓互聯(lián)網(wǎng)科技巨頭公司主動采用,Stable Diffusion本身確實非常了不起,打鐵還需自身硬呀。
Stable Diffusion模型的簡介
Stable Diffusion模型的背景
作者
Robin Rombach?*、?Andreas Blattmann?*、?Dominik Lorenz、?Patrick Esser、?Bj?rn Ommer
作者來自Stability AI的Robin Romabach和AI視頻剪輯技術(shù)創(chuàng)業(yè)公司Runway ML的Patrick Esser,由Bj?rn Ommer教授博士領(lǐng)導(dǎo)。該項目的技術(shù)基礎(chǔ)主要來自于這兩位開發(fā)者之前在計算機(jī)視覺大會 CVPR22 上合作發(fā)表的潛擴(kuò)散模型(Latent Diffusion Model)研究,并且得到了 LAION 和 Eleuther AI 兩大開源組織的大力支持。
組織
Stability AI,LAION,Eleuther AI
時間
Stable Diffusion2.0:2022年11月24日
Stable Diffusion1.0:2022年08月08日
官網(wǎng)
Stable Diffusion 2.0 Release — Stability.Ai
Github
https://github.com/Stability-AI/stablediffusion
論文
《High-Resolution Image Synthesis with Latent Diffusion Models》
Arxiv:https://arxiv.org/abs/2112.10752
CVPR:CVPR 2022 Open Access Repository
Stable Diffusion模型的各方評價
Stability AI團(tuán)隊激動地說,就像Stable Diffusion的第一次迭代一樣,我們努力優(yōu)化模型,讓它在單個GPU 上運(yùn)行,因為我們希望從一開始就讓盡可能多的人可以使用它。
創(chuàng)始人兼CEO Emad Mostaque談及了Stability AI創(chuàng)立的初衷、使命和終極目標(biāo)。一直以來Emad致力于為研究者消除計算和資金的限制。
Emad 相信,圖像才是殺手級的應(yīng)用。圖像生成模型可以迅速創(chuàng)造,并引導(dǎo)人們迅速消費。它們的競爭對手是Snapchat或TikTok,在那里你可以創(chuàng)建像Pokémon GO這樣火爆的游戲。但同時,它們也能被以足夠低的成本,又好又快地整合到許多不同的領(lǐng)域。
Emad 認(rèn)為像DALL-E 2這樣對人類有積極作用的技術(shù),應(yīng)該被廣泛應(yīng)用,只有這樣,才能擴(kuò)大它們積極的一面,并遏制它們的負(fù)面用途。
Stability AI 的產(chǎn)品副總裁興奮的表示:Stable Diffusion 2.0 是有史以來發(fā)布的最強(qiáng)大的開源項目之一。這是邁向創(chuàng)造力、表達(dá)能力和溝通民主化的又一大步。
業(yè)界普遍認(rèn)為,Stability AI的迅速崛起給OpenAI造成了不小壓力。John Carmack(AGI初創(chuàng)公司Keen Technologies創(chuàng)始人,前Oculus CTO)表示:Stable Diffusion是一個開源炸彈。OpenAI雖然資金充裕,但從商業(yè)化以及產(chǎn)品化的角度很難與其匹敵。
Stability AI公司的簡介
Stability AI,總部位于英國倫敦,公司背后的出資人是數(shù)學(xué)家、計算機(jī)科學(xué)家Emad Mostaque,來自孟加拉國,今年39歲,畢業(yè)于牛津大學(xué)數(shù)學(xué)和計算機(jī)科學(xué)學(xué)院,曾在一家對沖基金公司工作過13年。憑借Stability AI和他的私人財富,Mostaque希望能夠培育一個開源AI研究社區(qū)。創(chuàng)業(yè)公司之前就支持創(chuàng)建「LAION 5B」數(shù)據(jù)集。
OpenAI創(chuàng)立之初的愿景,是希望把人工智能帶給大眾,將技術(shù)民主化。正如Stability AI官網(wǎng)頂部的Slogan是AI by the people,for the people。Stability AI 是一家基于使命驅(qū)動的開源AI,Stability AI的目標(biāo)是在學(xué)術(shù)和產(chǎn)業(yè)界之外打造第三極。為獨立研究者和學(xué)術(shù)研究者消除障礙,來建立類似Eleuther AI, LAION等的新模式。
Stability AI不光有Stable Diffusion,還聚集了EleutherAI和LAION等知名開源項目,以及生物模型OpenBioML、音頻生成Harmonai、人類偏好學(xué)習(xí)Carperai、新冠研究Caiac和多模態(tài)DeepFloyd等更多項目。
2022年10月26日,Stability AI公司的Stable Diffusion的AI文生圖模型,宣布獲得了1.01億美元,估值已到達(dá) 10 億美元,成為新晉獨角獸。
Stable Diffusion模型的論文介紹
《High-Resolution Image Synthesis with Latent Diffusion Models》論文摘要
By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guiding mechanism to control the image generation process without retraining. However, since these models typically operate directly in pixel space, optimization of powerful DMs often consumes hundreds of GPU days and inference is expensive due to sequential evaluations. To enable DM training on limited computational resources while retaining their quality and flexibility, we apply them in the latent space of powerful pretrained autoencoders. In contrast to previous work, training diffusion models on such a representation allows for the first time to reach a near-optimal point between complexity reduction and detail preservation, greatly boosting visual fidelity. By introducing cross-attention layers into the model architecture, we turn diffusion models into powerful and flexible generators for general conditioning inputs such as text or bounding boxes and high-resolution synthesis becomes possible in a convolutional manner. Our latent diffusion models (LDMs) achieve new state of the art scores for image inpainting and class-conditional image synthesis and highly competitive performance on various tasks, including unconditional image generation, text-to-image synthesis, and super-resolution, while significantly reducing computational requirements compared to pixel-based DMs.
通過將圖像形成過程分解為降噪自動編碼器的順序應(yīng)用,擴(kuò)散模型(DM)在圖像數(shù)據(jù)和其他數(shù)據(jù)上實現(xiàn)了最先進(jìn)的合成結(jié)果。此外,它們的公式表述允許一種引導(dǎo)機(jī)制來控制圖像生成過程而無需再重新訓(xùn)練。然而,由于這些模型通常直接在像素空間中操作,因此強(qiáng)大的 DM 的優(yōu)化通常會消耗數(shù)百個 GPU 天,并且由于順序評估,推理非常昂貴。為了在有限的計算資源上進(jìn)行DM訓(xùn)練,同時保持其質(zhì)量和靈活性,我們將其應(yīng)用于強(qiáng)大的預(yù)訓(xùn)練自動編碼器的潛在空間。與之前的工作相比,在這種表示上訓(xùn)練擴(kuò)散模型第一次允許在復(fù)雜性降低和細(xì)節(jié)保留之間達(dá)到一個接近最優(yōu)的點,極大地提高了視覺保真度。通過在模型體系結(jié)構(gòu)中引入交叉注意力層,我們將擴(kuò)散模型轉(zhuǎn)化為強(qiáng)大而靈活的生成器,用于文本或邊界框等一般條件輸入,并以卷積方式實現(xiàn)高分辨率合成。我們的潛在擴(kuò)散模型(LDM)在圖像嵌入和類條件圖像合成方面取得了新的藝術(shù)得分,并在各種任務(wù)上具有很強(qiáng)的競爭力,包括無條件圖像生成、文本到圖像合成和超分辨率,同時與基于像素的DM相比顯著減少了計算需求。
Stable Diffusion模型的總結(jié)
簡介
2022年08月,號稱最強(qiáng)文本生成圖像的模型Stable Diffusion誕生;這是一種潛在的文本到圖像擴(kuò)散模型。
Stable Diffusion是最新的擴(kuò)散模型。在生成圖像方面,它在所生成圖像的質(zhì)量、速度和成本上都取得了巨大突破。
(1)、Stable Diffusion能夠在消費級顯卡上實現(xiàn)DALL-E 2級別的圖像生成,生成效率卻提高了30倍。
影響
(1)、最初的Stable Diffusion一經(jīng)發(fā)布,就掀起了一場文本到圖像模型領(lǐng)域的新革命。Stable Diffusion 1.0徹底改變了開源AI模型的性質(zhì),并且在全球范圍內(nèi)催生了數(shù)百種新模型。
(2)、Stable Diffusion是最快達(dá)到10K Github star星數(shù)的項目之一,在不到2個月的時間里飆升至33K星,如上圖所示。
(3)、作為目前可用性最高的開源模型,Stable Diffusion在短短2個月的時間里已經(jīng)被全球超過20萬名開發(fā)者下載和使用。
(4)、Stability AI面向消費者的產(chǎn)品名為DreamStudio,目前已經(jīng)擁有超過100萬名注冊用戶—他們共同創(chuàng)建了超過1.7億張圖像。
特點
(1)、普通人就能接觸到的AIGC科技產(chǎn)品:相比較于DALL-E等大模型,Stable Diffusion讓用戶使用消費級的顯卡便能夠迅速實現(xiàn)文生圖,它的生成效率是DALL-E的30倍。
(2)、Stable Diffusion 完全免費開源,所有代碼均在 GitHub 上公開,任何人都可以拷貝使用。在用戶層面,它無疑是十分成功的。
(3)、用戶廣泛:目前,Stable Diffusion已經(jīng)有超過20萬開發(fā)者下載和獲得授權(quán),各渠道累計日活用戶超過1000萬。而面向消費者的DreamStudio則已獲得了超過150萬用戶,已生成超過1.7億圖像。
(4)、存在爭議:同時,它的驚艷藝術(shù)風(fēng)格、以及圖像涉及的版權(quán)、法律等問題也引發(fā)了諸多爭議。
硬件
Stability AI訓(xùn)練Stable Diffusion的模型,是在擁有4,000個Nvidia A100 GPU的服務(wù)器上。
Stable Diffusion模型第一個版本訓(xùn)練耗資60萬美元。
意義
(1)、就像 Stable Diffusion 的第一次迭代一樣,我們努力優(yōu)化模型以在單個 GPU 上運(yùn)行——我們希望從一開始就讓盡可能多的人可以使用它。我們已經(jīng)看到,當(dāng)數(shù)百萬人接觸到這些模型時,他們共同創(chuàng)造了一些真正令人驚嘆的東西。
(2)、這就是開源的力量:挖掘數(shù)百萬有才華的人的巨大潛力,他們可能沒有資源來訓(xùn)練最先進(jìn)的模型,但有能力用一個模型做一些令人難以置信的事情。
(3)、這個新版本連同其強(qiáng)大的新功能,如 depth2img 和更高分辨率的升級功能,將成為無數(shù)應(yīng)用程序的基礎(chǔ),并激發(fā)新的創(chuàng)造潛力。
Stable Diffusion2.0簡介及其改進(jìn)點
Stable Diffusion2.0比較Stable Diffusion1.0,新的算法比之前的更高效、更穩(wěn)健。
1、New Text-to-Image Diffusion Models
(1)、基于LAION-5B擴(kuò)大了訓(xùn)練數(shù)據(jù)集
模型在Stability AI的DeepFloyd團(tuán)隊創(chuàng)建的LAION-5B數(shù)據(jù)集上進(jìn)行訓(xùn)練,比LAION-400M大14倍。
備注:LAION-400M曾是世界上最大的可公開訪問的圖像文本數(shù)據(jù)集。
(2)、基于NSFW 刪除數(shù)據(jù)集內(nèi)“不可描述內(nèi)容”
使用 LAION的NSFW過濾器,會過濾掉一些“不可描述內(nèi)容”,即成人內(nèi)容。哈哈,這也引起了reddit上,讓部分搞笑網(wǎng)友進(jìn)行了差評。
當(dāng)然,這次模型的關(guān)鍵組件功能被改進(jìn),使得Stable Diffusion更難生成某些引起爭議和批評的圖像了,比如廣受評論的裸體和情色內(nèi)容、名人的逼真照片以及模仿特定藝術(shù)家作品的圖像。
備注:NSFW即Not Suitable For Work,其實就是一些不適合上班時間瀏覽的東西。
(3)、基于OpenCLIP顯著提高了圖像生成質(zhì)量
Stable Diffusion 2.0 版本使用了在LAION開發(fā)的全新文本編碼器 (OpenCLIP) 上,從頭開始訓(xùn)練文本到圖像模型。
與早期的 1.0 版本相比,文本-圖像模型顯著提高了圖像生成質(zhì)量,此次模型可以生成輸出默認(rèn)分辨率為 512x512 像素和 768x768 像素的圖像。
2、Super-resolution Upscaler Diffusion Models
(4)、引入超分辨率擴(kuò)散模型(Upscaler Diffusion)提高了圖像分辨率
Stable Diffusion 2.0包含了一個Upscaler Diffusion模型,該模型將生成圖像的分辨率提高了 4 倍。比如?Upscaler 將低分辨率生成的圖像 (128x128) 升級(upscaling)為更高分辨率的圖像(512x512)。有了Upscaler Diffusion的加持,結(jié)合文本到圖像模型,Stable Diffusion 2.0可以生成分辨率為2048×2048或更高的圖像。
3、Depth-to-Image Diffusion Model
(5)、引入深度引導(dǎo)穩(wěn)定擴(kuò)散模型(depth2img)保持圖像連貫性
這是一種新的深度引導(dǎo)穩(wěn)定擴(kuò)散(depth-guided stable diffusion)模型,它擴(kuò)展了V1中先前的圖像到圖像的特性,為創(chuàng)造性的應(yīng)用提供了全新的可能性。
通過使用現(xiàn)有模型,Depth2img能夠推斷輸入圖像的深度,然后使用文本和深度信息生成新圖像。
depth2img可以提供各種新的創(chuàng)新性應(yīng)用,生成的圖像與原始圖像有很大的不同,但仍然保持了圖像的連貫性和深度。用于圖像-圖像結(jié)構(gòu)的保持和形狀的合成,為創(chuàng)意應(yīng)用提供了全新的可能性。
4、Updated Inpainting Diffusion Model
(6)、引入文本引導(dǎo)修復(fù)擴(kuò)散模型(text-guided)實現(xiàn)智能替換
引入了一個新的文本引導(dǎo)(text-guided)修復(fù)模型,在新的Stable Diffusion 2.0文本到圖像的基礎(chǔ)上,進(jìn)行了微調(diào),這使得智能和快速切換圖像的部分非常容易。這樣,用戶就可以非常智能、快速地替換圖像的部分內(nèi)容,比如圖中豹子的嘴巴和鼻子是不變的,其他部分可以隨意改變。
關(guān)于Stability AI對Stable Diffusion的開源的觀點
Stability AI的免費開源VS OpenAI的趨向商業(yè)化
Stability AI對標(biāo)公司——OpenAI和DeepMind
有時候那些大型的AI公司,他們有一種家長式的本能,拒絕公布圖像生成的代碼。以O(shè)penAI、DeepMind等這些公司為例,OpenAI一開始的初衷是「希望AI民主化」,但基于現(xiàn)實商業(yè)化原因,只對一部分模型開源。
相對來說,Stability AI與OpenAI旗下多款A(yù)I工具平臺不同,開發(fā)者可以免費從其官網(wǎng)下載Stability AI的底層代碼,來訓(xùn)練自己的模型。
備注01:2019年,馬斯克因為戰(zhàn)略分歧退出了OpenAI,整個公司的結(jié)構(gòu)隨之發(fā)生變化,焦點也變了,他們變得更加重視產(chǎn)品,盡管實際上并沒有側(cè)重在產(chǎn)品研發(fā)。雖然現(xiàn)有這些模型很強(qiáng)大能做很多事,卻還沒有技術(shù)擴(kuò)散曲線。
備注02:Stability AI首席執(zhí)行官Emad Mostaque曾說,關(guān)于尋找的貢獻(xiàn)者人才的類型,我們不希望看到的是被高度企業(yè)化的人,他們的思維方式往往固定在一種方式,總想著如何賺快錢。
Stable Diffusion對標(biāo)產(chǎn)品——DALL-E
與OpenAI的DALL-E等不同,Stable Diffusion是一款完全開源的軟件。這允許社區(qū)的小伙伴一同開發(fā)、改進(jìn)這款產(chǎn)品,并讓開發(fā)人員免費將其集成到他們的產(chǎn)品中。
關(guān)于技術(shù)開源的善惡
如果DALL-E 2對每個人都開放,假如你輸入了某個提示,卻產(chǎn)生了非??膳碌臇|西,這是一種嚴(yán)重的負(fù)面影響。人們可能就會說這些模型顯然不適合發(fā)布之類的。那么如果有人來找你,說你的模型產(chǎn)生了可怕的輸出,你會對這些人說什么?
Emad解釋到,技術(shù)無好壞,但使用的方式卻分善惡。
爭議—AI式“不可描述內(nèi)容”是否道德
Stable Diffusion早期曾因“不可描述內(nèi)容”生成神器之名蜚聲海內(nèi)外,比如情色圖片等。
在最新的Stable Diffusion2.0版本開源之后,Mostaque說:“在開放模式中不能有兒童和NSFW,因為這兩種圖像可以結(jié)合起來制作兒童性虐待素材”。這正是Stable Diffusion從訓(xùn)練數(shù)據(jù)中刪除裸體和色情圖片的初心。
但是有的用戶認(rèn)為,這種刪除行為違背了開源社區(qū)的精神哲學(xué),因為刪除NSFW內(nèi)容設(shè)立了審查制度,這有很大的主觀性。選擇是否制作NSFW內(nèi)容的權(quán)力,應(yīng)該掌握在用戶手中,而不是由審查模式來評判。
所以,Stable Diffusion的定位是開源的,這意味著「這類」訓(xùn)練數(shù)據(jù)可以很容易地添回第三方版本,而且新軟件不會影響早期版本。也就是說,模型通過再訓(xùn)練還是回歸到了“平民化”開源的本質(zhì)。
爭議—AI式“復(fù)制”是否合法
Stability AI首席執(zhí)行官Emad Mostaque在Discord上表示:“一個好的模型應(yīng)該可以供所有人使用,如果你想添加?xùn)|西,那就自行添加”。這意味著Stable Diffusion在使用方式上的限制比較少,但也因此,它招致了大量批評。
Stable Diffusion1.0版本,和其他圖像生成模型在未經(jīng)藝術(shù)家同意的情況下,在他們的作品上進(jìn)行訓(xùn)練,并重現(xiàn)他們作品的風(fēng)格,許多藝術(shù)家大為惱火。
所以,在最新的Stable Diffusion?2.0版本中,進(jìn)行了更新,對軟件編碼和檢索數(shù)據(jù)的方式進(jìn)行更改,因此,模型復(fù)制藝術(shù)家作品的能力大大降低。
Stable Diffusion模型的使用方法
0、Stable Diffusion模型的兩種實現(xiàn)方法
T1、在線網(wǎng)頁演示實現(xiàn)
Stable Diffusion 2 - a Hugging Face Space by stabilityai
T2、本地下載部署實現(xiàn)
硬件要求:8G的VRAM只能輸出256的圖像
第1步
第一步,安裝項目的環(huán)境依賴
conda install pytorch==1.12.1 torchvision==0.13.1 -c pytorch
pip install transformers==4.19.2 diffusers invisible-watermark
pip install -e .
第2步
第二步,創(chuàng)建新的conda環(huán)境
conda create --name sd2 python=3.10
第3步
第三步,安裝所需的包
pip install -r requirements.txt
第4步
第四步,安裝watermark包(可選)
pip install transformers==4.19.2 diffusers invisible-watermark
第5步
第五步,獲取CUDA最新版本(linux系統(tǒng))
conda install -c nvidia/label/cuda-11.4.0 cuda-nvcc
conda install -c conda-forge gcc
conda install -c conda-forge gxx_linux-64=9.5.0
第6步
第六步,安裝xformer
git clone https://github.com/facebookresearch/xformers.git
cd xformers
git submodule update --init --recursive
pip install -r requirements.txt
pip install -e .
cd ../stable-diffusion
第7步
第七步,下載所需的權(quán)重模型
stabilityai (Stability AI)
第8步
第八步,測試
python scripts/txt2img.py --prompt "a professional photograph of an astronaut riding a horse" --ckpt .\models\512-base-ema.ckpt --config configs/stable-diffusion/v2-inference-v.yaml --H 512 --W 512 --plms --n_samples 1
T3、C端優(yōu)化部署應(yīng)用
相比較于基于服務(wù)器部署,在C端設(shè)備上部署 Stable Diffusion,除了減少部署服務(wù)器開銷之外,更能直接觸達(dá)用戶和保護(hù)隱私,因為數(shù)據(jù)不出本地。當(dāng)然,這還需要對Stable Diffusion模型進(jìn)行優(yōu)化。
Github地址:https://github.com/apple/ml-stable-diffusion
1、文本到圖像
參考采樣腳本如下所示
第一步,下載模型權(quán)重
SD2.0-v和SD2.0-base
第二步,兩種方法采樣
從SD2.0-v模型中采樣,執(zhí)行以下命令
python scripts/txt2img.py --prompt "a professional photograph of an astronaut riding a horse" --ckpt <path/to/768model.ckpt/> --config configs/stable-diffusion/v2-inference-v.yaml --H 768 --W 768 從基本模型中采樣,執(zhí)行以下命令
python scripts/txt2img.py --prompt "a professional photograph of an astronaut riding a horse" --ckpt <path/to/model.ckpt/> --config <path/to/config.yaml/> ? 2、圖像修改
此方法可用于基礎(chǔ)模型本身的樣本。例如,以匿名 discord 用戶生成的這個樣本為例。使用gradio或streamlit腳本depth2img.py,MiDaS 模型首先根據(jù)此輸入推斷出單眼深度估計,然后擴(kuò)散模型以(相對)深度輸出為條件。
該模型對于照片寫實風(fēng)格特別有用;看例子。對于 1.0 的最大強(qiáng)度,該模型會刪除所有基于像素的信息,并且僅依賴于文本提示和推斷的單眼深度估計。
第一步,下載模型權(quán)重,將后者放在文件夾中midas_models
深度條件穩(wěn)定擴(kuò)散模型和dpt_hybridMiDaS模型權(quán)重
第二步,執(zhí)行以下命令
python scripts/gradio/depth2img.py configs/stable-diffusion/v2-midas-inference.yaml <path-to-ckpt> 3、圖像超分辨率/圖像放大
用于文本引導(dǎo)的 x4 超分辨率模型的 Gradio 或 Streamlit 演示。該模型既可用于真實輸入,也可用于合成示例。對于后者,我們建議設(shè)置更高的 noise_level,例如noise_level=100。
第一步,下載模型權(quán)重,
stabilityai/stable-diffusion-x4-upscaler · Hugging Face
第二步,執(zhí)行以下命令
python scripts/gradio/superresolution.py configs/stable-diffusion/x4-upscaling.yaml <path-to-checkpoint> 4、圖像修復(fù)
修復(fù)模型的 Gradio 或 Streamlit 演示。該腳本向RunwayML存儲庫中的演示添加了不可見的水印,但兩者應(yīng)該可以與檢查點/配置互換使用。
第一步,下載模型權(quán)重,
stabilityai/stable-diffusion-2-inpainting · Hugging Face
第二步,執(zhí)行以下命令
python scripts/gradio/inpainting.py configs/stable-diffusion/v2-inpainting-inference.yaml <path-to-checkpoint> 參考文章
Stable Diffusion 2.0 Release — Stability.Ai
https://www.reddit.com/r/StableDiffusion/comments/z36mm2/stable_diffusion_20_announcement/