2021年一開(kāi)始,OpenAI在GPT-3方向上的又一重要突破,讓吳恩達(dá)等大佬激動(dòng)了。
之前給GPT-3一段話,就能寫(xiě)出一段小說(shuō)。
現(xiàn)在它成功跨界——可以按照文字描述、生成對(duì)應(yīng)圖片!
簡(jiǎn)直就是“甲方克星、乙方福音”,提需求愛(ài)描述的甲方老板,現(xiàn)在直接嗶嗶就能立竿見(jiàn)影得到效果圖。
比如你輸入“OpenAI公司門(mén)面”,它就能給出設(shè)計(jì)圖:
這個(gè)新的AI,叫做DALL·E(Dali + Wall-E)。
除了生成現(xiàn)實(shí)中的圖片外,DALL·E還能按要求設(shè)計(jì)出“一顆白菜穿著芭蕾舞裙在遛狗”,妥妥的漫畫(huà)風(fēng)。
從“五邊形鬧鐘”到“牛油果形狀的座椅”,只要你的想象力夠豐富,DALL·E全都能畫(huà)出來(lái)。
技術(shù)上更厲害的是,OpenAI透露這個(gè)AI是基于GPT-3而構(gòu)建,僅使用了120億個(gè)參數(shù)樣本,相當(dāng)于GPT-3參數(shù)量的十四分之一。
于是效果一出,吳恩達(dá)、Keras之父等紛紛轉(zhuǎn)發(fā)、點(diǎn)贊。堪稱2021年第一個(gè)令人興奮的AI技術(shù)突破。
看吳恩達(dá)老師pick的這個(gè)demo效果,以后是想直接描述生成自己想要的藍(lán)工裝?
生成這些優(yōu)秀作品的,是一個(gè)名為DALL·E的結(jié)構(gòu)。
DALL·E的名字,來(lái)源于大藝術(shù)家達(dá)利(Dalí)和皮克斯動(dòng)畫(huà)《機(jī)器人總動(dòng)員》中的主角“瓦力”(WALL·E)。
本質(zhì)上,它就是一個(gè)被重新訓(xùn)練過(guò)的“120億參數(shù)版”GPT-3,能根據(jù)一段文字描述,生成對(duì)應(yīng)的圖像。
為了讓DALL·E能“識(shí)字畫(huà)圖”,研究者們用包含各種“文本-圖像”組合的數(shù)據(jù)集,來(lái)訓(xùn)練DALL·E。
這其中,DALL·E以單數(shù)據(jù)流的形式,一次性接收1280個(gè)字符(token),其中256個(gè)字符分配給文字,其余的1024個(gè)則分配給圖像。
DALL·E將對(duì)這些輸入信息進(jìn)行建模,利用自注意力層的注意力遮罩,確保每一個(gè)輸入的圖像字符,都與所有輸入的文字字符關(guān)聯(lián)。
然后DALL·E將根據(jù)文本,通過(guò)最大似然估計(jì),逐個(gè)字符生成圖像。它不僅能從文字中,生成一整幅草圖,還能重新生成圖像中的任何一塊矩形區(qū)域。
這就完了?
當(dāng)然沒(méi)有,我們最終看到的作品,其實(shí)只是DALL·E創(chuàng)作的一部分,即“優(yōu)秀作品選”。
也就是說(shuō),還需要一個(gè)網(wǎng)絡(luò)CLIP,來(lái)對(duì)它生成的這些作品進(jìn)行排名、打分。
越是CLIP看得懂、匹配度最高的作品,分?jǐn)?shù)就會(huì)越高,排名也會(huì)越靠前。
這種結(jié)構(gòu),有點(diǎn)像是利用生成對(duì)抗文本,以合成圖像的GAN。不過(guò),相比于利用GAN擴(kuò)大圖像分辨率、匹配圖像-文本特征等方法,CLIP則選擇了直接對(duì)輸出進(jìn)行排名。
據(jù)研究人員表示,CLIP網(wǎng)絡(luò)的最大意義在于,它緩解了深度學(xué)習(xí)在視覺(jué)任務(wù)中,最大的兩個(gè)問(wèn)題。
首先,它降低了深度學(xué)習(xí)需要的數(shù)據(jù)標(biāo)注量。相比于手動(dòng)在ImageNet上,用文字描述1400萬(wàn)張圖像,CLIP直接從網(wǎng)上已有的“文字描述圖像”數(shù)據(jù)中進(jìn)行學(xué)習(xí)。
此外,CLIP還能“身兼多職”,在各種數(shù)據(jù)集上的表現(xiàn)都很好(包括沒(méi)見(jiàn)過(guò)的數(shù)據(jù)集)。但此前的大部分視覺(jué)神經(jīng)網(wǎng)絡(luò),只能在訓(xùn)練的數(shù)據(jù)集上有不錯(cuò)的表現(xiàn)。
例如,CLIP與ResNet101相比,在各項(xiàng)數(shù)據(jù)集上都有不錯(cuò)的檢測(cè)精度,然而ResNet101在除了ImageNet以外的檢測(cè)精度上,表現(xiàn)都不太好。
具體來(lái)說(shuō),CLIP用到了零樣本學(xué)習(xí)(zero-shot learning)、自然語(yǔ)言理解和多模態(tài)學(xué)習(xí)等技術(shù),來(lái)完成圖像的理解。
例如,描述一只斑馬,可以用“馬的輪廓+虎的皮毛+熊貓的黑白”。這樣,網(wǎng)絡(luò)就能從沒(méi)見(jiàn)過(guò)的數(shù)據(jù)中,找出“斑馬”的圖像。
最后,CLIP將文本和圖像理解結(jié)合起來(lái),預(yù)測(cè)哪些圖像,與數(shù)據(jù)集中的哪些文本能完成最好的配對(duì)。
此次生成的Demo圖像,正是從512個(gè)樣本中,用CLIP選出的前32個(gè)樣本。研究人員強(qiáng)調(diào),整個(gè)過(guò)程他們?nèi)虥](méi)有參與。
此次上線的Demo,大致分成這幾類(lèi)效果。
控制變量,修改物體的屬性(數(shù)量、顏色)。
甚至,還可以加上個(gè)年代屬性。輸入文字:電話。
那這個(gè)電話放在未來(lái)呢?竟然會(huì)是這個(gè)亞子。
同時(shí)控制多個(gè)對(duì)象。比如,戴紅色帽子,黃色手套,藍(lán)色襯衫和綠色褲子的企鵝。
說(shuō)實(shí)話,要換成是我,我一個(gè)也畫(huà)不出來(lái)。(手動(dòng)裂開(kāi))
推斷細(xì)節(jié)。正如上文舉的例子,“沐浴在朝陽(yáng)中的田間水豚”。
單從文字上看,還有很多細(xì)節(jié)需要考究:水豚位置,陰影有無(wú),繪畫(huà)風(fēng)格。但這些,似乎都沒(méi)有難倒DALL·E。
對(duì)于OpenAI這個(gè)新鮮出爐的DALL·E,大佬們也紛紛發(fā)表了自己的看法。
Keras創(chuàng)始人@Fran?ois Chollet表示,這看起來(lái)非??幔绕涫恰皥D像生成”部分。
從原理上來(lái)看,應(yīng)該就是GPT-3在文本合成圖像方向上的擴(kuò)展版。
OpenAI的CTO Greg Brockman在轉(zhuǎn)發(fā)DALL·E后,更是立刻獲得了1.4k的贊。
英偉達(dá)的機(jī)器學(xué)習(xí)專(zhuān)家Ming-Yu Liu,也送上了自己的祝福。
他表示,這樣的模型在文本轉(zhuǎn)圖像的能力上,簡(jiǎn)直超乎想象。
當(dāng)然,也有對(duì)這種方法的限制感到困惑的學(xué)者。
來(lái)自哈佛的助理教授Tomer Ullman,在對(duì)DALL·E的能力表示驚嘆時(shí),也提出了對(duì)于模型泛化能力限制的疑惑。
他認(rèn)為,如果能生成“綠方塊上的紅方塊”,模型理應(yīng)也能生成“藍(lán)方塊上的綠方塊上的紅方塊”?
希望這樣的模型,能在提升泛化等能力后,真正被用來(lái)減輕設(shè)計(jì)師們的負(fù)擔(dān)。
當(dāng)然,如果再開(kāi)一開(kāi)腦洞的話,應(yīng)用前景可能不止于減輕負(fù)擔(dān)。
如果效果足夠好,還要什么乙方設(shè)計(jì)師?
以及像動(dòng)畫(huà)、影視等領(lǐng)域,是不是未來(lái)劇本一放,AI就能給你出成果了?
參考鏈接:
https://openai.com/blog/dall-e/
https://openai.com/blog/clip/
https://twitter.com/fchollet/status/1346558591835070464
https://twitter.com/gdb/status/1346554999241809920
https://twitter.com/liu_mingyu/status/1346573218270724097
https://twitter.com/TomerUllman/status/1346556192907255808
— 完 —
聯(lián)系客服