angelababy唱歌视频,美女视频免费大人,唐嫣探班罗晋破冰者视频

人工智能“干掉”程序員后，又對藝術(shù)家下手了

2021.01.09

人工智能領(lǐng)域缺錢，但這兩個(gè)月來，他們不缺「好消息」。

Google 母公司 Alphabet 旗下的 DeepMind，先推出了蛋白質(zhì)結(jié)構(gòu)預(yù)測 AI——AlphaFold 2，為困擾了生化學(xué)界 50 年的難題提供了解決思路；接著又發(fā)論文介紹「進(jìn)階版 AlphaGo」——MuZero，這個(gè) AI 能在完全不知道棋局規(guī)則和人類知識(shí)的情況下，自己摸索，決策，并贏棋。

2021 年的第一周還沒過去，AI 就再次向人類發(fā)起了「挑釁」。

AI 研究機(jī)構(gòu) OpenAI，繼去年部分開放了 AI 模型 GPT-3 并引爆整個(gè)科技圈之后，又于近期連發(fā)了 DALL·E 和 CLIP 這兩個(gè)連接文本與圖像的神經(jīng)網(wǎng)絡(luò)。它們剛一面世，就點(diǎn)燃了整個(gè) AI 社區(qū)。因?yàn)槿藗儼l(fā)現(xiàn)有了這些神經(jīng)網(wǎng)絡(luò)，就能通過自然語言操縱視覺概念，比如，你輸入「一把牛油果造型的扶手椅」，它們就能通過圖像合成，「憑空捏造」出一系列的目標(biāo)圖像。

什么是人工智能的未來？《麻省理工科技評(píng)論》認(rèn)為就是「那把牛油果造型的扶手椅」，因?yàn)?AI 又往「構(gòu)建多模態(tài) AI 系統(tǒng)」這個(gè)長期目標(biāo)又邁近了一大步。

「干掉」程序員后，AI 又對藝術(shù)家下手了

DALL·E 率先在社交網(wǎng)絡(luò)上刷起了屏，因?yàn)槿藗兎懦隽撕芏嗫雌饋硐駪{空捏造的合成圖，比如「立方體狀的豪豬」、「由烏龜變成的長頸鹿」和「豎琴狀的蝸?！梗@些就像是超現(xiàn)實(shí)主義畫家薩爾瓦多·達(dá)利在夢里會(huì)看到的奇異造物。有意思的是，DALL·E 也正是「Dalí」和皮克斯動(dòng)畫形象「WALL-E」的合成詞。

豎琴狀的蝸牛

DALL·E 是 OpenAI 基于 GPT-3 開發(fā)的一種「用字生圖」的 AI。GPT-3 本質(zhì)上是一個(gè)自然語言處理（NLP）模型，機(jī)器就是依靠 NLP 理解了我們平時(shí)說的「人話」。在 1750 億參數(shù)量基礎(chǔ)上的 GPT-3，展現(xiàn)出了驚人的翻譯、問答和文本填空能力，寫出來的新聞甚至通過了圖靈測試，人們分辨不出是人還是機(jī)器寫的。

GPT-3 可擴(kuò)展性非常強(qiáng)大，甚至可以用在無代碼開發(fā)領(lǐng)域。無代碼就是就是不用敲代碼也可以直接生成程序，而 GPT-3 就是強(qiáng)大的無代碼開發(fā)平臺(tái)，只要對它輸入你想要什么樣的網(wǎng)頁或者 app，它就能幫你直接生成。因此，業(yè)內(nèi)認(rèn)為基層碼農(nóng)將會(huì)被 AI「干掉」。

而 DALL·E 是 GPT-3 的一個(gè)小版本，使用了 120 億個(gè)參數(shù)。它使用的是「文本-圖像對」的數(shù)據(jù)集，而非像 GPT-3 那樣廣泛的數(shù)據(jù)集。「從原理上來看，它應(yīng)該就是 GPT-3 在文本合成圖像方向上的擴(kuò)展版本?！筀eras 創(chuàng)始人 Fran?ois Chollet 表示。

DALL·E 可以利用自然語言從文字說明中「捏造」圖像，就像 GPT-3 創(chuàng)建網(wǎng)站和寫故事一樣。DALL·E 生成復(fù)雜圖像的表現(xiàn)，讓人驚喜，比如下面這則包含多個(gè)要素的目標(biāo)文本：「一只戴著紅帽子、黃手套、藍(lán)襯衫和綠褲子的刺猬」。

要正確地解釋這句話，DALL·E 不僅要正確地將每件衣服與動(dòng)物組合在一起，還要將（帽子、紅色）、（手套、黃色）、（襯衫、藍(lán)色）和（褲子，綠色）形成各種聯(lián)想，而且還不能混淆它們。

這張圖顯示了 DALL·E 掌握了理解相對定位、堆疊對象和控制多個(gè)屬性方面的能力｜OpenAI

因?yàn)樽銐驈?qiáng)大的 NLP 底層，DALL·E 還能執(zhí)行多種圖像到圖像的翻譯任務(wù)，比如「參照上面的貓?jiān)谙旅嫔刹輬D」、「畫出和上面一樣的茶壺，并在茶壺上寫上『GPT』」等等。除此之外，DALL·E 也能理解地理事實(shí)，生成讓人信服的「中國食物的圖片」，它甚至也能理解「時(shí)間」，畫出從 20 年代起發(fā)明的電話，甚至聯(lián)想未來的手機(jī)。

中國食物

各個(gè)年代的手機(jī)

另外，它還能根據(jù)文字指令「看日出的水豚鼠」，生成諸如波普風(fēng)格、超現(xiàn)實(shí)主義風(fēng)格、浮世繪風(fēng)格等不同藝術(shù)風(fēng)格的畫作，還能渲染出各個(gè)角度下美洲獅的細(xì)節(jié)。

看日出的水豚鼠

Coursera 創(chuàng)始人、斯坦福大學(xué)教授吳恩達(dá)還特別對 OpenAI 表示祝賀，并挑選了自己最喜歡的「藍(lán)色襯衫 + 黑色長褲」的 AI 生成圖。DALL·E 能不能成為藝術(shù)家不敢說，但成為 AI 大神的著裝參謀，綽綽有余。

吳恩達(dá)的 Twitter

一個(gè)生成圖像，一個(gè)匹配文字和圖像

但 DALL·E 目前也存在局限，比如當(dāng)人們引入更多的對象時(shí)，DALL-E 容易混淆對象及其顏色之間的關(guān)聯(lián)。另外，用意思相同的詞重新表述指令，生成的圖像也不一致。還有一些跡象表明，DALL·E 只是在模仿它在網(wǎng)上看到的圖片，而不是生成新穎的圖像。

而 OpenAI 同期發(fā)布的 CLIP（Contrastive Language–Image Pre-training），則是為了加強(qiáng)文本和圖像的關(guān)聯(lián)程度而誕生的。CLIP 是一個(gè)從互聯(lián)網(wǎng)上收集的 4 億對圖像和文本來進(jìn)行訓(xùn)練的多模態(tài)模型。

CLIP 使用了大量可用的監(jiān)督資源，即網(wǎng)絡(luò)上找到的文本-圖像對。這些數(shù)據(jù)用于創(chuàng)建 CLIP 的代理訓(xùn)練任務(wù)，即給定一張圖像，然后預(yù)測數(shù)據(jù)集中 32768 個(gè)隨機(jī)采樣文本片段中哪個(gè)與該圖像匹配。

簡單來說，CLIP 能根據(jù)視覺類別名稱，自己分類圖像，創(chuàng)新點(diǎn)在于它學(xué)會(huì)了識(shí)別圖像，而不是像大多數(shù)現(xiàn)有模型那樣，通過數(shù)據(jù)集中的標(biāo)簽（比如「貓」或「香蕉」）識(shí)別圖像，而是從互聯(lián)網(wǎng)上獲取的圖像及其標(biāo)題中識(shí)別圖像。

CLIP 瞄向的，就是當(dāng)前深度學(xué)習(xí)的兩個(gè)「痛點(diǎn)」：一是數(shù)據(jù)集構(gòu)建成本高昂；二是數(shù)據(jù)集應(yīng)用范圍狹窄。具體來說，深度學(xué)習(xí)需要大量的數(shù)據(jù)，而視覺模型傳統(tǒng)上采用人工標(biāo)注的數(shù)據(jù)集進(jìn)行訓(xùn)練，這些數(shù)據(jù)集的構(gòu)建成本很高，而 CLIP 可以從互聯(lián)網(wǎng)上已經(jīng)公開可用的文本圖像對中自行學(xué)習(xí)；CLIP 可以適應(yīng)執(zhí)行各種各樣的視覺分類任務(wù)，而不需要額外的訓(xùn)練樣本。

另外，實(shí)驗(yàn)結(jié)果表明，經(jīng)過 16 天的 GPU 訓(xùn)練，在訓(xùn)練 4 億張圖像之后，Transformer 語言模型在 ImageNet 數(shù)據(jù)集上僅實(shí)現(xiàn)了 16% 的準(zhǔn)確率。CLIP 則高效得多，實(shí)現(xiàn)相同準(zhǔn)確率的速度快了大約 9 倍。

簡單來說，DALL·E 可以基于文本直接生成圖像，CLIP 則能夠完成圖像與文本類別的匹配。

出門問問 CEO 李志飛曾告訴極客公園（ID: GeekPark），「GPT-3 隨著數(shù)據(jù)和參數(shù)規(guī)模增大而展現(xiàn)出的學(xué)習(xí)能力曲線，目前也還沒有要停止的意思。雖然 AI 的學(xué)習(xí)能力還沒有達(dá)到大家公認(rèn)的「摩爾定律」，但是過去幾年確實(shí)看到模型每幾個(gè)月就翻倍?？梢灶A(yù)測到的是，GPT-4 參數(shù)又會(huì)增大至少 10 倍，而且處理的數(shù)據(jù)將會(huì)更加多模態(tài)（文字、圖像、視覺、聲音）。」

OpenAI 首席科學(xué)家 Ilya Sutskever 也在推特上發(fā)文表示：「人工智能的長期目標(biāo)是構(gòu)建多模態(tài)神經(jīng)網(wǎng)絡(luò)，即 AI 能夠?qū)W習(xí)不同模態(tài)之間的概念（文本和視覺領(lǐng)域?yàn)橹鳎瑥亩玫乩斫馐澜?。?DALL·E 和 CLIP 使我們更接近『多模態(tài) AI 系統(tǒng)』這一目標(biāo)?！?/p>

DALL·E 和 CLIP 的出現(xiàn)，讓人們看到自然語言與視覺的壁壘正在被逐漸打通。

幾十年前，柯達(dá)說出了那句經(jīng)典的廣告語，「你負(fù)責(zé)按快門，剩下的交給我們」。在未來，AI 興許也會(huì)打起類似的廣告，「你什么都不用干，剩下的交給我們」。

本文圖片：OpenAI

責(zé)任編輯：于本一

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

真實(shí)世界的人工智能應(yīng)用落地——OpenAI篇

電廠丨社交網(wǎng)絡(luò)刷屏的AI作畫，它來自達(dá)利和WALL · E

中金 | AI十年展望（五）：從ChatGPT到通用智能，新長征上的新變化

像人類一樣認(rèn)識(shí)世界，AI需要哪些底層思維？

AI寫小說、繪畫、剪視頻，生成式AI更火了！

更多類似文章 >>

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频