【新智元導(dǎo)讀】Ideogram憑借不輸Midjourney的生圖能力和遙遙領(lǐng)先的圖片中文字渲染能力,獲得了包括Jeff Dean和Karpathy在內(nèi)一眾大佬的8000萬(wàn)美元融資,文生圖這條離錢最近的AI賽道又加入了一名重量級(jí)選手。
文生圖領(lǐng)域作為一個(gè)跑出「10人團(tuán)隊(duì)年收入過(guò)億美金初創(chuàng)公司」的賽道,已經(jīng)成了AI創(chuàng)業(yè)公司掘第一桶金的最佳起點(diǎn)。但是在谷歌,微軟等大廠都已經(jīng)花了大量資源去布局的領(lǐng)域,留給初創(chuàng)公司的機(jī)會(huì)到底在哪里?最近一家名為Ideogram的文生圖工具,憑借優(yōu)秀的文字渲染能力,成功融資8000萬(wàn)美元!包括Jeff Dean和Andrej Karpathy在內(nèi)的一眾硅谷大佬和知名機(jī)構(gòu)都是它的投資人。只要在prompt里將文字打上去,就能非常自然可控地出現(xiàn)在生成的圖片中。而且生成的圖片不僅能簡(jiǎn)單的以平面文字的形式出現(xiàn)在圖片之中,還能根據(jù)用戶的要求,生成自然的懸浮文字,或者是立體的文字。甚至用一句提示詞,它能直接給你畫出圖文高度配合的梗圖!而圖片中的文字生成,一直以來(lái)是各大生圖AI做不好的痛點(diǎn)。
如果要求圖片中有某些確定的文字,需要在生成圖片之后還要花費(fèi)很多后期的加工。而Ideogram對(duì)于生圖文字的控制能力,不僅在對(duì)比數(shù)據(jù)上比DALL·E 3要好出不少。文字可以像很多商業(yè)廣告一樣自然的懸浮在圖片上,也可以和圖片中的物體自然地融為一體。像這種配文字的電影海報(bào)級(jí)的圖片都可以直接一步生成。用戶可以非常精準(zhǔn)地將自己想要表達(dá)的文字內(nèi)容和各種風(fēng)格的圖片組合在一起。除了能嚴(yán)格按照作者的要求生成精準(zhǔn)的文字,甚至像開(kāi)頭的梗圖一樣,它能按照?qǐng)D片的設(shè)定無(wú)中生有的配上契合圖片的文字。簡(jiǎn)直成了另一種形式的多模態(tài)模型。而除了最優(yōu)秀的文字渲染能力之外,作為生圖工具,它在其他方面的表現(xiàn)也毫不遜色于行業(yè)頂尖水準(zhǔn)。
Ideogram 1.0 可在理解冗長(zhǎng)、復(fù)雜提示詞的同時(shí)生成清晰、細(xì)致的圖像。對(duì)于各種動(dòng)物以及奇怪組合的完美呈現(xiàn)能力。也能準(zhǔn)確地生成復(fù)雜的手部動(dòng)作。而且它還能通過(guò)工具,配合提示詞,控制主要內(nèi)容在圖片中生成的形狀和范圍。Ideogram 1.0 除了能夠生成照片級(jí)逼真的圖像,對(duì)于超自然的風(fēng)格的圖片也有很強(qiáng)的表現(xiàn)能力。Ideogram 1.0還提供了一個(gè)名為「Magic Prompt」的功能,可以自動(dòng)增強(qiáng)、擴(kuò)展和翻譯用戶的提示,大大降低用戶生成精美的創(chuàng)意圖片的門檻。原提示:創(chuàng)建一個(gè)關(guān)于貓的有趣的表情包增強(qiáng)提示: 以一只表情驚訝的波斯貓為主題的備忘錄。貓的眼睛睜得大大的,讓人覺(jué)得它很震驚或很有趣。背景是其他貓咪擺出的各種姿勢(shì)的彩色拼貼畫,主題為 「當(dāng)你意識(shí)到貓咪已經(jīng)占領(lǐng)互聯(lián)網(wǎng)時(shí)」。整個(gè)畫面輕松幽默,展現(xiàn)了網(wǎng)上對(duì)貓的持久熱愛(ài)。
增強(qiáng)提示: 一個(gè)幽靈、萬(wàn)圣節(jié)燈籠和骷髏的恐怖萬(wàn)圣節(jié)場(chǎng)景。鬼魂穿著破舊的長(zhǎng)袍,漂浮在南瓜之間,而南瓜燈則露出頑皮的笑容。背景中,一個(gè)戴著高帽的骷髏站在鬼屋附近。月亮在畫面上灑下銀色的光輝,氣氛既陰森恐怖又充滿童趣。
Ideogram 1.0本身也很擅長(zhǎng)解釋復(fù)雜的提示。每個(gè)對(duì)應(yīng)的圖像準(zhǔn)確地反映了其提示的每個(gè)細(xì)節(jié):這是一幅迷人的全家福,一個(gè)純色啞光紅色球體圣誕禮物棲息在一個(gè)藍(lán)色立方體包裝的圣誕禮物上,一棵鮮艷的綠色圣誕樹(shù)矗立在它們身后,樹(shù)底纏著一塊綠布。右邊是一只好奇的小狗,左邊是一只可愛(ài)的貓咪。
一只完全由香脆炸雞制作而成的公雞,如電影般逼真。它的身體覆蓋著一層金黃色的外殼,淋上番茄醬,羽毛上還點(diǎn)綴著完美烹制的熱氣騰騰的炸薯?xiàng)l。公雞的眼睛是由兩個(gè)又小又圓的番茄醬斑點(diǎn)組成的,它的喙是由一塊香脆的雞皮制作而成的。場(chǎng)景的背景是一家燈光昏暗的復(fù)古餐廳,霓虹燈和格子桌布為餐廳增添了懷舊和奇特的氛圍。
書房里的兩個(gè)男人。左邊的男子站著,身穿長(zhǎng)外套和花紋襯衫,手持拐杖。他面容邋遢,留著胡子。右邊的男人坐在椅子上,身著正裝,手持拐杖。他們身后的墻上掛著一幅裝裱好的男子肖像。房間里有華麗的窗簾和鋪著地毯的地板,給人一種復(fù)古的感覺(jué)。
而根據(jù) DALL·E 3 這樣的評(píng)估標(biāo)準(zhǔn),人類評(píng)估者在提示對(duì)齊、圖像連貫性、整體偏好和文本渲染質(zhì)量方面Ideogram 1.0,比 DALL·E 3 和 Midjourney V6還更收到歡迎。有如此強(qiáng)大的能力,但是他的收費(fèi)卻非常親民。
免費(fèi)用戶每天能使用25個(gè)提示詞,生成100張圖。8刀一個(gè)月的用戶每天可以生成100個(gè)提示詞,400張圖。20刀一個(gè)月就可以無(wú)限使用,確實(shí)是價(jià)格不貴量又足。最新實(shí)測(cè):Ideogram VS Midjourney
顯然,想要在文生圖這個(gè)領(lǐng)域與現(xiàn)有的競(jìng)爭(zhēng)者抗衡,挑戰(zhàn)堪稱天花板的Midjourney V6是避無(wú)可避的。
根據(jù)大佬Sorin Ciornei的最新測(cè)試,Ideogram 1.0和Midjourney相比,也不落下風(fēng)。Test 1:奧黛麗-赫本飾演的小丑
用一個(gè)簡(jiǎn)單的提示生成一個(gè)包含赫本和小丑的人物圖片。
提示非常含糊,因?yàn)闆](méi)有特別需要的圖片細(xì)節(jié)??梢哉f(shuō)雙方生成的效果不相上下。Test 2:真實(shí)攝影
在作者看來(lái),Ideogram生成的第一張圖碾壓了所有其他圖片。
Test 3 :想象力
這個(gè)測(cè)試考驗(yàn)的是AI的想象力,因?yàn)樵跊](méi)有任何細(xì)節(jié)的情況下,圖片 AI 要決定加入什么元素以及如何讓圖片看起來(lái)超現(xiàn)實(shí)。
Test 4:風(fēng)格碰撞
現(xiàn)實(shí)和復(fù)古主題的碰撞似乎Midjourney做得更好。
必須將黑白攝影與彩色鴨子混合在一起,讓Ideogram有點(diǎn)不知所措。Test 5:全息投影
Midjourney的全息效果不太清晰,但是畫面風(fēng)格比較一致協(xié)調(diào)。Ideogram全息效果比較正常,但是整體畫面割裂感比較強(qiáng)。
雙方算是各有所長(zhǎng)的但是整體上表現(xiàn)都不太好。Test 6:官方案例實(shí)測(cè)
在官方放出的例子中,Midjourney似乎表現(xiàn)要更好一些,圖中有更多的細(xì)節(jié),風(fēng)格也更真實(shí)一些。但是雙方的差異似乎不大。
Test 7:Logo
作者又測(cè)了測(cè)需要帶有文字的logo生成,雖然Ideogram的logo似乎也不能拿來(lái)就用,但是它至少符合要求,有明顯的文字效果,而Midjourney似乎就完全沒(méi)有體現(xiàn)出文字內(nèi)容。
Test 8:用魔法提示完成Logo
作者還測(cè)試了官方提供的「魔法提示功能」,它把用戶輸入的提示變得更加詳細(xì)。
他用這個(gè)Logo的提示再次對(duì)比了兩個(gè)工具的生成效果,從創(chuàng)意的角度,似乎Ideogram更好。Test 9 :梗圖&表情包
而Ideogram強(qiáng)大的文字能力簡(jiǎn)直是生成梗圖的利器,而它強(qiáng)大的文字功能在這里體現(xiàn)得淋漓盡致。
某種程度上來(lái)說(shuō),他的能力似乎都接近一個(gè)多模態(tài)「圖+文」的模型了https://about.ideogram.ai/1.0https://medium.com/thereach-ai/ideogram-1-0-9-tests-to-see-how-it-matches-midjourney-7dfd17ff3f57
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。