您好,歡迎進入美譽度品牌管理官網(wǎng)!

江蘇危機公關(guān)公司

一站式提供商

提供設(shè)計,生產(chǎn),安裝,售后服務(wù)一條龍服務(wù)

400-021-0821
公司資訊
您的位置: 主頁 > 新聞中心 > 公司資訊
AI生圖王者之戰(zhàn)!深度體驗實測,誰是真正的藝術(shù)家?
發(fā)布時間:2023-12-18 11:15瀏覽次數(shù):

美譽度品牌管理

10月11日凌晨,設(shè)計軟件巨頭Adobe宣布推出一系列圖像生成模型,其中Firefly Image 2作為新一代圖像生成器,通過改善皮膚、頭發(fā)、眼睛、手和身體結(jié)構(gòu)增強了人體渲染質(zhì)量,提供更好的色彩和改進的動態(tài)范圍,并為用戶提供更大的控制輸出的能力 。

此前,OpenAI于9月21日宣布旗下圖像生成工具DALL-E的升級,新版本DALL-E 3大幅提升圖像生成質(zhì)量,尤其改進了在圖像上生成文字的功能。

在國外圖像生成賽道,Midjourney和DALL-E常被視為兩大競爭對手。Adobe Firefly 2的發(fā)布,意味著又一強大競爭對手加入,形成三強對陣的格局。

雖然Adobe在今年3月便推出了Firefly模型的測試版,但當時一些圖像分析師批評Firefly在生成效果方面落后于Midjourney和DALL-E 2等競爭對手,他們將這一差距部分歸因于Adobe承諾僅使用授權(quán)和公共領(lǐng)域內(nèi)容進行培訓。

下面是一組Adobe Firefly、Midjourney與DALL-E 2生成圖像對比,提示詞為:山谷,童話般的樹屋村莊覆蓋,啞光繪畫,高度精細,動態(tài)照明,電影,現(xiàn)實主義,逼真,照片真實,日落,詳細,高對比度,去噪,居中。

▲Adobe Firefly、Midjourney與DALL-E 2生成圖像對比(圖源:Muhammad Usman,mdorazio)

從上圖的對比可以看出,Midjourney生成的圖像內(nèi)容最豐富,有很多細節(jié)描繪;DALL-E 2的生成更類似于油畫風格,雖然不夠逼真,但表現(xiàn)尚可。

相比之下,F(xiàn)irefly的生成效果則不盡人意,既沒有符合大多數(shù)提示詞,整體質(zhì)量也較差,甚至在物體輪廓上出現(xiàn)雜色。

此次更新,F(xiàn)irefly 2大幅提升了生成圖像質(zhì)量和準確性,尤其是人像渲染方面。

▲Firefly 2與Firefly 1生成圖像對比(圖源:Adobe)

那么,目前的Firefly 2在其他方面具體表現(xiàn)如何?它能否與DALL-E 3和Midjourney競爭,幫助Adobe在生成式AI領(lǐng)域占據(jù)一席之地?這三款圖像生成器各自具有什么樣的特點和優(yōu)勢?近日,外媒Gold Penguin從8個方面的生成圖像效果對比中,也許找到了這些問題的答案。

總體來看,三款圖像生成器各具風格,也各具優(yōu)勢。如DALL-E 3擁有優(yōu)秀的文字生成功能,更適合高語境提示;Adobe Firefly 2生成效果最逼真,在人像細節(jié)等寫實表現(xiàn)上最具優(yōu)勢;Midjourney則時常迸發(fā)出一些“藝術(shù)性”的創(chuàng)作,可提供創(chuàng)作靈感。

下表總結(jié)了這三款圖像生成器在可用性、輸出效果、運行速度等方面的特點,供讀者參考。簡單來說:Firefly 2更逼真,Midjourney更藝術(shù),DALL-E 3善解人意。

▲三款A(yù)I圖像生成器性能對比(圖源:Gold Penguin,美譽度譯制)

一、三路選手PK,行業(yè)巨頭對決兩家AI獨角獸

今天,我們讓三位選手來進行一場大PK。

首先是一號選手Adobe Firefly Image 2,它是Adobe于10月11日凌晨推出的新一代圖像生成模型。

Adobe公司在圖像處理領(lǐng)域的地位可謂是不言而喻。背靠Adobe,F(xiàn)irefly系列一經(jīng)推出便獲得了巨大的關(guān)注。

據(jù)介紹,F(xiàn)irefly 2通過改善圖像中人體皮膚、頭發(fā)、眼睛、手和其它身體結(jié)構(gòu),來增強圖像的渲染質(zhì)量,為用戶生成更高質(zhì)量圖像。

Firefly 2模型有三大新功能:生成匹配(Generative Match)、照片設(shè)置(Photo Settings)、提示指導(Prompt Guidance)。

它支持100多種語言的文本提示,以及包括“快速”生成積分在內(nèi)的新付費計劃。

▲Firefly 2的生成匹配功能(圖源:Adobe)

二號選手DALL-E 3來頭也不一般。

DALL-E 3是OpenAI于9月21日凌晨推出的升級版文生圖工具,與之前的版本相比,它的提示理解能力更強,對文本的處理效果也更好。

OpenAI作為現(xiàn)象級應(yīng)用ChatGPT的開發(fā)商,可謂是刮起了一陣AIGC熱潮。

升級后的DALL-E 3原生集成至ChatGPT,對兩款產(chǎn)品而言都是“如虎添翼”。10月3日,微軟宣布DALL-E 3可供所有Bing Chat和Bing Image Creator用戶免費使用,再次降低了它的使用門檻。

值得一提的是,DALL-E 3在此次升級中增強了“在圖像上生成文字”的功能,此功能目前在Firefly 2和Midjourney中暫未實現(xiàn)。

▲DALL·E 3可在圖像上生成準確的文字(圖源:OpenAI)

三號選手Midjourney與前兩位相比,背后的公司可能沒有太大的名頭,但它憑借著強大的圖像生成質(zhì)量,一度成為圖像生成領(lǐng)域的現(xiàn)象級應(yīng)用,一年實現(xiàn)1000萬用戶和1億美元營收。

Midjourney公司成立于2021年8月,創(chuàng)始人大衛(wèi)·霍爾茨(David Holz)曾是體感控制器公司Leap Motion的聯(lián)合創(chuàng)始人。Midjourney以詳細的輸出、通過提示工程參數(shù)進行的廣泛定制和細微差別而著稱,其最新5.2版本于6月23日推出。

Midjourney 5.2版本的最大亮點在于放大(Zoom Out)功能,允許用戶將放大圖像的畫布擴展到其原始邊界之外,而不更改原始圖像的內(nèi)容。新擴展的畫布將根據(jù)提示和原始圖像的指導進行填充。

▲Midjourney的放大功能(圖源:Midjourney)

9月,Midjourney首席執(zhí)行官曾向媒體透露,Midjourney 6會在今年內(nèi)發(fā)布,將實現(xiàn)品質(zhì)上的巨大飛躍。

二、Adobe Firefly 2、Midjourney、DALL-E 3生成圖像大比拼

接下來,讓我們從8個方面對比一下Adobe Firefly 2、Midjourney和DALL-E 3生成圖像的效果,分別是寫實人像、建筑設(shè)計、風景、超現(xiàn)實主義、抽象概念、風格化藝術(shù)、矢量平面設(shè)計以及文字生成。

1、寫實人像

首先是Adobe Firefly 2“大肆宣揚”的人像,下面兩組圖的提示詞分別為:一個疲憊大學生的特寫;一位身著黃色襯衫女士的肖像照。

▲寫實人像(圖源:Gold Penguin)

▲寫實人像(圖源:X博主@saana_ai)

可以看出,Adobe Firefly 2生成的人像確實非常逼真,面部表情清晰,具有明顯的皮膚、毛發(fā)質(zhì)感,光照效果也很好。

Midjourney的輸出也相當不錯,但與Firefly 2相比更柔和,皮膚質(zhì)感略遜一籌。對于第一組提示詞,Midjourney生成的圖像中桌面上的書本存在渲染失誤,不過并不明顯。

對比之下,DALL-E 3生成的人像有些遜色,幾乎不存在皮膚和毛發(fā)質(zhì)感。對于第一組提示詞,DALL-E 3過分強調(diào)了學生的疲憊,“黑眼圈”有些夸張。

值得一提的是,這些圖像都沒有產(chǎn)生“恐怖谷”效應(yīng),這是一個很大的優(yōu)點。

2、建筑設(shè)計

再來看看建筑設(shè)計,第一組圖的提示詞為:從廣角俯瞰,帶下沉式客廳的時尚磚墻曼哈頓風格閣樓。

▲建筑設(shè)計(圖源:Gold Penguin)

對于第一組提示詞,這三個圖像生成器都沒有完全理解提示意圖。它們都創(chuàng)造了一個曼哈頓風格的閣樓,但很難將下沉式客廳的部分表現(xiàn)出來。

Adobe Firefly 2的照明效果最好,強調(diào)了陰影與光線來源的對應(yīng)關(guān)系,并將它們完美地融合在一起。

Midjourney最大的優(yōu)點是注重細節(jié)。從一樓的書籍到二樓的畫作,都符合典型閣樓式公寓的設(shè)計。

DALL-E 3的燈光則顯得有些夸張,質(zhì)感也比較柔和。不過,它是唯一表現(xiàn)了“下沉式客廳”這一提示詞的生成器,雖然表現(xiàn)方式有些失誤。

第二組圖的提示詞為:臥室,大窗戶,現(xiàn)代家具,灰色和金色,豪華,中世紀現(xiàn)代風格。

▲建筑設(shè)計(圖源:X博主@chaseleantj)

對于第二組提示詞,三個圖像生成器都表現(xiàn)得很好。不過相比之下,DALL-E 3生成的圖像對“豪華”和“金色”提示詞的表現(xiàn)比其他兩個生成器少。

3、風景

在風景景觀方面,第一組提示詞為簡短的詞組:野花草地日落景觀。

▲風景(圖源:Gold Penguin)

對于第一組提示詞,Adobe Firefly 2的輸出效果栩栩如生,但與網(wǎng)絡(luò)上的草地圖片過于相似。此外,野花的渲染似乎出現(xiàn)了故障,細看會發(fā)現(xiàn)沒有一朵花是正常渲染的。

Midjourney的草地色彩非常鮮艷,但傾向于風格化,比起寫實照片更像是一幅畫。

DALL-E 3更加強調(diào)“日落”這個提示詞,整體色彩呈橘色色調(diào),給人一種雄偉壯觀的感覺。雖然它不是色彩最豐富的,但質(zhì)感細膩。

第二組提示詞比較詳細:無人機航拍波拉波羅島令人驚嘆的陸地景觀,陽光下波光粼粼的水面。

▲風景(圖源:X博主@chaseleantj)

對于第二組提示詞,F(xiàn)irefly 2和Midjourney生成圖像相似,有種宏大的史詩感,不過后者的樹木渲染更具細節(jié)。

DALL-E 3的水面渲染則顯得有些粗糙,強調(diào)了“陽光”,但卻沒有表現(xiàn)出強烈光照下的陰影投射,因此顯得很扁平。

4、超現(xiàn)實主義

看完了現(xiàn)實,再來看看超現(xiàn)實主義。下圖的提示詞為:一幅超現(xiàn)實主義油畫,牛仔布做的房子中有一只大螢火蟲。

▲超現(xiàn)實主義(圖源:Gold Penguin)

對于第一組提示詞,三個生成器采取了完全不同的處理方式。

Adobe Firefly 2的作品大量借鑒了兒童讀物,風格很像兒童繪本。

Midjourney結(jié)合了現(xiàn)實世界的圖像和奇幻的概念。與其他兩張圖像不同,它將視角放在了房間內(nèi)部,也因此對“牛仔布”的表現(xiàn)并不明顯。此外,Midjourney似乎連螢火蟲都渲染成了牛仔布質(zhì)感。這可能有些偏離提示詞的描述,但測試者表示很喜歡這個處理。

DALL-E 3的處理方式則更具藝術(shù)性,它模糊了房子的界限,創(chuàng)造了一種新的敘事方式。它還“創(chuàng)作”了一些細節(jié),比如兩個月亮和口袋窗戶。

再試試更抽象的提示詞:震驚、美麗的外星人,科幻、未來,淺茶色和琥珀色。

▲超現(xiàn)實主義(圖源:X博主@saana_ai)

對于第二組提示詞,三個生成器的處理方式也是各具風格。

Adobe Firefly 2仍然采用了類似于插畫的風格,Midjourney和DALL-E 3則更偏向于“寫實”。但DALL-E 3忽略了“琥珀色”這個提示詞,并且生成的圖像比起“外星人”,似乎更接近“機器人”。

5、抽象概念

如果說超現(xiàn)實主義還提供了一些細節(jié)上的表述,接下來我們再試試完全抽象的概念。下圖的提示詞為:無限的可視化。

▲抽象概念(圖源:Gold Penguin)

“無限”是無法被創(chuàng)造出來的,但三幅作品進行了不同的嘗試來表現(xiàn)這個概念。

Adobe Firefly 2和DALL-E 3都選取了螺旋化的表達方式,F(xiàn)irefly 2類似于斐波那契數(shù)列的可視化,DALL-E 3生成的圖像則更加迷幻,具有豐富的色彩,看起來就像一件復雜的扎染襯衫。

Midjourney生成的圖像則具有故事性,一個人類的背影向光芒走去,四周圍繞著像藤蔓或樹枝一樣的東西。

6、風格化藝術(shù)

在一些風格化藝術(shù)的理解上,三位選手也表現(xiàn)各異。第一組圖的提示詞為:達達主義(Dadaism)風格插圖,婦女為爭取平等而斗爭。

▲風格化藝術(shù)(圖源:Gold Penguin)

達達主義誕生于20世紀初,具體可以追溯到第一次世界大戰(zhàn)期間。達達藝術(shù)以非傳統(tǒng)材料、拼貼、組合和表演為特征,旨在挑釁和震撼觀眾,達到質(zhì)疑藝術(shù)和社會的意義和目的。

Adobe Firefly 2的輸出看起來不像任何達達藝術(shù),且多次調(diào)整提示詞后,得到的結(jié)果總是相似。

Midjourney和DALL-E 3則理解了背景,它們的作品完全模仿了達達主義。

Midjourney傾向于拼貼藝術(shù),與著名的俄國藝術(shù)家漢娜·霍克(Hannah H?ch)風格相似;DALL-E 3更偏向于模仿法國藝術(shù)家馬塞爾·杜尚(Marcel Duchamp)。這兩位藝術(shù)家都是達達主義運動時期的杰出代表。

再來看看像素風格藝術(shù),采用的提示詞為:白色背景上的Q版像素藝術(shù),RPG游戲的游戲資產(chǎn),以揮舞火之力量的龍巫師盔甲為特色,周圍環(huán)繞著配套的物品組。

▲風格化藝術(shù)(圖源:X博主@chaseleantj)

對于像素風格藝術(shù),DALL-E 3的表現(xiàn)非常突出。它覆蓋了幾乎所有提示詞,同時生成了Q版人物(Chibi characters)、像素藝術(shù)和物品套裝。

Firefly 2成功地完成了像素藝術(shù),但忽略了“白色背景”和“物品組”的提示詞。

Midjourney的作品甚至沒有像素化。

7、矢量平面設(shè)計

接下來是辦公領(lǐng)域比較實用的矢量平面設(shè)計。首先我們讓AI助手來畫一下AI助手,提示詞:一個AI助手的平面矢量插圖。

▲矢量平面設(shè)計(圖源:Gold Penguin)

Adobe Firefly 2又一次理解失誤。輸出本身仍然是矢量藝術(shù),但沒有表現(xiàn)“AI助手”這個關(guān)鍵詞。

Midjourney和DALL-E 3的輸出則更像傳統(tǒng)的矢量藝術(shù)。前者著重表現(xiàn)AI助手幫助人類工作這一場景,后者則將重點放在“AI助手”本身。

值得注意的是,DALL-E 3甚至在沒有提示的情況下自行添加了文字,且具有邏輯性。

再試一下更具象的提示詞:白色背景上簡單的平面矢量插畫,一位女性和一只小狗坐在辦公桌前,拿著筆記本電腦。

▲矢量平面設(shè)計(圖源:X博主@chaseleantj)

第二組提示詞三位選手整體都表現(xiàn)不錯。

但細看之下,F(xiàn)irefly 2和Midjourney都有些細節(jié)上的缺陷。Firefly 2生成圖像中,女人的左手似乎“消失”了;Midjourney生成圖像中,小狗的耳朵太過尖銳,看起來更像一只貓。

DALL-E 3的表現(xiàn)風格則更加扁平化,色塊干凈,很適合用在演示文稿和宣傳材料中。

8、文字生成

最后是DALL-E 3引以為傲的文字生成功能,提示詞:白色背景上的定制貼紙設(shè)計,采用優(yōu)雅的字體書寫“Rachel”字樣,并點綴以水彩蝴蝶、雛菊和柔和的粉彩色調(diào)。

▲文字生成(圖源:X博主@chaseleantj)

在文字生成方面,DALL-E 3取得了壓倒性的勝利。Firefly 2和Midjourney均無法生成準確的文字,不過相比之下,F(xiàn)irefly 2比Midjourney稍微接近正確答案一些。

Firefly 2和DALL-E 3對“貼紙”的表現(xiàn)更明顯,均采取了白色描邊的方式來表現(xiàn)。水彩風格上,F(xiàn)irefly 2表現(xiàn)最佳。

值得注意的是,F(xiàn)irefly 2似乎總是在忽略“白色背景”這一提示詞,“執(zhí)著地”以淺綠色的背景來代替。

結(jié)語:行業(yè)巨頭加入戰(zhàn)場,AI圖像生成器混戰(zhàn)開始

生成式AI正在重塑藝術(shù)創(chuàng)作領(lǐng)域,通過圖像生成器,任何人都可以通過編寫文本提示打開藝術(shù)創(chuàng)作的新世界,從事創(chuàng)造性工作的人們也可以節(jié)省大量時間、激發(fā)想象力的更多可能性。

作為老牌的創(chuàng)意軟件巨頭,Adobe通過一系列更新再次強化了其在圖像編輯領(lǐng)域的深厚積累,F(xiàn)irefly 2的表現(xiàn)比升級前大幅提升,可以與Midjourney、DALL-E 3打得有來有回。

與此同時,國內(nèi)的百度文心一言、訊飛星火認知大模型等都上線了圖像生成能力,并面向全社會開放;國內(nèi)知名的圖像軟件公司美圖也在積極布局生成式AI,于10月9日發(fā)布自研視覺大模型3.0,增強了圖像生成質(zhì)量以及提示詞智能聯(lián)想功能。

良性的競爭可以為用戶提供更多選擇,促使產(chǎn)品不斷迭代進化。也許,一年后我們回過頭來看,會發(fā)覺如今的圖像生成效果是多么“稚嫩”。

400-021-0821