2D 到 3D 新突破!深度 AIGC 技術剖析,一文看懂 3D 數(shù)據(jù)生成的歷史及現(xiàn)狀
(相關資料圖)
AIGC 是否會取代人類?
"
作者|Chengxi
編輯|蔓蔓周
過去 18 個月,AI 內容生成(AIGC)是無疑是硅谷科技創(chuàng)投圈內最火爆、最熱門的話題。
DALL-E(2021 年 1 月推出)
Midjourney(2022 年 7 月推出)
Stable Diffusion(2022 年 8 月推出)
這類 2D 生成式工具,能夠在短短幾秒內將文本提示(prompt)生成藝術風格的圖片。隨著這類 2D AIGC 工具的演化和進步,藝術家、設計師和游戲工作室的創(chuàng)作工作流正在被迅速顛覆革新。
AIGC 的下一個突破口在哪?不少投資者和領域資深人士都給出了預測— 3D 數(shù)據(jù)生成。
我們注意到 3D AIGC 正在經(jīng)歷著 2D AIGC 曾經(jīng)發(fā)展過的階段。這篇文章中,我們將更深入地討論 AIGC 在 3D 數(shù)據(jù)領域的新突破,以及展望生成式 AI 工具如何提高 3D 數(shù)據(jù)生成的效率和創(chuàng)新。
01
回顧 2D AIGC 的高速發(fā)展
2D AIGC 的發(fā)展可以簡單概括為以下三個發(fā)展階段:
第一階段:智能圖像編輯
早在 2014 年,隨著生成對抗網(wǎng)絡(GAN,典型后續(xù)工作 StyleGAN)和變分自編碼器(VAE,典型后續(xù)工作 VQVAE,alignDRAW)的提出,AI 模型便開始被廣泛運用到 2D 圖片的智能生成與編輯中。早期的 AI 模型主要被用于學習一些相對簡單的圖像分布或者進行一些圖像編輯,常見的應用包括:人臉生成、圖像風格遷移、圖像超分辨率、圖像補全和可控圖像編輯。
但早期的圖像生成 / 編輯網(wǎng)絡與文本的多模態(tài)交互非常有限。此外,GAN 網(wǎng)絡通常較難訓練,常遇到模式坍塌(mode collapse)和不穩(wěn)定等問題,生成的數(shù)據(jù)通常多樣性較差,模型容量也決定了可利用數(shù)據(jù)規(guī)模的上限;VAE 則常遇到生成的圖像模糊等問題。
第二階段:文生圖模型的飛躍
隨著擴散生成(diffusion)技術的突破、大規(guī)模多模態(tài)數(shù)據(jù)集(如 LAION 數(shù)據(jù)集)和多模態(tài)表征模型(如 OpenAI 發(fā)布的 CLIP 模型)的出現(xiàn)與發(fā)展,2D 圖像生成領域在 2021 年前后取得重要進展。圖像生成模型開始與文本進行深入的交互,大規(guī)模文生圖模型驚艷登場。
當 OpenAI 在 2021 年初發(fā)布 DALL-E 時,AIGC 技術開始真正顯現(xiàn)出巨大的商業(yè)潛力。DALL-E 可以從任意的文本提示中生成真實和復雜的圖像,并且成功率大大提高。一年之內,大量文生圖模型迅速跟進,包括 DALL-E 2(于 2022 年 4 月升級)和 Imagen(谷歌于 2022 年 5 月發(fā)布)。雖然這些技術當時還無法高效幫助藝術創(chuàng)作者產(chǎn)出能夠直接投入生產(chǎn)的內容,但它們已經(jīng)吸引了公眾的注意,激發(fā)了藝術家、設計師和游戲工作室的創(chuàng)造力和生產(chǎn)潛力。
第三階段:從驚艷到生產(chǎn)力
隨著技術細節(jié)上的完善和工程優(yōu)化上的迭代,2D AIGC 得到迅猛發(fā)展。到 2022 年下半年,Midjourney、Stable Diffusion 等模型已成為了廣受歡迎的 AIGC 工具。他們通過大規(guī)模的訓練數(shù)據(jù)集的驅動,使得 AIGC 技術在現(xiàn)實世界應用中的性能已經(jīng)讓媒體、廣告和游戲行業(yè)的早期采用者受益。此外,大模型微調技術的出現(xiàn)與發(fā)展(如 ControlNet 和 LoRA)也使得人們能夠根據(jù)自己的實際需求和少量訓練數(shù)據(jù)來 " 自定義 " 調整、擴展 AI 大模型,更好地適應不同的具體應用(如二次元風格化、logo 生成、二維碼生成等)。
現(xiàn)在,使用 AIGC 工具進行創(chuàng)意和原型設計很多情況下只需幾小時甚至更短,而不是過去需要的幾天或幾周。雖然大多數(shù)專業(yè)的圖形設計師仍然會修改或重新創(chuàng)建 AI 生成的草圖,但個人博客或廣告直接使用 AI 生成的圖像的情況越來越普遍。
alignDRAW, DALL-E 2, 和 Midjourney 文本轉圖像的不同效果。除了文本轉圖像,2D AIGC 持續(xù)有更多的最新發(fā)展。例如,Midjourney 和其他創(chuàng)業(yè)公司如 Runway 和 Phenaki 正在開發(fā)文本到視頻的功能。此外,Zero-1-to-3 已經(jīng)提出了一種從物體的單一 2D 圖像生成其在不同視角下對應圖片的方法。
由于游戲和機器人產(chǎn)業(yè)對 3D 數(shù)據(jù)的需求不斷增長,目前關于 AIGC 的前沿研究正在逐漸向 3D 數(shù)據(jù)生成轉移。我們預計 3D AIGC 會有類似的發(fā)展模式。
02
3D AIGC 的 "DALL-E" 時刻
近期在 3D 領域的種種技術突破告訴我們,3D AIGC 的 "DALL-E" 時刻正在到來!
從 2021 年末的 DreamFields 到 2022 年下半年的 DreamFusion 和 Magic3D,再到今年五月的 ProlificDreamer,得益于多模態(tài)領域和文生圖模型的發(fā)展,學術界文生 3D 模型也得到了不少突破。不少方法都能夠從輸入文本生成高質量的 3D 模型。
然而這些早期探索大多數(shù)需要在生成每一個 3D 模型時,都從頭優(yōu)化一個 3D 表示,從而使得 3D 表示對應的各個 2D 視角都符合輸入和先驗模型的期待。由于這樣的優(yōu)化通常需要成千上萬次迭代,因此通常非常耗時。例如,在 Magic3D 中生成單個 3D 網(wǎng)格模型可能需要長達 40 分鐘,ProlificDreamer 則需要數(shù)小時。此外,3D 生成的一個巨大挑戰(zhàn)便是 3D 模型必須具備從不同角度看物體形狀的一致性。現(xiàn)有的 3D AIGC 方法常遇到雅努斯問題(Janus Problem),即 AI 生成的 3D 對象有多個頭或者多個面。
由于 ProlificDreamer 缺乏 3D 形狀一致性而出現(xiàn)的雅努斯問題。左邊是一只看似正常的藍鳥的正面視圖。右邊是一幅令人困惑的圖像,描繪了一只有雙面的鳥。但另外一方面,一些團隊正在嘗試突破現(xiàn)有的基于優(yōu)化的生成范式,通過單次前向預測的技術路線來生成 3D 模型,這大大提高了 3D 生成速度和準確度。這些方法包括 Point-E 和 Shap-E(分別于 2022 年和 2023 年由 OpenAI 發(fā)布)和 One-2 – 3 – 45(2023 年由加州大學圣地亞哥分校發(fā)布)。特別值得注意的是,最近一個月發(fā)布的 One-2 – 3 – 45 能夠在僅 45 秒的時間內從 2D 圖像生成高質量和具備一致性的 3D 網(wǎng)格!
對單圖像到 3D 網(wǎng)格方法的比較分析。從左到右,我們可以觀察到,處理時間從超過一個小時大幅度減少到不到一分鐘。Point-E、Shap-E 和 One-2 – 3 – 45 在速度和準確性上都有出色表現(xiàn)。這些 3D AIGC 領域最新的技術突破,不僅大大提高了生成速度和質量,同時讓用戶的輸入也變得更加靈活。用戶既可以通過文本提示進行輸入,也可以通過信息量更加豐富的單張 2D 圖像來生成想要的 3D 模型。這大大擴展了 3D AIGC 在商業(yè)應用方面的可能性。
03
AI 革新 3D 生產(chǎn)過程
首先,讓我們了解一下傳統(tǒng) 3D 設計師創(chuàng)建 3D 模型,所需要經(jīng)歷的工作流程:
1. 概念草圖:概念藝術設計師根據(jù)客戶輸入和視覺參考進行頭腦風暴和構思所需的模型。
2.3D 原型制作:模型設計師使用專業(yè)軟件創(chuàng)建模型的基本形狀,并根據(jù)客戶反饋進行迭代。
3. 模型細化:將細節(jié)、顏色、紋理和動畫屬性(如綁定、照明等)添加到粗糙的 3D 模型中。
4. 模型最終定型:設計師使用圖像編輯軟件增強最終的渲染效果,調整顏色,添加效果,或進行元素合成。
這個過程通常需要幾周的時間,如果涉及到動畫,甚至可能需要更長。然而,如果有 AI 的幫助,上述每個步驟都可能會更快。
1. 強大的多視圖圖像生成器(例如,基于 Stable Diffusion 和 Midjourney 的 Zero-1 – to – 3)有助于進行創(chuàng)意頭腦風暴,并生成多視圖圖像草圖。
2. 文本到 3D 或圖像到 3D 技術(例如,One-2 – 3 – 45 或 Shap-E)可以在幾分鐘內生成多個 3D 原型,為設計師提供了廣泛的選擇空間。
3. 利用 3D 模型優(yōu)化(例如,Magic 3D 或 ProlificDreamer),選定的原型可以在幾小時內自動進行精煉。
4. 一旦精煉的模型準備好,3D 設計師就可以進一步設計并完成高保真模型。
傳統(tǒng)與 AI 驅動的 3D 生產(chǎn)工作流程對比04
3D AIGC 是否會取代人類?
我們的結論是,暫時不會。人仍然是 3D AIGC 環(huán)節(jié)中不可缺失的一環(huán)。
盡管以上提到的 3D 模型生成技術,能在機器人技術、自動駕駛和 3D 游戲中有許多應用,然而目前的生產(chǎn)流程仍然不能滿足廣泛的應用。
為此,硅兔君采訪了來自加州大學圣迭戈分校的蘇昊教授,他是 3D 深度學習(3D Deep Learning)和具身人工智能(Embodied AI)領域的領軍專家,也是 One-2 – 3 – 45 模型的作者之一。蘇昊教授認為,目前 3D 生成模型的主要瓶頸是缺乏大量高質量的 3D 數(shù)據(jù)集。目前常用的 3D 數(shù)據(jù)集如 ShapeNet(約 52K 3D 網(wǎng)格)或 Objaverse(約 800K 3D 模型)包含的模型數(shù)量和細節(jié)質量都有待提升。尤其是比起 2D 領域的大數(shù)據(jù)集(例如,LAION-5B),它們的數(shù)據(jù)量仍然遠不夠來訓練 3D 大模型。
蘇昊教授曾師從幾何計算的先驅、美國三院院士Leonidas Guibas 教授,并曾作為早期貢獻者參與了李飛飛教授領導的 ImageNet 項目。受到他們的啟發(fā),蘇昊教授強調廣泛的 3D 數(shù)據(jù)集在推進技術方面的關鍵作用,為 3D 深度學習領域的出現(xiàn)和繁榮做出了奠基性工作。
此外,3D 模型遠比 2D 圖像的復雜很多,例如 :
1. 部件結構:游戲或數(shù)字孿生應用需要 3D 對象的結構化部件(例如,PartNet),而不是單一的 3D 網(wǎng)格;
2. 關節(jié)和綁定:與 3D 對象互動的關鍵屬性;
3. 紋理和材料:例如反光率、表面摩擦系數(shù)、密度分布、楊氏模量等支持交互的關鍵性質;
4. 操作和操控:讓設計師能夠對 3D 模型進行更有效地交互和操縱。
而以上幾點,就是人類專業(yè)知識能夠繼續(xù)發(fā)揮重要作用的地方。
蘇昊教授認為,在未來,AI 驅動的 3D 數(shù)據(jù)生成應具有以下特性:
1. 支持生成支撐交互性應用的 3D 模型,這種交互既包括物體與物體的物理交互(如碰撞),也包括人與物體的交互(物理與非物理的交互方式),使得 3D 數(shù)據(jù)在游戲、元宇宙、物理仿真等場景下能夠被廣泛應用;
2. 支持 AI 輔助的 3D 內容生成,使得建模的生產(chǎn)效率更高;
3. 支持 Human-in-the-loop 的創(chuàng)作過程,利用人類藝術天賦提升生成數(shù)據(jù)的質量,從而進一步提升建模性能,形成閉環(huán)的數(shù)據(jù)飛輪效應。
類似于過去 18 個月來像 DALL-E 和 ChatGPT 這樣的技術所取得的驚人發(fā)展,我們堅信在 3D AIGC 領域即將發(fā)生,其創(chuàng)新和應用極有可能會超過我們的預期,硅兔君會持續(xù)深入探索和輸出。
文末互動:
你認為 AIGC 會對人類產(chǎn)生哪些深遠影響?
評論區(qū)留言告訴我們哦~
別忘了點關注,不迷路啊。食品科技又整新活!連植物都不用,有空氣就能 " 無中生肉 "責任編輯:hnmd003
相關閱讀
-
2D 到 3D 新突破!深度 AIGC 技術剖析,一文看懂 3D 數(shù)據(jù)生成的歷史及現(xiàn)狀
AIGC是否會取代人類?作者|Chengxi編輯|蔓蔓周過去18個月,AI內容生
2023-07-28
相關閱讀
-
2D 到 3D 新突破!深度 AIGC 技術剖析,一文看懂 3D 數(shù)據(jù)生成的歷史及現(xiàn)狀
AIGC是否會取代人類?作者|Chengxi編輯|蔓蔓周過去18個月,AI內容生
-
今年登革熱病例要破紀錄?《自然》:持續(xù)高溫和降雨或是禍首
財聯(lián)社7月28日訊(編輯黃君芝)據(jù)《自然》雜志報道,今年到目前為止,
-
三大指數(shù)均漲超 1%,大金融板塊迎集體爆發(fā)
一、【早盤盤面回顧】財聯(lián)社7月28日訊,市場早盤低開高走,三大指數(shù)均
-
爆料被證實!日本央行“松綁” YCC 日本市場遭遇“股債雙殺”
財聯(lián)社7月28日訊(編輯瀟湘)昨日深夜,日媒那則引發(fā)全球金融市場動蕩
-
重磅!住建部公開表態(tài)松綁樓市政策 一線城市“認房又認貸”有望松動
財聯(lián)社7月28日訊(記者李潔)房地產(chǎn)行業(yè)政策有望迎來大調整。住建部部
-
陸地巡洋艦8月2日首發(fā)預告圖上線,日本人問“普拉多在哪?”
2023年7月26日,豐田突然宣布將舉辦陸地巡洋艦全球首發(fā)。日期和時間為2
-
砂漿稠度越大說明什么_砂漿稠度越大越好嗎
各位網(wǎng)友們好,我是編輯小夏,為大家解答砂漿稠度越大說明什么,砂漿稠
-
醫(yī)療保險買滿多少年保終身?一年要交多少錢?
醫(yī)療保險的購買年限與保終身的關系是一個常見的疑問。事實上,醫(yī)療保險
-
學生被車撞了保險公司怎么賠償?賠償多少錢?
首先,保險公司在賠償學生時,會根據(jù)事故的責任劃分進行賠償。 如果學
-
五險繳納多少年為止?在哪里繳納?
根據(jù)我國現(xiàn)行的社會保障制度,五險的繳納年限并沒有明確的規(guī)定。一般來
-
意外險180天后身故是否賠付?賠付需要哪些材料?
不同的保險公司和保險產(chǎn)品可能存在不同的規(guī)定。一些保險公司規(guī)定,在購
-
買三天的意外險在哪里買?怎么買比較好?
保險公司官網(wǎng):許多保險公司都有自己的官方網(wǎng)站,可以在網(wǎng)上購買意外險
-
電入佳境 靈感奇遇 純電豪華旗艦跑車Audi e-tron GT正式上市
電入佳境靈感奇遇純電豪華旗艦跑車Audie-tronGT正式上市2023年7月27日
-
福特Q2凈利潤達19億美元,電動車業(yè)務虧損進一步加大
福特Q2凈利潤達19億美元,電動車業(yè)務虧損進一步加大7月27日,福特汽車
-
港媒:中國搬家?guī)煾涤蒙贤夤趋罊C器人
參考消息網(wǎng)7月28日報道據(jù)香港《南華早報》網(wǎng)站7月26日報道,在關于可穿
-
財達證券7月28日快速上漲
以下是財達證券在北京時間7月28日13:32分盤口異動快照:7月28日,財達
-
大運會海外運動員:期待成都成就夢想!
請跟隨新華社前方記者看看海外運動員如何備戰(zhàn)大運會,對中國之行又有什
-
美股總舵主定調:9 月可能還會加息
作者:李佳、黃繹達編輯:鄭懷舟美國當?shù)貢r間7月26日,美聯(lián)儲在7月的議
-
安碩信息7月28日快速上漲
以下是安碩信息在北京時間7月28日13:00分盤口異動快照:7月28日,安碩
-
和田玉白玉鐲子鑒別
辨別和田玉白玉鐲子的方法有以下幾點:1 觀察顏色:和田玉白玉鐲子一般
-
天津醫(yī)療保險要交多少年才能享受醫(yī)保?每個月要交多少錢呢?
根據(jù)天津市人力資源和社會保障局的規(guī)定,天津市居民醫(yī)療保險的繳費方式
-
被貓抓傷能報意外險嗎?怎么報?
可以的, 首先,我們需要明確被貓抓傷是否屬于意外事件。根據(jù)保險公司
-
商業(yè)醫(yī)療保險牙齒治療可以報銷嗎?報銷幾次呢?
可以。 商業(yè)醫(yī)療保險是指由商業(yè)保險公司提供的醫(yī)療保險服務,其報銷范
-
榮華世家終身保險怎么樣?提供什么保障?
還是非常不錯的。新華榮華世家終身壽險是一款增額終身壽險,其最主要的
-
高血壓怎么買重疾險?貴嗎?
1 選擇合適的保險公司:不同的保險公司對高血壓的接受程度不同,因此在
-
嵐圖汽車總部將落戶武漢軍山新城
嵐圖汽車總部將落戶武漢軍山新城7月28日消息,從武漢經(jīng)開區(qū)官方處獲悉
-
榮萬家:擬5015.5萬元收購耿建明旗下萬家智慧環(huán)境70%股權
榮萬家生活服務股份有限公司(簡稱:榮萬家,2146 HK)發(fā)布關聯(lián)交易的
-
B 站這場二次元演唱會,沒打算破圈
最近有兩個Live的搶票難度突破了天際,一個是周杰倫的全國巡演,另一個
-
華碩 16 英寸新款上線 13 代 i9 處理器僅 6499 元
華碩無畏162023筆記本今日上架,售價6499元。該款筆記本搭載了i9-13900
-
妙鴨相機走紅,騰訊大腿拍腫
圖片來源@視覺中國作者|螺旋實驗室,作者|牧歌,編輯|堅果平替海馬體,
精彩推薦
- 生態(tài)環(huán)境部:6.8億噸鋼鐵產(chǎn)能完成或正在...
- 西藏全面加強專職人民調解員隊伍建設
- 海拔5500米的生死救援
- 今年拉薩將實施城市家具優(yōu)化提升項目
- 西藏拉薩市醫(yī)保局開展電子醫(yī)保憑證推廣...
- 中國西藏自治區(qū)與尼泊爾經(jīng)貿(mào)協(xié)調委員會...
- 截至目前 拉薩市參加醫(yī)保人數(shù)達52.49萬人
- 第十一次中尼經(jīng)貿(mào)協(xié)調會召開
- 上半年西藏經(jīng)濟運行穩(wěn)中向好 ?實現(xiàn)地...
- 投入4000萬 西藏拉薩市達孜區(qū)農(nóng)村集體...
閱讀排行
精彩推送
- 質疑大媽,理解大媽,成為大媽!...
- 招不到人的工廠,走進快手直播間
- 深公司早報|欣旺達計劃投資19.6...
- 見賢思齊 提升實力丨德城區(qū)婦幼...
- 用什么可以漂白玉石
- 低功耗UWB(超寬帶)芯片設計公...
- 諾德股份凈利潤連續(xù)下滑,控股孫...
- 小孩學校交的保險生病住院可以報...
- 雅本化學二十年砥礪奮進,“2+X...
- 護身符少兒意外險怎么樣?有哪些...
- 上半年中國游戲行業(yè)反彈明顯 中...
- 平安100元的意外險可以賠償多少...
- 小米蘋果看了都羨慕!“非洲手機...
- 意外險懷孕可以賠付意外險嗎?理...
- “難上加難”雙面?zhèn)戎鲈囼?比...
- 汽車意外險是什么意思?是如何賠...
- 通用稱美國排放法規(guī)將導致汽車行...
- 周黑鴨:預計中期凈利潤約9000萬...
- 甘李藥業(yè)大股東減持 比例由5....
- 宏裕包材北交所IPO:取得64項專...
- OpenAI:安卓版 ChatGPT 現(xiàn)已...
- 杭州市與三六零科技集團簽訂戰(zhàn)略...
- 9 塊 9 的“妙鴨”,飛不了太久
- 華為預熱系統(tǒng)云翻新功能,首發(fā)支...
- 聯(lián)想小新 Pad Pro 12.7 平板...
- 深夜突發(fā)!日媒曝日本央行周五將...
- 暑期旅游旺季火熱開啟 酒店預訂...
- 兩保代似與發(fā)行人共同舞弊,對發(fā)...
- 東方甄選抖音店鋪被關 3 天,...
- 2023年吉林第一批B段理工農(nóng)醫(yī)類...










