讓 GAN 再次偉大!拽一拽關鍵點就能讓獅子張嘴 & 大象轉身,湯曉鷗弟子的 DragGAN 爆火,網友:R.I.P. Photoshop
這兩天,一段 AI 修圖視頻在國內外社交媒體上傳瘋了。
不僅直接躥升 B 站關鍵詞聯想搜索第一,視頻播放上百萬,微博推特也是火得一塌糊涂,轉發者紛紛直呼 "PS 已死 "。
怎么回事?原來,現在 P 圖真的只需要 " 輕輕點兩下 ",AI 就能徹底理解你的想法!
【資料圖】
小到豎起狗子的耳朵:
大到讓整只狗子蹲下來,甚至讓馬岔開腿 " 跑跑步 ",都只需要設置一個起始點和結束點,外加拽一拽就能搞定:不止是動物的調整,連像汽車這樣的 " 非生物 ",也能一鍵拉升底座,甚至升級成 " 加長豪華車 ":這還只是 AI 修圖的 " 基操 "。要是想對圖像實現更精準的控制,只需畫個圈給指定區域 " 涂白 ",就能讓狗子轉個頭看向你:
或是讓照片中的小姐姐 " 眨眨眼 ":甚至是讓獅子張大嘴,連牙齒都不需要作為素材放入,AI 自動就能給它 " 安上 ":如此 " 有手就能做 " 的修圖神器,來自一個 MIT、谷歌、馬普所等機構聯手打造的DragGAN新模型,論文已入選 SIGGRAPH 2023。沒錯,在擴散模型獨領風騷的時代,竟然還能有人把GAN玩出新花樣!目前這個項目在 GitHub 上已經有5k+ Star,熱度還在不斷上漲中(盡管一行代碼還沒發)。所以,DragGAN 模型究竟長啥樣?它又如何實現上述 " 神一般的操作 "?拽一拽關鍵點,就能修改圖像細節這個名叫 DragGAN 的模型,本質上是為各種 GAN 開發的一種交互式圖像操作方法。
論文以StyleGAN2架構為基礎,實現了點點鼠標、拽一拽關鍵點就能 P 圖的效果。
具體而言,給定 StyleGAN2 生成的一張圖像,用戶只需要設置幾個控制點(紅點)和目標點(藍點),以及圈出將要移動的區域(比如狗轉頭,就圈狗頭)。
然后模型就將迭代執行運動監督和點跟蹤這兩個步驟,其中運動監督會驅動紅色的控制點向藍色的目標點移動,點跟蹤則用于更新控制點來跟蹤圖像中的被修改對象。這個過程一直持續到控制點到達它們對應的目標點。
不錯,運動監督和點跟蹤就是我們今天要講的重點,它是 DragGAN 模型中最主要的兩個組件。先說運動監督。在此之前,業界還沒有太多關于如何監督 GAN 生成圖像的點運動的研究。
在這項研究中,作者提出了一種不依賴于任何額外神經網絡的運動監督損失(loss)。
其關鍵思想是,生成器的中間特征具有很強的鑒別能力,因此一個簡單的損失就足以監督運動。
所以,DragGAN 的運動監督是通過生成器特征圖上的偏移補丁損失(shifted patch loss)來實現的。
如下圖所示,要移動控制點 p 到目標點 t,就要監督 p 點周圍的一小塊 patch(紅圈)向前移動的一小步(藍圈)。
再看點跟蹤。先前的運動監督會產生一個新的 latent code、一個新特征圖和新圖像。
由于運動監督步驟不容易提供控制點的精確新位置,因此我們的目標是更新每個手柄點 p 使其跟蹤上對象上的對應點。
此前,點跟蹤通常通過光流估計模型或粒子視頻方法實現。
但同樣,這些額外的模型可能會嚴重影響效率,并且在 GAN 模型中存在偽影的情況下可能使模型遭受累積誤差。
因此,作者提供了一種新方法,該方法通過最近鄰檢索在相同的特征空間上進行點跟蹤。
而這主要是因為 GAN 模型的判別特征可以很好地捕捉到密集對應關系。
基于這以上兩大組件,DragGAN 就能通過精確控制像素的位置,來操縱不同類別的對象完成姿勢、形狀、布局等方面的變形。
作者表示,由于這些變形都是在 GAN 學習的圖像流形上進行的,它遵從底層的目標結構,因此面對一些復雜的任務(比如有遮擋),DragGAN 也能產生逼真的輸出。
單張 3090 幾秒鐘出圖
所以,要實現幾秒鐘 " 精準控圖 " 的效果,是否需要巨大的算力?
nonono。大部分情況下,每一步拖拽修圖,單張 RTX 3090 GPU在數秒鐘內就能搞定。
具體到生成圖像的效果上,實際評估(均方誤差 MSE、感知損失 LPIPS)也超越了一系列類似的 "AI 修圖 " 模型,包括 RAFT 和 PIPs 等等:如果說文字的還不太直觀,具體到視覺效果上就能感受到差異了:值得一提的是,DragGAN 的 " 潛力 " 還不止于此。一方面,如果增加關鍵點的數量,還能實現更加精細的 AI 修圖效果,用在人臉這類對修圖要求比較嚴格的照片上,也是完全沒問題:
另一方面,不止開頭展示的人物和動物,放在汽車、細胞、風景和天氣等不同類型的圖像上,DragGAN 也都能精修搞定。除了不同的照片類型,從站到坐、從直立到跑步、從跨站到并腿站立這種姿勢變動較大的圖像,也能通過 DragGAN 實現:也難怪網友會調侃 " 遠古的 PS 段子成真 ",把大象轉個身這種甲方需求也能實現了。不過,也有網友指出了 DragGAN 目前面臨的一些問題。例如,由于它是基于 StyleGAN2 生成的圖像進行 P 圖的,而后者訓練成本很高,因此距離真正商業落地可能還有一段距離。
除此之外,在論文中提到的 " 單卡幾秒鐘修圖 " 的效果,主要還是基于256 × 256分辨率圖像:至于模型是否能擴展到 256 × 256 以外圖像,生成的效果又是如何,都還是未知數。有網友表示 " 至少高分辨率圖像從生成時間來看,肯定還要更長 "。
實際上手的效果究竟如何,我們可以等 6 月論文代碼開源后,一測見真章。團隊介紹
DragGAN 的作者一共 6 位,分別來自馬克斯普朗克計算機科學研究,薩爾布呂肯視覺計算、交互與 AI 研究中心,MIT,賓夕法尼亞大學和谷歌 AR/VR 部門。
其中包括兩位華人:一作潘新鋼,他本科畢業于清華大學(2016 年),博士畢業于香港中文大學(2021 年),師從湯曉鷗教授。
現在是馬普計算機科學研究所的博士后,今年 6 月,他將進入南洋理工大學擔任助理教授(正在招收博士學生)。
另一位是Liu Lingjie,香港大學博士畢業(2019 年),后在馬普信息學研究所做博士后研究,現在是賓夕法尼亞大學助理教授(也在招學生),領導該校計算機圖形實驗室,也是通用機器人、自動化、傳感與感知 ( GRASP ) 實驗室成員。值得一提的是,為了展示 DragGAN 的可控性,一作還親自上陣,演示了生發、瘦臉和露齒笑的三連 P 圖效果:是時候給自己的主頁照片 " 修修圖 " 了(手動狗頭)。論文地址:
https://vcai.mpi-inf.mpg.de/projects/DragGAN/data/paper.pdf
項目地址(代碼 6 月開源):
https://github.com/XingangPan/DragGAN
參考鏈接:
[ 1 ] https://weibo.com/1727858283/N1iKl4zVG
[ 2 ] https://twitter.com/_akhaliq/status/1659424744490377217
[ 3 ] https://twitter.com/mrgreen/status/1659482594516377601
責任編輯:hnmd003
相關閱讀
-
讓 GAN 再次偉大!拽一拽關鍵點就能讓獅子張嘴 & 大象轉身,湯曉鷗弟子的 DragGAN 爆火,網友:R.I.P. Photoshop
這兩天,一段AI修圖視頻在國內外社交媒體上傳瘋了。不僅直接躥升B站關鍵詞聯想搜索第一,視頻播放上百萬,
2023-05-21 -
哲庫首席 SoC 架構師:3nm 第二代 SoC 設計完成,原本預計 2025 年發布
IT之家5月21日消息,哲庫科技首席SoC架構師NhonQuach博士通過海外版領英發布信息,公布了哲庫研發的手機SoC
2023-05-21 -
ChatGPT App 運行有限制引發用戶不滿,僅 23 款 iPhone 可用
IT之家5月20日消息,據LTNNews消息,OpenAI已經在美國AppStore率先上架適用于iPhone和iPad的ChatGPTApp。然
2023-05-21 -
蘋果 WWDC 2023 部分日程公開:特別晚間活動或是史上最重磅新品
蘋果WWDC2023已經官宣在6月6日至6月10日舉行,由于取消了春季發布會,因此6月將是蘋果今年首次亮相。目前,
2023-05-21 -
最新資訊:2999 元!雷神上架新款 MIX 迷你主機:12 代酷睿 i7+32G+1T
雷神已經推出最新款的迷你主機MIX,這款主機搭載了高性能的i7-12650H處理器、32GB大內存和1TBSSD,到手價為
2023-05-21 -
ChatGPT App 運行有限制引發用戶不滿,僅 23 款 iPhone 可用
IT之家5月20日消息,據LTNNews消息,OpenAI已經在美國AppStore率先上架適用于iPhone和iPad的ChatGPTApp。然
2023-05-21
相關閱讀
-
讓 GAN 再次偉大!拽一拽關鍵點就能讓獅子張嘴 & 大象轉身,湯曉鷗弟子的 DragGAN 爆火,網友:R.I.P. Photoshop
這兩天,一段AI修圖視頻在國內外社交媒體上傳瘋了。不僅直接躥升B站關鍵詞聯想搜索第一,視頻播放上百萬,
-
三大領域投資增速均放緩 下階段走勢如何 當前熱門
三大領域投資增速均放緩下階段走勢如何今年以來重大項目加快開工建設、基建投資穩健增長,但受制造業投資改
-
離岸人民幣年內首度破“7” 專家呼吁“平常心”看待
離岸人民幣年內首度破“7”專家呼吁“平常心”看待5月17日上午,離岸人民幣兌美元匯率跌破“7”,當日下...
-
銀行理財存續規模回升 市場擴容有空間|環球觀焦點
銀行理財存續規模回升市場擴容有空間近期調研了解到,在存款利率下調的背景下,部分投資者重新開始關注理財
-
電競生態系統概述:Apex Legends 微資訊
近日,APEX電競引起了一波不大不小的關注。4月29日,中國兩只由主播自建的APEX戰隊(DF、MDYW)闖入世界線下
-
哪家航司最壕:土耳其航空凈賺27億,新加坡航空發8個月工資當獎金|環球看點
在疫情期間如履薄冰的民航空業,終于迎來復蘇。經歷了2020年的裁員減薪、2021年的補貼維持,多家國際航司在
-
國際金價一路飆升,誰淘到了“真金”?-環球快看點
近期持續霸屏的熱詞,肯定是黃金。熱,體現在飆漲的價格。今年以來,國際金價顯著上漲,倫敦金現貨價格盤中
-
全球訊息:萬達電影:今年計劃新建直營影院10-20家 新開業輕資產影院50-60家
萬達電影股份有限公司在業績說明會上表示,今年公司計劃新建直營影院10-20家,新開業輕資產影院50-60家。
-
哲庫首席 SoC 架構師:3nm 第二代 SoC 設計完成,原本預計 2025 年發布
IT之家5月21日消息,哲庫科技首席SoC架構師NhonQuach博士通過海外版領英發布信息,公布了哲庫研發的手機SoC
-
ChatGPT App 運行有限制引發用戶不滿,僅 23 款 iPhone 可用
IT之家5月20日消息,據LTNNews消息,OpenAI已經在美國AppStore率先上架適用于iPhone和iPad的ChatGPTApp。然
-
蘋果 WWDC 2023 部分日程公開:特別晚間活動或是史上最重磅新品
蘋果WWDC2023已經官宣在6月6日至6月10日舉行,由于取消了春季發布會,因此6月將是蘋果今年首次亮相。目前,
-
最新資訊:2999 元!雷神上架新款 MIX 迷你主機:12 代酷睿 i7+32G+1T
雷神已經推出最新款的迷你主機MIX,這款主機搭載了高性能的i7-12650H處理器、32GB大內存和1TBSSD,到手價為
-
ChatGPT App 運行有限制引發用戶不滿,僅 23 款 iPhone 可用
IT之家5月20日消息,據LTNNews消息,OpenAI已經在美國AppStore率先上架適用于iPhone和iPad的ChatGPTApp。然
-
哲庫首席 SoC 架構師:第二代 SoC 設計完成,原本預計 2025 年發布
IT之家5月21日消息,哲庫科技首席SoC架構師NhonQuach博士通過海外版領英發布信息,公布了哲庫研發的手機SoC
-
面對交付難關,深藍 S7 能否闖出生路?|今日訊
差不多也是去年的這個時候,長安深藍發布了首款車型,并展示了其全新的EPA1電動平臺。而日前,作為深藍品牌
-
門店排起長龍!華為 P60 Pro 在馬來西亞開啟首銷 全球即時看
【手機中國新聞】北京時間5月20日,華為官方宣布,華為P60Pro在馬來西亞迎來首銷,眾多消費者開售第一時間
-
全球消息!ChatGPT App 運行有限制引發用戶不滿,僅 23 款 iPhone 可用
IT之家5月20日消息,據LTNNews消息,OpenAI已經在美國AppStore率先上架適用于iPhone和iPad的ChatGPTApp。然
-
第九屆“曹燦杯”曹燦培訓學校展示點精彩集錦第二彈|焦點播報
2023年5月13日,第九屆“曹燦杯”青少年朗誦展示活動北京展示區曹燦培訓學校展示點進行初級展示,共有30...
-
環球精選!保險交多少年最劃算?多少年才能領退休金?
從普遍的經濟學角度來看,多數人建議至少要交5年以上的保險。這是因為,保險是一種長期的投資方式,涉及到
-
重大疾病百萬醫療保險是什么?怎么樣?
重大疾病百萬醫療保險是一種專門針對大病風險的保險產品。具體來說,它可以在被保險人確診罹患某些特定的疾
-
大房企跌倒,區域房企吃肉:千萬年薪高管再起爐灶,日化巨頭轉型做產業園
半年多前,明星經理人莊青峰辭去珠江投資副總裁一職,回到山東老家創業。近日,他在朋友圈官宣成立山東義得
-
百萬醫療可以抵扣個稅么?個稅扣除標準是什么?_新要聞
對于許多人來說,除了關注百萬醫療的報銷范圍之外,他們還更加關注百萬醫療是否可以抵扣個稅。根據我國稅收
-
百萬醫療多家投保行嗎?可以多家報銷嗎?_每日熱議
如果已經在一家保險公司進行了理賠,那么其他保險公司將不會再次進行理賠。如果被保險人在不同的時間段內出
-
百萬醫療性價比高嗎?靠譜嗎?|每日消息
百萬醫療作為一種醫療保險形式,是具有很高實用價值和重要性的。它可以為被保險人提供全面的醫療費用支持,
-
不用農藥化肥 江蘇戴莊蹚出生態農業新路
培育農田里的生物多樣性——這正是戴莊探索生態農業的生動寫照。在農技專家看來,水稻田是一個濕地生態...
-
對話哥倫比亞大學教授俞舟:人工智能公司的競爭,到最后還是產品和服務的競爭-當前短訊
機器之心報道編輯:楊德澤在對談中,俞舟不像其他創業者那樣大談ChatGPT對于行業的巨大影響力,她更加關注
-
在消費的漫長冬季,紅杉想打個能引起共鳴的響指 環球速訊
文|徐牧心編輯|劉旌火花的意義在與面前這位創始人約見后,紅杉中國合伙人胡若笛定好了鬧鐘,只要對方的產品
-
全球快消息!AIGC 培訓狂熱:把“搞錢”寫在招生廣告里,上兩天課即可就業?
中新經緯5月21日電(常濤牛朝閣)ChatGPT、AIGC、大模型與搞錢風口已到?下一個高薪行業AIGC,月薪3W+!百分
-
珀萊雅卷入虛假營銷丑聞,利用原料濃度誤導消費者或為行業潛規則 頭條
日前,成于大單品的珀萊雅,卻翻車于大單品上。這家2003年誕生于杭州的美妝品牌,最早起步于日化渠道,初期
-
不唯產值看潛質 不重優惠重“環境”——從“西洽會”看西部投資高質量發展之變
新華社重慶5月20日電 題:不唯產值看潛質 不重優惠重“環境”——從“西洽會”看西部投資高質量發展之...
精彩推薦
閱讀排行
精彩推送
- paic是哪家保險公司?有哪些險種?
- 全球最新:大家財產保險公司怎么...
- 人壽保險可以退保嗎?退保需要多...
- 金域醫學重磅發布“產學研融合”...
- 全球速讀:重大疾病保險退保可以...
- 【時快訊】中國人壽養老保險哪個...
- AI歌手如何走得更遠?優質版權內...
- 女子入職1個月查出懷孕被辭退,...
- 天津港集團發布全球首臺氫電混合...
- 世界首條充電公路來了:Good id...
- 對手“送禮”,曼城隊提前實現英...
- 工傷保險費用由誰承擔?一個月多...
- 昆侖健康保險可靠嗎?如何投保?
- 給新生兒買保險哪種好?具體流程...
- 眾安保險理賠快嗎?需要什么資料...
- 新華保險多倍保可靠嗎?怎么買?...
- 世界關注:店員稱衣服掉地上摔個...
- 【焦點熱聞】天津港集團發布全球...
- 佳能即將發布 R100 及 RF28mm...
- 市值蒸發萬億之后,全球仿制藥巨...
- 違規!致歉!這兩款車型,停售!...
- 世界今頭條!華鑫證券:給予新益...
- 健康無憂c款新華保險怎么樣?怎...
- cpic是什么保險公司?最好的險種...
- 【焦點熱聞】人壽保險種類有哪些...
- 環球快資訊:英大泰和財產保險公...
- 小孩買的保險怎么查詢?小孩保險...
- 天天最資訊丨SpaceX 順利完成今...
- 外媒稱微軟成美核聚變能源首位客...
- 非激素療法再創新,為絕經女性“...




