天天訊息:「大一統」大模型論文爆火,4 種模態任意輸入輸出,華人本科生 5 篇頂會一作,網友:近期最不可思議的論文
多模態大模型,終于迎來 " 大一統 " 時刻!
(相關資料圖)
從聲音、文字、圖像到視頻,所有模態被徹底打通,如同人腦一般,實現了真正意義上的任意輸入,任意輸出。
要知道,多模態一直是學術界公認要達到更強智能的必經之路,連GPT-4都在往這個方向發展。
也正是因此,這項來自微軟、北卡羅來納大學教堂山分校的新研究一經 po 出,立即在社交媒體上爆火,有網友驚嘆:這是我最近見過最不可思議的一篇論文!
究竟有多不可思議?只需告訴大模型,想要 " 一只玩滑板的泰迪熊 ",并輸入一張照片 + 一段聲音:
它立刻就能精準 get 要點,生成一段在下雨天在城市里玩滑板的心碎小熊錄像,仔細聽還會發現配上了新的雨聲:效果太過于鵝妹子嚶,以至于不少網友表示 " 有被嚇到 ":
還有網友感嘆 " 新時代的到來 ":等不及看到創作者們用這些 AI 工具制作各種沉浸式故事體驗了。這簡直給 RPG 角色扮演游戲賦予了全新的意義。
值得一提的是,一作 Zineng Tang 雖然本科還沒畢業,但他已經在 CVPR、發了 6 篇頂會論文,其中5 篇都是一作。所以,這個號稱能夠 " 轉一切 "(any-to-any)的大一統大模型,實現效果究竟如何?
4 種模態隨意選,打出 " 組合拳 "
大模型 CoDi,具有任意輸入和輸出圖、文、聲音、視頻 4 種模態的能力。
無論是單模態生成單模態(下圖黃)、多模態生成單模態(下圖紅)、還是多模態生成多模態(下圖紫),只要指定輸入和輸出的模態,CoDi 就能理解并生成想要的效果:
先來看單模態生成單模態。輸入任意一種模態,CoDi 都能聯想并輸出指定的模態,例如,輸入一張風景圖像,就能輸出 " 山景,日出 " 這樣的文字提示詞:
或是輸入一段鐵軌碰撞聲,就能生成一張地鐵圖像:面對多模態生成單模態時,CoDi 威力同樣不減。輸入一張 " 熊貓吃竹子 " 圖像,加上一段 " 在咖啡桌上吃 " 的文字要求:
CoDi 就能生成一段大熊貓坐在咖啡桌旁吃竹子的視頻:或是輸入一組文字提示詞 " 油畫,恐怖畫風,優雅復雜的概念藝術,克雷格 · 穆林斯(CG 繪畫之父)風格 ",加上一段拍打木板的水聲:CoDi 在經過聯想后,就能輸出一張精致的、氣勢恢宏的黃昏時分海盜船畫像:
最后來看看多模態生成多模態的效果。給 CoDi 提供一段鋼琴聲,加上一張森林中的照片:
CoDi 就能想象出一段 " 在森林中彈鋼琴 " 的文字,并配上對應的插圖:要知道在這之前,AI 生成的視頻不少都沒有配音,停留在老式的 " 無聲電影 " 階段。然而 CoDi 不僅能生成視頻,還能生成搭配視頻食用的聲音。
例如根據一個 " 天空中的花火 " 文字提示詞 + 一段對應的音頻,就能生成一個帶有爆炸聲音的煙花錄像:
所以,CoDi 究竟是如何做到理解不同的模態,并 " 打出組合拳 " 的?
用 " 對齊 " 來節省大模型訓練數據
事實上,CoDi 的打造面臨兩個難點。
首先是缺少訓練數據的問題,以作者們能收集到的數據集為例:
無論是像 Laion400M 這樣的文圖數據集、還是像 AudioSet 之類的音頻文字數據集,或是油管上的圖像音視頻數據集,以及 Webvid10M 之類的視頻數據集,都屬于 " 單模態生成單個或兩個模態 " 的類型。
然而,多模態大模型的訓練數據需求,隨著模態數量的增加呈指數級增長,許多輸入輸出組合,往往缺少對應的訓練數據集。其次,已有的擴散模型大多是 1v1 的類型,如何設計并訓練模型,確保多模態輸入輸出的效果,同樣是個問題。
針對這兩個問題,作者們決定分兩個階段打造 CoDi,讓它不僅能實現單模態 " 完美輸出 "、還能做到多模態 "1+1>2"。
在階段一,組合條件訓練,給每個模態都打造一個潛在擴散模型(LDM),進行組合訓練。
針對 A 模態生成 B 模態數據集缺失的問題,作者們提出了一種名為橋接對齊(Bridging Alignment)的策略。
具體來說,就是以帶文本模態的數據集為 " 中介 ",對齊另外幾種模態的訓練效果。
以音頻生成圖像為例。
雖然音頻生成圖像數據集不多,但文本生成音頻、文本生成圖像的數據集卻有不少,因此可以將這兩類數據集合并起來,用于訓練文本 + 音頻生成圖像的效果。
在此期間,文本和音頻輸入經過模型處理,會被 " 放置 " 進一個共享特征空間,并用輸出 LDM 來處理輸入輸入的組合特征,輸出對應的圖像結果。
階段二,進一步增加生成的模態數量。在階段一的基礎上,給每個潛在擴散模型和環境編碼器上增加一個交叉注意力模塊,就能將潛在擴散模型的潛變量投射到共享空間中,使得生成的模態也進一步多樣化。
最終訓練出來的模型,雖然訓練數據類型不是 " 全能的 ",但也具備了多模態輸入、多模態輸出的能力。值得一提的是,可別以為這種方法會降低模型生成的質量。事實上,在多種評估方法上,CoDi 均超越了現有多模態大模型的生成效果。
華人本科生,5 篇頂會論文一作一作Zineng Tang,本科就讀于北卡羅來納大學教堂山分校,也是微軟研究院的實習生,今年 6 月將進入加州大學伯克利分校讀博。
他的研究興趣在于多模態學習、機器學習和 NLP 領域,而從大一開始,他就在 NeurIPS、CVPR、ACL 和 NAACL 等頂會上相繼發了 6 篇文章,其中 5 篇一作。
就在今年 1 月,Zineng Tang 還獲得了 2023 年的美國計算機研究學會(CRA)設立的優秀本科生研究員獎。每年全美國能獲得這個獎項的本科生,只有 4 人。
這一獎項旨在表彰在計算機研究領域有杰出研究潛力的本科生,包括 MIT、斯坦福、哈佛和耶魯大學等不少北美名校在內,每年都會提名一些優秀學生,經過層層篩選后決定獲獎者。通訊作者Ziyi Yang,目前是微軟 Azure 認知服務研究團隊(CSR)的高級研究員,研究方向是多模態理解和生成,文檔智能和 NLP 等。
在加入微軟之前,他本科畢業于南京大學物理系,并于斯坦福大學獲得電氣工程碩士和機械工程博士學位。
通訊作者Mohit Bansal,是北卡羅來納大學教堂山分校計算機系教授。他于加州大學伯克利分校獲得博士學位,目前研究方向是 NLP 和多模態機器學習,尤其側重語言生成問答和對話、以及可解釋深度學習等。
你感覺多模態大模型發展的下一階段,會是什么樣子?
論文地址:
https://arxiv.org/abs/2305.11846
項目地址:
https://github.com/microsoft/i-Code/tree/main/i-Code-V3
參考鏈接:
[ 1 ] https://twitter.com/AviSchiffmann/status/1660771055676588033
[ 2 ] https://twitter.com/ZinengTang/status/1660726736642887681
[ 3 ] https://cra.org/2023-outstanding-undergraduate-researcher-award-recipients/
[ 4 ] https://codi-gen.github.io/
責任編輯:hnmd003
相關閱讀
-
天天訊息:「大一統」大模型論文爆火,4 種模態任意輸入輸出,華人本科生 5 篇頂會一作,網友:近期最不可思議的論文
多模態大模型,終于迎來大一統時刻!從聲音、文字、圖像到視頻,所有模態被徹底打通,如同人腦一般,實現了
2023-05-28 -
【環球播資訊】華碩 Zenfone 10 相關信息曝光,外觀或變化不大
作為知名PC大廠,華碩盡管在智能手機領域聲明不顯,但旗下的Zenfo系列機型近年來卻一直在保持著持續更新的
2023-05-28 -
馬斯克又鬧幺蛾子?推特據稱將退出歐盟內容審核自愿性協議_天天觀速訊
財聯社5月28日訊(編輯馬蘭)推特據稱將在下周宣布退出歐盟虛假信息協議計劃,歐盟專員ThierryBreton在推特
2023-05-28
相關閱讀
-
天天訊息:「大一統」大模型論文爆火,4 種模態任意輸入輸出,華人本科生 5 篇頂會一作,網友:近期最不可思議的論文
多模態大模型,終于迎來大一統時刻!從聲音、文字、圖像到視頻,所有模態被徹底打通,如同人腦一般,實現了
-
問界銷量一跌再跌,華為帶不動,賽力斯另謀出路?
作者|Pan編輯|Duke來源|鈦財經盡管有華為的加持,但賽力斯也并非高枕無憂。此前,賽力斯公布的2022年報
-
【環球播資訊】華碩 Zenfone 10 相關信息曝光,外觀或變化不大
作為知名PC大廠,華碩盡管在智能手機領域聲明不顯,但旗下的Zenfo系列機型近年來卻一直在保持著持續更新的
-
iPhone 15 系列機模現身,或全系更換 Type-C 接口
作為這個星球上幾乎最受關注的智能手機產品,蘋果的iPhone發生任何變化也總能牽動大量消費者的關注,盡管目
-
小米 14 Pro 相關信息曝光,將有望迎來全面升級
在經過了數年的精心打磨后,如今小米的數字系列旗艦機型毫無疑問已經在高端市場站穩,其中特別是不久前剛剛
-
馬斯克曾嘲諷比亞迪,被打臉后最新表態:很多年前的事了,現在他們的汽車極具競爭力|天天動態
24小時財經資訊平臺,依托新銳財經日報《每日經濟新聞》(NationalBusinessDaily),打造中國最具影響力的經
-
黑中介、借貸、傳銷……高校畢業生要小心“求職陷阱”|當前熱議
高校畢業生務必清楚傳銷屬于違法行為,在求職中要了解傳銷的基本特征,對發展下線的宣傳,要保持頭腦高度清
-
馬斯克又鬧幺蛾子?推特據稱將退出歐盟內容審核自愿性協議_天天觀速訊
財聯社5月28日訊(編輯馬蘭)推特據稱將在下周宣布退出歐盟虛假信息協議計劃,歐盟專員ThierryBreton在推特
-
一季報里的新舊美團-環球熱議
5月25日,美團發布了2023年一季度的財務報告。而無論是從營收、還是利潤的同比增速來看,本次財報都稱得上
-
不止可口可樂,這些飲料也在漲價
中新經緯5月28日電(閆淑鑫實習生趙薇)最近,可口可樂漲價的消息受到業內關注,有網友直呼肥宅快樂水不快樂
-
武漢財政局登報催收!涉轄區多家財政局及金融機構-世界動態
中新經緯5月28日電武漢財政局公開催債,涉及轄區多家財政局及金融機構。26日,武漢市財政局、武漢長江資產
-
工信部部長金壯龍親歷,東航開啟 C919 首次商業飛行 聚焦
東航C919空中之旅開啟圖片來源:東航提供(下同)今日(2023年5月28日)上午10時32分,中國東方航空使用中
-
C919全球首次商業載客起飛!近130名旅客嘗鮮,“國產大飛機靠它帶頭”-新要聞
2023年5月28日,上海白天最高氣溫31度,虹橋機場也迎來萬里晴空。上午10時32分,中國東航(600115 SH)首架
-
今亮點!天涯社區公告:確實遇到資金流動性困難,在多方籌措資金、全力重啟
天涯社區公告,天涯社區不慎形成了投資損失并致使天涯社區向移動互聯網的轉型布局嚴重受挫。后續引發的
-
武漢五洲萊美整形美容醫院怎么樣
現在整形行業發展的比較好,整形技術也是越來越成熟了,而且術后的可靠性也是可以得到保障的。所以很多醫院
-
中國經濟信心說丨人口高質量發展 從直面每個家庭的實際困難開始
從加強人力資源開發利用,實施積極應對人口老齡化的國家戰略,到更好統籌人口與經濟社會、資源環境的關...
-
【環球快播報】搜索引擎正在沒落!AI 成了救世主?
建立搜索引擎很難,但在今天更難的是說服用戶使用它。這是絕大部分搜索引擎面對的問題,微軟的Bing是,字節
-
西湖益聯保保險保什么病?什么時候可以買? 精選
西湖益聯保保險保大病保險補充醫療保障、住院和規定病種醫保外合理藥品、材料補充醫療保障、特定腫瘤及危重
-
全球即時看!扎克伯格財富暴漲近470億美元,要求員工“更加敏捷”
據IT之家消息,Meta 公司近日發布了 2022 年第四季度和全年財報,雖然營收和凈利潤超出市場預期,股
-
白宮:如果宣布政府債務違約,美國股市將暴跌45%
App5月28日消息,據報道,白宮經濟顧問委員會估計,如果發生國債違約,美國股市將暴跌45%。在這種情況下,
-
這一戰,百度和李彥宏都輸不起_當前頭條
ChatGPT爆火,百度無辜中槍。2023年5月22日,百度已不是中國第一大桌面搜索的話題沖上微博熱搜。StatCounte
-
當前看點!618 筆記本電腦價格狂泄,這些產品可以無腦沖!
溫馨提示各位:618購物節,各大平臺已經陸陸續續開啟了,見圖:專注于科技的雷科技,也準備了一大波良心科
-
BCG 2023 全球最具創新公司 50 強發布!蘋果連續三年蟬聯榜首,華為排第 8,小米排第 29 環球觀速訊
盡管全球經濟存在不確定性,但創新已成為2023年企業的首要任務。波士頓咨詢集團(BCG)最新發布的一份報告顯
-
西藏職校舉辦民族服飾畢業作品展演活動
5月26日晚,西藏拉薩,西藏職業技術學院旅游與文化學院舉辦服裝與服飾設計專業2020級畢業生畢業作品展演活
-
一季度西藏新增減稅降費和退稅緩稅緩費超11.7億元
今年以來,西藏自治區稅務局從宣傳輔導、便利征管等方面出臺舉措,落實稅費優惠政策,切實打造“低成本...
-
奔忙一線,只為荒山添綠|今日看點
齊耳的短發、被紫外線曬得發紅的臉頰,常年身著沖鋒衣和運動鞋——這是大家對拉薩市林業和草原局局長尹...
-
西藏開展《信訪工作條例》實施一周年宣傳日活動
5月26日,西藏自治區信訪局聯合區公安廳、區人社廳、拉薩市信訪局等20家單位,在拉薩市宇拓路開展《信訪工
-
環球滾動:探索房地產發展新模式的三點思考
探索房地產發展新模式的三點思考未來,上市房企需保持戰略定力,錨定新發展目標,尋找適合自身的轉型之路,
-
蘋果期價驟然大漲的原因是什么?
周五,蘋果期貨價格大幅上漲,突破近期振蕩整理平臺。截至當日收盤,主力2310合約漲幅為2 76%,并伴隨成交
-
人保無憂一生重大疾病保險條款是什么?管用嗎?
1、保險責任:被保險人在保險期間內發生合同約定的重大疾病,保險公司將按照約定金額支付保險金。 2、保險
精彩推薦
閱讀排行
精彩推送
- 幸福人壽財富尊享終身壽險安全嗎...
- 當前聚焦:人保無憂人生重大疾病...
- 平安百萬醫療保險好嗎?有年齡限...
- 百萬醫療適合什么人群?都有免賠...
- 征求700名主管提早退休,夏普強...
- 天涯創始人邢明首度回應關停:不...
- 蘋果客服回應多人被充電頭電到甚...
- 【時快訊】“數字人”周鴻祎首次...
- 訊息:促消費燃旺煙火氣|四季村...
- “鞍匠”巴音畢力格:傳承民間技...
- “鹿城文旅大講堂”開講|當前快訊
- 多彩社團 教學相長展風采
- 全球微頭條丨市工商聯與商會互學...
- 手機上億級像素的下放,將會帶來...
- 百萬網友學穿搭!爆紅的多巴胺穿...
- 誰都不想被淘汰,關鍵要賣得動車...
- 熱門:勞動合同到期,員工卻在哺...
- 堅守——珠峰腳下的“種子”
- 鹿寨縣氣象臺發布大風藍色預警信...
- 百萬醫療停售后還能續保嗎?續保...
- 健康險和壽險有什么區別?哪個好...
- 泰康百萬醫療騙局揭秘是真的嗎?...
- 天天頭條:眾安保險百萬醫療保險...
- 當前關注:百萬醫療可以異地就醫...
- 天天視訊!拒絕董明珠3次的主播...
- 天天滾動:AITO問界第十萬輛車下...
- 世界快資訊:融資拿到手軟,估值...
- iPhone 15 Pro Max 參數曝光...
- 西南大學創新科普活動 200余名...
- 答讀者問:PHEV汽車就必須采用高...




