在线欧美精品国产综合五月_国产精品免费久久久久影院_国产精品久久久久无码av_a级毛片黄免费a级毛片

首頁 > 股票 > 正文

AI 潮涌,這門生意爆了

2023-08-14 17:14:28來源:ZAKER財經  

作 者丨郭美婷

編 輯丨吳立洋

AI 潮水洶涌,數據正成為一門火爆的生意。


(資料圖片)

為了給人工智能喂上充足的 " 養料 ",從發掘、采集到標注,企業在數據處理的各個環節掘金。到如今,真實的數據已無法滿足日漸膨脹的 AI" 胃口 ",企業開始探索 AI 自產自銷的 " 假 " 數據——合成數據產業應用而生。

上個月底,國內合成數據公司 " 光輪智能 " 宣布完成天使 + 輪融資;幾個月前,新加坡合成數據初創公司 Betterdata 也獲得一筆 165 萬美元規模的種子輪融資?;ヂ摼W大廠也開始了布局。微軟、英偉達、meta、亞馬遜等數得上號的科技巨頭中,均有合成數據相關的業務布局、投資或收購舉動。

合成數據究竟是 " 何方神圣 "?它有怎樣的產業價值和風險?會給 AI 產業帶來怎樣的顛覆?

" 人造 " 數據崛起

相比于從現實世界中采集或測量的真實數據,合成數據顧名思義是人工合成的 " 假 " 數據。由于能夠反映原始數據的屬性,合成數據可以作為原始數據的替代品來訓練、測試和驗證 AI 模型。

但人工合成并不意味著完全憑空捏造?,F階段,大部分合成數據的 " 根 " 仍然是真實數據。

Unity 中國高級軟件工程師錢文億向 21 世紀經濟報道記者介紹了其合成數據產品在計算機視覺相關項目中的普遍生成過程:第一步,在現實中找到可識別的對象,通過掃描技術,將物體模型真實地還原在 3D 場景中;在此基礎上,對該物體模型進行打標簽,如顏色、大小等,具體標簽類型依據訓練需求而定;最后,將這些物體放置于各種設定的場景中,隨機組合,快速地生成多張圖片。

因此,訓練同一個 AI 模型時,使用真實數據也許需要攝像頭不斷變換地捕捉物體在不同場景、狀態下的多張照片,而合成數據則能夠通過調整物體位置、角度、所處背景等參數,一分鐘內生產成百上千張不同的圖片,降低成本,提高數據集生成效率。

事實上,合成數據的概念并不新穎。據說,這一概念早在 1993 年 Donald Rubin 的一篇文章中就有雛形。近年來,隨著人工智能技術一次次取得突破性發展,真實數據的采集、獲取難度也水漲船高,已難以填飽 AI 訓練的龐大 " 胃口 "。

合成數據常常作為真實數據的 " 平替 " 而存在。據人工智能初創公司 Cohere 首席執行官 Aiden Gomez 在上個月底透露,由于 Reddit、推特等公司的數據采集要價太高,微軟、OpenAI 和 Cohere 等公司,已使用合成數據來訓練 AI 模型。Gomez 表示,合成數據可以適用于很多訓練場景,只是目前尚未全面推廣。

但在廣州大學計算機科學與網絡工程學院教授王員根看來,價格反而不是選擇合成數據最主要的考慮因素。

真實數據涉及大量個人隱私,冒然使用可能引起嚴重的法律糾紛問題,而且并非所有的真實數據都是可用的。互聯網上充斥著大量真偽難辨的信息,要從雜亂無章的真實數據中挖掘出可用的信息,需要大量的人工篩選。另外,真實數據還存在分布不均衡的問題。例如,訓練人臉識別系統時,從互聯網上爬取到的人臉數據中亮皮膚人臉圖像占多,而暗皮膚人臉圖像偏少,這將導致所訓練的模型存在偏見。合成數據恰能在一定程度上人為規避上述問題。

" 部分真實數據無法獲取,如清晰的水下圖像等,通過合成數據技術模擬生成相關數據,能夠補充訓練數據的完備性。" 王員根補充道,盡管現階段大量合成數據建立在真實數據基礎上,但隨著技術的進步,未來對真實數據的依賴將逐步減少,目前已有技術能讓直接合成的數據 " 以假亂真 "。

但合成數據并非十全十美。在 AI 訓練數據服務商 Appen 澳鵬官方發布的一篇文章中,就提到合成數據缺乏異常值,而這些異常值自然出現在真實數據中,對于模型精確度至關重要。另外,合成數據的質量通常取決于用于生成的輸入數據,輸入數據中的偏見很容易傳播到合成數據中,因此不能低估使用高質量數據作為起點的重要性。所以,企業需要將合成數據與人工標注的真實數據進行比較,作為額外的輸出控制。

越敏感,越先突破

目前,合成數據主要應用于哪些領域?

相比于自然語言、音頻等形式,合成數據最先在計算機視覺上展露拳腳。受訪專家們認為,這與圖片處理更加簡單直接、人類與環境進行交互時優先通過視覺系統等因素相關。未來,其他領域的合成數據也將得到進一步的發展。

合成數據在自動駕駛、醫療、金融等場景有著廣闊的應用前景。這些場景的共同點在于,真實數據敏感,難以獲取,但又關涉重大,有的還涉及人身安全,對數據質量要求極高。" 哪里最有需要,哪里就會最先得到發展和應用。合成數據技術最有可能在這些敏感場景中取得突破。" 王員根表示。

以自動駕駛為例,實際駕駛過程中,車輛可能會碰到各種復雜多變的路況,甚至是極端情況,如嚴重的交通堵塞、事故、惡劣天氣等。尤其是在極端情況下,使用真車冒險測試幾乎不可能,極難采集和獲取到真實數據。

合成數據可以模擬出這些情景。王員根介紹," 比如,要模擬暴雨天氣,我們就用日常能夠收集到的普通天氣的數據,構建一個物理或網絡模型,將‘暴雨’的關鍵參數輸入進去,就能生成相應的場景。模型和參數越準確,場景的逼真程度越高。" 如此,能夠在保障人員和設備安全的條件下,提升自動駕駛能力。

公開資料顯示,許多自動駕駛汽車廠商都在合成數據和模擬方面進行了大量投資。例如,谷歌母公司 Alphabet 旗下的自動駕駛子公司 Waymo 在 2106 年就生成了 25 億英里的模擬駕駛數據來訓練其自動駕駛系統(相比之下,從現實世界收集的駕駛數據僅為 300 萬英里)。到 2019 年,這一數字已達到 100 億英里。

國內,騰訊自動駕駛實驗室開發的自動駕駛仿真系統 TADSim 已經可以自動生成無需標注的各種交通場景數據。華為云也基于盤古大模型開發了場景重建大模型,該模型可基于采集的路采視頻數據做場景重建(合成數據),普通用戶很難用肉眼分清這些重建的場景跟真實場景有何區別。

然而,自動駕駛涉及人身安全,合成數據畢竟不是完全真實的,這注定了企業使用這類數據進行訓練時會表現得更加謹慎。

小馬智行聯合創始人兼 CTO 樓天城向 21 記者強調,合成數據既有憑空生成的虛擬數據,也有基于真實數據加以修改得到的數據,目前在 L4 的感知模塊中,小馬智行沒有使用憑空生成的虛擬數據。主要是因為 L4 方案依賴于激光雷達,對于如惡劣天氣、長尾物體等難度場景,生成激光雷達的虛擬數據與真實數據的分布差異較大,無法用虛擬數據來達到在真實場景下提升的效果。

但小馬智行會對真實數據加以修改來合成數據用于感知算法,對于不依賴原始傳感器輸入的模塊,例如路徑規劃和一些場景理解等算法,也會使用合成數據進行訓練和仿真評估。

樓天城認為,要把虛擬數據做到足夠逼真對標注質量的要求反而更高。而對于一般的簡單場景,做數據挖掘和智能標注的數據閉環相比于研發合成逼真的虛擬數據的成本還要低不少。目前學術界對使用完全虛擬的數據進行自動駕駛的訓練有一些研究,不少公司也在做相關預研。從訓練效果來看,從 0 到 80 分有幫助,但對 90 到 99 分效果一般,實際落地部署的案例并不普遍。

" 我們也在關注合成虛擬數據相關的技術進展并持開放的態度,如果某一天技術足夠成熟時也會考慮應用。" 樓天城表示。

數據標注產業將被重構?

據咨詢公司 Gartner 預測,到 2030 年,合成數據將徹底取代真實數據,成為 AI 模型所使用的數據的主要來源。而美國 AI 研究機構 Cognilytica 數據顯示,2021 年合成數據市場規模大概在 1.1 億美元,到 2027 年將達到 11.5 億美元。這是一塊讓不少科技大廠和初創公司垂涎的大蛋糕。

多家的科技巨頭均有合成數據相關的業務布局、投資或收購舉動。例如,2021 年,英偉達發布了用于訓練 AI 的 Omniverse Replicator 合成數據生成引擎,今年 7 月,英偉達初創加速計劃成員 Rendered.ai 將 Omniverse Replicator 集成到其合成數據生成平臺,使 AI 訓練變得更加簡單易用;亞馬遜也在多個場景探索合成數據的應用,例如使用合成數據來訓練、調試其虛擬助手 Alexa,以避免用戶隱私問題等;Meta 則直接收購了合成數據創業公司 AI.Reverie,以整合至旗下元宇宙部門 Reality Labs。

創業公司方面,合成數據領域的投資并購持續升溫。計算機視覺合成數據提供商 Datagen 于 2022 年初宣布完成 5000 萬美元 B 輪融資;今年 4 月,新加坡合成數據初創公司 Betterdata 在獲得一筆 165 萬美元規模的種子輪融資;7 月末,國內合成數據公司 " 光輪智能 " 宣布完成天使 + 輪融資,這家今年剛成立的新公司,已經完成種子輪、天使輪、天使 + 三輪融資,累計融資金額達數千萬元。

錢文億觀察到," 過去幾年,全球幾乎每年都有好幾百甚至上千家新型初創公司建立,為各行各業提供用于算法訓練的合成數據產品。"

產業繁榮之下,我國也開始鼓勵和引導合成數據產業的發展。今年 3 月初,中國證監會科技監管局局長姚前曾在《中國金融》雜志撰文稱,建議重點發展基于 AIGC 技術的合成數據產業。以更高效率、更低成本、更高質量為數據要素市場 " 增量擴容 ",助力打造面向人工智能未來發展的數據優勢。5 月 19 日,北京發布的 " 北京市通用人工智能產業創新伙伴計劃 ",提到謀劃建設國家級數據訓練基地,也提出了支持發展基于 AIGC 技術的合成數據新產業。

而在過去很長一段時間里,人工智能對數據的海量需求催生了一批數據標注師的就業群體。如今,當合成數據逐漸成勢,數據標注產業的格局是否會因此遭到沖擊?

王員根認為,沖擊是必然的,但需求仍在。" 首先這件事沒有那么快到來,其次,標注師們要進行轉型。比如,過去需要標注的是原始數據,如今則變成了 AI 生成的數據;又如在原本數據標注工作的基礎上,標注師們還將被要求分辨哪些是 AI 生成的數據,哪些是自然數據等。即使合成數據越來越多、質量越來越高,也離不開人類的引導和監督,以及時修正可能出現的偏差。"

SFC

本期編輯 江佩佩 實習生 章寶怡

21 君薦讀

關鍵詞:

責任編輯:hnmd003

相關閱讀

相關閱讀

推薦閱讀

在线欧美精品国产综合五月_国产精品免费久久久久影院_国产精品久久久久无码av_a级毛片黄免费a级毛片

      
      

        日av在线不卡| 国产精品欧美一级免费| 亚洲欧美视频在线观看视频| 欧美特级限制片免费在线观看| 精品少妇一区二区三区在线播放| 亚洲欧美一区二区三区国产精品 | 国产精品热久久久久夜色精品三区| 午夜a成v人精品| 99久久综合国产精品| 亚洲一区二区三区四区中文字幕| 日韩精品一区二区三区老鸭窝| 一区二区三区四区视频精品免费 | 亚洲综合丝袜美腿| 成人免费观看视频| 亚洲在线中文字幕| 精品国产91久久久久久久妲己 | 欧美日产在线观看| 亚洲欧美视频在线观看| 夫妻av一区二区| 亚洲一区二区三区影院| 国产亚洲女人久久久久毛片| 奇米888四色在线精品| 国产婷婷色一区二区三区在线| 91传媒视频在线播放| 国产精品美女久久久久久久久久久 | 一区二区三区免费在线观看| 成人一区二区三区在线观看| 亚洲妇女屁股眼交7| 国产欧美一区视频| 国产美女一区二区| 一区二区视频在线| 国产午夜精品福利| 国产九色精品成人porny | 欧美zozozo| 久久精品国产99国产精品| 国产精品高清亚洲| 久久综合中文字幕| 国产一区二区三区精品视频| 亚洲第一搞黄网站| 国产精品久久久久aaaa| 成人性色生活片| 在线观看中文字幕不卡| 樱花草国产18久久久久| 91丨九色丨蝌蚪丨老版| 欧美日韩国产中文| 五月婷婷激情综合| 国产精品国产三级国产普通话蜜臀| 日韩欧美精品在线视频| 久99久精品视频免费观看| 夜夜精品视频一区二区| 国产精品福利一区| 99精品视频中文字幕| 欧美群妇大交群的观看方式| 天堂久久久久va久久久久| 中文字幕欧美区| 久久蜜桃av一区精品变态类天堂| 国产精品一区二区在线看| 日本高清无吗v一区| 亚洲一区二区三区视频在线| 国产精品久久看| 国产亚洲欧美在线| 99在线精品观看| 欧美一区国产二区| 国产麻豆精品在线| 欧美伊人久久久久久午夜久久久久| 亚洲国产aⅴ成人精品无吗| 亚洲欧洲www| 国产精品久久夜| 久久久久国产精品人| 精品三级在线观看| 成人午夜大片免费观看| 555www色欧美视频| 国产真实乱对白精彩久久| 欧洲另类一二三四区| 日韩成人一区二区| 亚洲影院理伦片| 亚洲自拍欧美精品| 亚洲人成精品久久久久久| 中文字幕一区二区三区在线观看 | 亚洲欧美视频一区| 亚洲日本一区二区| 成人免费在线视频观看| 亚洲欧美一区二区三区久本道91 | 日日摸夜夜添夜夜添亚洲女人| 亚洲另类在线一区| 一区二区欧美国产| 一区二区国产视频| 亚洲一区免费在线观看| 亚洲中国最大av网站| 亚洲福利视频一区| 亚洲高清免费观看| 日韩成人一级片| 欧美综合亚洲图片综合区| 麻豆视频观看网址久久| 欧美性三三影院| 国产一区二区影院| 日韩一卡二卡三卡四卡| 成人激情文学综合网| 26uuu亚洲| 久久久一区二区三区| 国产精品久久久久桃色tv| 国产精品久久久久aaaa樱花| 亚洲色图清纯唯美| 亚洲一区二区三区四区不卡| 丝袜亚洲精品中文字幕一区| 在线视频国内自拍亚洲视频| 久久国产福利国产秒拍| 777奇米成人网| 成人动漫一区二区在线| 久久麻豆一区二区| 中文字幕精品三区| 一区二区激情小说| 五月天欧美精品| 激情丁香综合五月| 欧美成人一区二区三区在线观看| 99re这里只有精品视频首页| 中文字幕精品三区| 亚洲女同一区二区| 天堂影院一区二区| 欧美美女一区二区三区| www.激情成人| 国产精品久久久久婷婷二区次| 亚洲欧美区自拍先锋| 日韩成人午夜精品| 91精品国产高清一区二区三区蜜臀| aaa亚洲精品| 亚洲素人一区二区| 亚洲成人免费看| 国产一区999| 国产视频在线观看一区二区三区| 国产精品久久久久久妇女6080| 亚洲第一搞黄网站| 欧美人动与zoxxxx乱| 91社区在线播放| 亚洲伦理在线精品| 色婷婷综合久色| 成人福利视频网站| 亚洲婷婷国产精品电影人久久| 午夜一区二区三区视频| 国产精品18久久久久久久久久久久| 久久伊人中文字幕| 18成人在线视频| 久久99精品一区二区三区| 精品少妇一区二区| 综合av第一页| 精品一区二区三区免费| 2欧美一区二区三区在线观看视频| 中文字幕亚洲在| 久久国产乱子精品免费女| 2023国产精品自拍| 亚洲免费观看在线视频| 精品亚洲国产成人av制服丝袜| 久久五月婷婷丁香社区| 一区二区三区在线免费视频 | 日日摸夜夜添夜夜添精品视频| 欧美一级夜夜爽| 亚洲欧洲色图综合| 久久成人免费日本黄色| 国产肉丝袜一区二区| 亚洲成年人影院| 99久久99精品久久久久久 | 亚洲国产综合91精品麻豆| 国产精品夜夜嗨| 亚洲视频免费在线| 欧美伦理电影网| 国产精品欧美一区喷水| 精品中文字幕一区二区| 国产精品麻豆久久久| 在线免费观看一区| 国产三级一区二区| 美女国产一区二区| 国产精品视频九色porn| 欧美在线观看视频一区二区 | 视频在线在亚洲| 欧美精品一区二区三| 亚洲午夜一区二区| 99精品视频一区| 天天操天天色综合| 久久蜜桃香蕉精品一区二区三区| 香蕉成人啪国产精品视频综合网| 99久久婷婷国产精品综合| 午夜视频一区在线观看| 国产午夜精品福利| 欧美中文字幕一二三区视频| 欧美国产精品一区二区三区| 极品美女销魂一区二区三区免费| 国产精品久线观看视频| 911精品国产一区二区在线| 亚洲婷婷国产精品电影人久久| 国产成人精品免费网站| 一区二区三区成人| 久久久一区二区三区| 在线观看视频91| 日韩一区有码在线| 大美女一区二区三区| 天天操天天综合网| 国产精品另类一区| 日韩三级中文字幕| 色综合色狠狠综合色| 国产精品网站在线|