在线欧美精品国产综合五月_国产精品免费久久久久影院_国产精品久久久久无码av_a级毛片黄免费a级毛片

首頁 > 新聞 > IT資訊 > 正文

GPT-4震撼發布,有哪些變化?

2023-03-15 14:31:59來源:TechWeb  

今天凌晨OpenAI正式推出了NLP大作,GPT-4。目前,ChatGPT的Plus訂閱用戶已經可以使用GPT-4,其他用戶需要排隊申請內測。我們根據GPT-4官方提供的技術文檔,來看看都有哪些變化。


(資料圖片僅供參考)

本文將以OpenAI GPT-4 技術報告為基礎,介紹GPT-4的特征和訓練信息。

GPT-4是一個多模態大型語言模型,即支持圖像和文本輸入,以文本形式輸出;擴寫能力增強,能處理超過25000個單詞的文本;更具創造力,并且能夠處理更細微的指令。

我們從官網上就可以看到,ChatGPT和GPT-4的示范,效果貌似已經顯著拉開了。誰更智能一目了然…

問:

Andrew:上午11點-下午3點有空

Joanne:中午-下午2點有空、下午3點半-下午5點有空

Hannah:中午有半小時的時間,下午4-6點有空

給這仨人安排個30分鐘的會議,有哪些選擇?

答:

ChatGPT:會議可以在下午4點開始

GPT-4:會議可以在中午12點開始

報告指出了GPT-4的發展進度,這是一個大規模、多模態的模型,它可以接受圖像和文本輸入,并產生文本輸出。雖然在許多現實世界的場景中能力不如人類,但在各種專業和學術基準上表現出人類水平的表現。例如,它通過了模擬的律師考試,分數在應試者的前10%左右;相比之下,GPT-3.5的分數則在后10%左右。

GPT-4是一個基于Transformer的模型,經過預先訓練,可以預測文檔中的下一個標記。訓練后的調整過程使對事實的遵守程度得到改善。

這個項目的一個核心部分是開發基礎設施和優化方法,讓這些方法在廣泛的范圍內有可預測的行為。這使我們能夠準確地預測GPT-4在某些方面的性能,其基礎是用不超過GPT-4的1/1000的計算量所訓練的模型。

1.介紹

技術報告介紹了GPT-4,這是一個大型多模態模型,能夠處理圖像和文本輸入并產生文本輸出。這類模型是一個重要的研究領域,因為它們有可能被用于廣泛的應用中,如對話系統、文本總結和機器翻譯。因此,近年來它們一直是人們關注的對象,并取得了很大的進展。近年來,它們一直是人們關注的焦點。

開發此類模型的主要目標之一是提高其理解和生成自然語言文本的能力,特別是在更復雜和細微的情況下。為了測試其在這種情況下的能力,GPT-4在最初為人類設計的各種考試中進行了評估。在這些評估中,它表現得相當好,并且經常超過絕大多數人類應試者的分數。

例如,在模擬律師資格考試中,GPT-4的成績在考生中排名前10%。這與GPT-3.5形成鮮明對比,GPT-3.5的得分排在后10%。

在一套傳統的NLP基準測試中,GPT-4的表現超過了以前的大型語言模型和大多數最先進的系統(這些系統通常有特定的基準訓練或手工工程)。

在MMLU基準測試中,GPT-4不僅在英語考試中以相當大的優勢超過了現有的模型,而且在其他語言方面也表現出了強大的性能。

本報告還討論了該項目的一個關鍵挑戰,即開發深度學習基礎設施和優化方法,這些方法在廣泛的范圍內表現出可預測性。這使我們能夠預測GPT-4的預期性能(基于以類似方式訓練的小型運行)。這使我們能夠對GPT-4的預期性能進行預測(基于類似的訓練方式的小運行),并與最終的運行進行測試,以增加對我們訓練的信心。

盡管有這樣的能力,GPT-4與早期的GPT模型有類似的局限性:它并不完全可靠(例如,可能出現 "幻覺"),有一個有限的上下文窗口,并且沒有習得經驗。在使用GPT-4的輸出時應謹慎行事,特別是在對可靠性要求很高的情況下。

GPT-4的能力和局限性帶來了重大的、新的安全挑戰,我們相信鑒于其潛在的社會影響,仔細研究這些挑戰是一個重要的研究領域。本報告包括一個廣泛的系統卡,描述了我們所預見的一些風險。圍繞偏見、虛假信息、過度依賴、隱私、網絡安全、擴散等方面預見了一些風險。它還描述了我們為減輕部署GPT-4的潛在危害所采取的干預措施。包括聘請領域專家進行對抗性測試,以及一個模型輔助的安全管道。

2.技術報告的范圍和局限性

本報告的重點是GPT-4的能力、局限和安全性能。GPT-4是一個基于Transformer的模型,它預先進行了訓練,以預測文檔中的下一個標記,使用公開的數據(如互聯網數據)和第三方供應商授權的數據。

該模型然后使用來自人類反饋的強化學習(RLHF)對模型進行微調。鑒于GPT-4這樣大規模模型的競爭狀況和安全影響,報告中不包含有關架構(包括模型大小)、硬件、訓練計算、數據集構建、訓練方法或類似內容的進一步細節。

OpenAI致力于對技術進行獨立審計,并分享了一些這方面的初步措施和想法。并計劃向更多的第三方提供進一步的技術細節,他們可以就如何權衡上述競爭和安全考慮與科學價值的關系提供建議。

3.可預測的擴展

GPT-4項目的一大重點是建立一個可預測擴展的深度學習棧。主要原因是,對于像GPT-4這樣的大型訓練運行,要做大量針對模型的調整是不可行的。

為了解決這個問題,我們開發了基礎設施和優化方法,在多個尺度上有非常可預測的行為。這些改進使我們能夠可靠地從使用1,000倍-10,000倍計算量訓練的較小模型中預測GPT-4的某些方面的性能。

3.1 損失預測

正確訓練的大型語言模型的最終損失被認為可以通過訓練模型所用的計算量的冪律來很好地接近訓練模型所使用的計算量的規律。

為了驗證OpenAI的優化基礎設施的可擴展性,OpenAI預測了GPT-4的最終損失,在OpenAI的內部代碼庫(不是訓練集的一部分)上預測GPT-4的最終損失,方法是通過擬合一個帶有不可減少的損失項的比例法則(如Henighan等人的做法):L(C) = aCb + c, 來自使用相同方法訓練的模型,但使用的計算量比GPT-4最多少10,000倍。

這一預測是在運行開始后不久做出的,沒有使用任何部分結果。擬合的比例法高度準確地預測了GPT-4的最終損失。

3.2 在HumanEval上擴展能力

在訓練前對模型的能力有一個認識,可以改善有關調整的決策、安全和部署。

除了預測最終損失外,我們還開發了方法來預測能力的更多可解釋性指標,其中一個指標是HumanEval數據集的通過率。

OpenAI成功地預測了HumanEval數據集的一個子集上的通過率,其方法是從訓練的模型中推斷出來的訓練出來的模型進行推斷,其計算量最多減少1,000倍。

對于HumanEval中的單個問題,性能可能偶爾會隨著規模的擴大而變差。盡管有這些挑戰,我們發現一個近似的冪律關系--EP [log(pass_rate(C))] = α?C-k。

相信準確預測未來的能力對安全很重要。展望未來,OpenAI計劃在大型模型訓練開始之前,完善這些方法并記錄各種能力的性能預估。并且,OpenAI希望這成為該領域的一個共同目標。

4、能力

這簡直就是個考試小能手

GPT-4典型的成績包括:

SAT(美國高考): 1410/1600(前 6%)。

美國統一律師資格考試(MBE+MEE+MPT):298/400(前 10%)。

AP(美國大學預科考試):生物學、微積分、宏觀經濟學、心理學、統計學和歷史的大學預修高中考試:100% (5/5)。

OpenAI在一系列不同的基準上對GPT-4進行了測試,包括模擬最初為人類設計的考試。考試題目包括多項選擇題和自由回答題,綜合分數由多項選擇題和自由回答題的分數結合決定,GPT-4在大多數專業和學術考試中都有與人類水平相當的表現。值得注意的是,它通過了統一律師考試的模擬版本,分數在應試者中排名前10%。

就測試的結果來看,GPT-4模型在考試中的能力似乎主要來自于預訓練過程,并沒有受到RLHF的明顯影響。在多選題上,基礎的GPT-4模型和RLHF模型的表現相當。

OpenAI還在傳統的基準上評估了預先訓練好的基礎GPT-4模型,這些基準是為評估語言模型而設計的。

就在考試測試中的表現來看,GPT-4的性能大大超過了現有的語言模型,以及此前最先進的系統,這些系統通常有針對的基準或額外的訓練協議。

針對現有的許多機器學習基準測試都是用英語編寫的,很難體現在其他語言中的表現,為了初步了解GPT-4在其他語言中的功能,他們也將一套涵蓋57個主題的多項選擇題的基準測試,采用相關的應用程序轉換成了其他語言,并進行了測試,最終結果顯示GPT-4的表現要優于GPT 3.5和現有語言模型對測試的大多數語言的語言性能,包括低資源語言。

能看懂一些圖的笑點了

GPT-4在理解用戶意圖的能力方面較此前的模型有明顯改善。

GPT-4可以說已經能看懂一些圖梗了,不再僅僅是對話助手。當然離大家期待的看懂視頻還有一段距離。現在能看懂圖片的笑點,比如這張…

左一:一臺iPhone插上了帶有VGA的連接器

右一:“Lightning Cable”適配器的包裝,上面有VGA連接器的圖

右二:VGA連接器的特寫,上面有VGA連接器的圖片,但可以看到,頭是個Lightning的…

笑點在于將VGA端口插在iPhone上的荒謬…很冷吧…搞機圈博主們的壓力大不大…

4.1 視覺輸入

對GPT-4而言,訓練后的對齊(Alignment)是提高性能和改善體驗的關鍵。從技術上看,人類反饋強化學習(RLHF)微調仍然是GPT-4的要點。考慮到LLM領域的競爭格局和 GPT-4 等大型模型的安全隱患,OpenAI暫時還未公布GPT-4的模型架構、模型大小、訓練技術。

這張圖片:GPT-4認為,不同尋常的地方在于,一名男子正在行駛中的出租車車頂上的熨衣板熨衣服…

再比如這個,這到底是雞塊?還是地圖?還是用雞塊拼成的世界地圖?

GPT-4接受由圖像和文本組成的提示,這與純文本設置平行,讓用戶指定任何視覺或語言任務。具體來說,該模型生成的文本輸出給出由任意交錯的文本和圖像組成的輸入。在一系列領域中,包括帶有文字和照片的文件、圖表或屏幕截圖,GPT-4表現出與純文本輸入類似的能力。

為語言模型開發的標準測試時間技術(如少量提示、思維鏈等),使用圖像和文本時也同樣有效。

在一組狹窄的學術視覺基準上的初步結果可以在GPT-4博客中找到,計劃在后續工作中發布更多關于GPT-4的視覺能力的信息。

5、局限性

盡管GPT-4功能強大,但它與早期GPT模型一樣,有相似的局限性。最重要的是,它仍然不完全可靠(它會“幻覺”事實并犯推理錯誤),應非常小心。

在使用語言模型輸出時,特別是在高風險的上下文中,使用準確的協議(例如人工審查,附加上下文,或完全避免高風險使用滿足特定應用的需求。

GPT-4在TruthfulQA等公共基準上取得了進展,該基準測試模型的測試能將事實從一組不正確的陳述中分離出來,與統計上有吸引力的事實錯誤的答案相匹配。GPT-4基本型號為在這項任務上只比GPT-3.5略勝一籌。然而,在RLHF訓練后,較GPT-3.5有很大的改進,GPT-4抗拒選擇一些常見的諺語,但仍然會錯過一些微妙的細節。

GPT-4有時會使簡單的推理出現錯誤,似乎不符合在這么多領域的能力,或者輕信用戶明顯的虛假陳述。它可能像人類一樣在困難的問題上失敗,例如在產生的代碼中引入安全漏洞。

GPT-4也可能在其預測中輕易的犯錯,在可能犯錯的時候不注意反復檢查。雖然預訓練的模型是高度校準的,但在后期的訓練過程中,校準度降低了。

GPT-4在其輸出中存在各種偏差,OpenAI已經在努力糾正,但這需要一定的時間,他們的目標是使GPT-4同我們建立的其他系統一樣,有合理的默認行為,以反映廣大用戶的價值觀,允許這些系統在一些廣泛的范圍內進行定制,并獲得公眾對這些范圍的意見。

6.風險和緩解措施

GPT-4具有與小型語言模型類似的風險,例如,產生有害的建議、有缺陷的代碼或不準確的信息。

聘請領域專家進行對抗性測試:為了了解這些風險的程度,OpenAI聘請了來自長期人工智能(AI)校準風險、網絡安全、生物風險和國際安全領域的50多位專家對該模型進行對抗性測試。從這些專家那里收集的建議和培訓數據為OpenAI制定緩解措施和對該模型進行改進提供了參考。

模型輔助的安全管道:與之前的GPT模型一樣,OpenAI利用來自人類反饋的強化學習(RLHF)對該模型的行為進行微調,以產生更符合用戶意圖的回復。在RLHF之后,該模型在不安全的輸入上仍然是脆弱的,并且有時在安全輸入和不安全輸入上都表現出不受歡迎的行為。此外,該模型在安全輸入方面也可能變得過于謹慎。

安全指標的改進:OpenAI的緩解措施已經大大改善了GPT-4的許多安全性能。與GPT-3.5相比,該公司將GPT-4對不允許內容請求做出響應的傾向降低了82%,而GPT-4根據OpenAI的政策對敏感請求的響應頻率提高了29%。

OpenAI正在與外部研究人員合作,以改善其理解和評估潛在影響的方式,以及建立對未來系統中可能出現的危險能力的評估。該公司將很快發布關于社會可以采取的步驟的建議,以準備應對人工智能的影響。該公司將很快公布關于社會為應對人工智能影響可以采取的措施的建議,以及預測人工智能可能產生的經濟影響的初步想法。

7.總結

GPT-4是一個在某些困難的專業和學術基準上具有人類水平表現的大型多模態模型。它在一系列NLP任務上的表現優于現有的大型語言模型,并且超過了絕大多數已報道的最先進的系統(這些系統通常包括針對特定任務的微調)。

GPT-4由于性能的提高而帶來了新的風險,我們討論了一些方法和結果,以了解和提高其安全性和一致性。雖然還有很多工作要做,但GPT-4代表著朝著廣泛有用和安全部署的人工智能系統邁出了重要一步。

關鍵詞:

責任編輯:hnmd003

相關閱讀

相關閱讀

推薦閱讀

在线欧美精品国产综合五月_国产精品免费久久久久影院_国产精品久久久久无码av_a级毛片黄免费a级毛片

      
      

        亚洲精品视频免费看| 欧美日韩一区不卡| 日韩免费视频线观看| 亚洲三级在线看| 国产精品99久久久久久有的能看| 国产欧美精品一区aⅴ影院 | 成人免费一区二区三区视频| 欧美色网站导航| 中文字幕一区二区三区在线不卡| 奇米色777欧美一区二区| 久久久久综合网| 一本久久精品一区二区| 欧美国产欧美综合| 精品一区二区三区在线播放| 国产精品女主播av| 制服丝袜日韩国产| 樱花影视一区二区| 成人动漫中文字幕| 亚洲国产日日夜夜| 国产日韩v精品一区二区| 蜜桃精品视频在线观看| 国产精品美女久久久久久久 | 国内久久婷婷综合| 亚洲欧美视频在线观看视频| 日韩一区二区三区视频在线 | 成人性生交大片免费看在线播放 | 久久av资源站| 中文字幕制服丝袜成人av| 欧美一级在线免费| 天涯成人国产亚洲精品一区av| 久久伊99综合婷婷久久伊| 日本韩国一区二区三区视频| 中文字幕人成不卡一区| 国产不卡在线视频| 午夜电影一区二区三区| 国产精品久久久久久久浪潮网站| 国产成a人亚洲| 午夜视频在线观看一区二区三区| 国产精品网友自拍| 丰满少妇久久久久久久| 91国产精品成人| 亚洲精品乱码久久久久久日本蜜臀| 91一区一区三区| 欧美麻豆精品久久久久久| 亚洲va在线va天堂| 国产精品美女www爽爽爽| 精品国产一二三区| 狠狠色丁香婷综合久久| 亚洲一卡二卡三卡四卡五卡| 国产精品久久久久毛片软件| 成人激情黄色小说| 欧美色精品天天在线观看视频| 亚洲高清一区二区三区| 国产精品久久久久一区 | 五月激情综合色| 中文字幕在线观看不卡| 久久精品人人做人人爽人人| 国产91在线观看| 欧洲视频一区二区| 偷拍亚洲欧洲综合| 亚洲美女视频一区| 中文字幕五月欧美| 久久久不卡网国产精品二区| 国产**成人网毛片九色| 欧美三级电影在线看| 亚洲一区二区视频在线观看| 欧美国产综合一区二区| 久久精品一区二区三区四区| 大白屁股一区二区视频| 欧美丰满一区二区免费视频| 乱中年女人伦av一区二区| 亚洲不卡在线观看| 亚洲国产一二三| 亚洲欧美福利一区二区| 日韩毛片视频在线看| 国产欧美一区二区精品忘忧草 | 欧美国产日本韩| 国产亲近乱来精品视频 | 精品国内二区三区| 成人一区在线看| 欧美一区二区视频在线观看2022 | 欧美日韩国产一区| 另类小说视频一区二区| 色综合天天综合| 全部av―极品视觉盛宴亚洲| 婷婷夜色潮精品综合在线| 性做久久久久久免费观看| 亚洲一区二区视频在线| 亚洲午夜免费福利视频| 亚洲国产视频一区二区| 亚洲成人av中文| 亚洲成人福利片| 日韩专区在线视频| 色视频欧美一区二区三区| 日本在线不卡视频一二三区| 色哟哟日韩精品| 久久99精品国产麻豆不卡| 在线视频一区二区免费| 久久精品99久久久| 欧美理论电影在线| 风间由美一区二区三区在线观看| 欧美一级欧美三级在线观看| kk眼镜猥琐国模调教系列一区二区 | 国产拍欧美日韩视频二区| 国产三级欧美三级日产三级99| 国产欧美精品一区二区三区四区| 久久久综合精品| 国产精品久久久久影院亚瑟| 国产亚洲精久久久久久| 中文字幕亚洲一区二区av在线| 国产精品久久毛片| 中文字幕一区二区三区在线不卡| 国产精品免费视频网站| 亚洲人被黑人高潮完整版| 亚洲人成精品久久久久久| 亚洲一区二区五区| 91久久精品网| 国产乱妇无码大片在线观看| 日韩午夜在线影院| 久久免费看少妇高潮| 亚洲视频一区在线观看| 亚洲综合精品久久| 午夜精品福利视频网站| 精品视频一区 二区 三区| 岛国一区二区三区| 国产亚洲精品超碰| 中文字幕av资源一区| 亚洲一本大道在线| 国产伦精一区二区三区| 欧美精品一区二区三区蜜臀| 国产视频一区在线观看| 亚洲欧美怡红院| 亚洲网友自拍偷拍| 久久国产精品无码网站| 日韩一区二区三区电影| 2020国产精品| 一区二区三区中文在线| 色老汉一区二区三区| 粉嫩蜜臀av国产精品网站| 国产偷国产偷亚洲高清人白洁| 欧美高清在线一区二区| 亚洲综合一二区| 精品视频123区在线观看| av成人老司机| 亚洲欧美日韩成人高清在线一区| 午夜视频久久久久久| 国产suv精品一区二区6| 中文字幕不卡在线| 亚洲国产一二三| 国产一区二区精品久久99| 久久精品欧美日韩| 亚洲欧美日韩一区二区| 九九**精品视频免费播放| 337p日本欧洲亚洲大胆精品| 亚洲色图丝袜美腿| 狠狠色丁香婷婷综合| 欧美国产精品专区| 午夜精品爽啪视频| 成人毛片视频在线观看| 亚洲色图在线播放| 精品视频1区2区| av成人免费在线观看| 国产精品久99| 欧美性极品少妇| 国产亚洲精品超碰| 免费成人av在线播放| 久久久久久毛片| 色综合网站在线| 91浏览器打开| 婷婷丁香激情综合| 久久新电视剧免费观看| 亚洲福利视频三区| 91色视频在线| 男女视频一区二区| 中文字幕av一区二区三区高| 色综合一个色综合| 久久久久久久久久久久久夜| 日产国产欧美视频一区精品| 久久久国产精品不卡| 色综合久久久久| 91视频在线观看| 美女视频一区二区| 日本一二三四高清不卡| 欧美亚洲动漫制服丝袜| 久久精品综合网| 蜜桃视频一区二区三区在线观看| 中文字幕欧美激情| 欧美伊人精品成人久久综合97 | 韩国v欧美v日本v亚洲v| 最新国产精品久久精品| 欧美一卡2卡三卡4卡5免费| 亚洲精品国产视频| av爱爱亚洲一区| 免费在线看成人av| 国产精品国产自产拍高清av王其| 欧美日韩美少妇| 亚洲黄色小视频| 久久久www成人免费毛片麻豆| 久草在线在线精品观看| 亚洲精品高清在线|