在线欧美精品国产综合五月_国产精品免费久久久久影院_国产精品久久久久无码av_a级毛片黄免费a级毛片

首頁 > 新聞 > 智能 > 正文

此「錯」并非真的錯:從四篇經典論文入手,理解 Transformer 架構圖「錯」在何處 環球時訊

2023-06-13 14:22:38來源:ZAKER科技  

選自 Ahead of AI

作者:Sebastian Raschka


(資料圖片)

機器之心編譯

編輯:馬梓文

從四篇論文入手,Sebastian 再談 Transformer 架構圖。

前段時間,一條指出谷歌大腦團隊論文《Attention Is All You Need》中 Transformer 構架圖與代碼不一致的推文引發了大量的討論。

對于 Sebastian 的這一發現,有人認為屬于無心之過,但同時也會令人感到奇怪。畢竟,考慮到 Transformer 論文的流行程度,這個不一致問題早就應該被提及 1000 次。

Sebastian Raschka 在回答網友評論時說,「最最原始」的代碼確實與架構圖一致,但 2017 年提交的代碼版本進行了修改,但同時沒有更新架構圖。這也是造成「不一致」討論的根本原因。

隨后,Sebastian 在 Ahead of AI 發布文章專門講述了為什么最初的 Transformer 構架圖與代碼不一致,并引用了多篇論文簡要說明了 Transformer 的發展變化。

以下為文章原文,讓我們一起看看文章到底講述了什么:

幾個月前,我分享了《Understanding Large Language Models: A Cross-Section of the Most Relevant Literature To Get Up to Speed》,積極的反饋非常鼓舞人心!因此,我添加了一些論文,以保持列表的新鮮感和相關性。

同時,保持列表簡明扼要是至關重要的,這樣大家就可以用合理的時間就跟上進度。還有一些論文,信息量很大,想來也應該包括在內。

我想分享四篇有用的論文,從歷史的角度來理解 Transformer。雖然我只是直接將它們添加到理解大型語言模型的文章中,但我也在這篇文章中單獨來分享它們,以便那些之前已經閱讀過理解大型語言模型的人更容易找到它們。

On Layer Normalization in the Transformer Architecture ( 2020 )

雖然下圖(左)的 Transformer 原始圖(https://arxiv.org/abs/1706.03762)是對原始編碼器 - 解碼器架構的有用總結,但該圖有一個小小的差異。例如,它在殘差塊之間進行了層歸一化,這與原始 Transformer 論文附帶的官方 ( 更新后的) 代碼實現不匹配。下圖(中)所示的變體被稱為 Post-LN Transformer。

Transformer 架構論文中的層歸一化表明,Pre-LN 工作得更好,可以解決梯度問題,如下所示。許多體系架構在實踐中采用了這種方法,但它可能導致表征的崩潰。

因此,雖然仍然有關于使用 Post-LN 或前 Pre-LN 的討論,也有一篇新論文提出了將兩個一起應用:《 ResiDual: Transformer with Dual Residual Connections》(https://arxiv.org/abs/2304.14802),但它在實踐中是否有用還有待觀察。

圖注:圖源 https://arxiv.org/abs/1706.03762 ( 左 & 中 ) and https://arxiv.org/abs/2002.04745 ( 右)

Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Neural Networks ( 1991 )

這篇文章推薦給那些對歷史花絮和早期方法感興趣的人,這些方法基本上類似于現代 Transformer。

例如,在比 Transformer 論文早 25 年的 1991 年,Juergen Schmidhuber 提出了一種遞歸神經網絡的替代方案(https://www.semanticscholar.org/paper/Learning-to-Control-Fast-Weight-Memories%3A-An-to-Schmidhuber/bc22e87a26d020215afe91c751e5bdaddd8e4922),稱為 Fast Weight Programmers ( FWP ) 。FWP 方法涉及一個前饋神經網絡,它通過梯度下降緩慢學習,來編程另一個神經網絡的快速權值的變化。

這篇博客 ( https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2 ) 將其與現代 Transformer 進行類比,如下所示 :

在今天的 Transformer 術語中,FROM 和 TO 分別稱為鍵 ( key ) 和值 ( value ) 。應用快速網絡的輸入稱為查詢。本質上,查詢由快速權重矩陣 ( fast weight matrix ) 處理,它是鍵和值的外積之和 ( 忽略歸一化和投影 ) 。由于兩個網絡的所有操作都是可微的,我們通過加法外積或二階張量積獲得了端到端可微主動控制的權值快速變化。因此,慢速網絡可以通過梯度下降學習,在序列處理期間快速修改快速網絡。這在數學上等同于 ( 除了歸一化之外 ) 后來被稱為具有線性化自注意的 Transformer ( 或線性 Transformer ) 。

正如上文摘錄所提到的,這種方法現在被稱為線性 Transformer 或具有線性化自注意的 Transformer。它們來自于 2020 年出現在 arXiv 上的論文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 》(https://arxiv.org/abs/2006.16236)以及《Rethinking Attention with Performers》(https://arxiv.org/abs/2009.14794)。

2021 年,論文《Linear Transformers Are Secretly Fast Weight Programmers》(https://arxiv.org/abs/2102.11174)明確表明了線性化自注意力和 20 世紀 90 年代的快速權重編程器之間的等價性。

圖源:https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2

Universal Language Model Fine-tuning for Text Classification ( 2018 )

這是另一篇從歷史角度來看非常有趣的論文。它是在原版《Attention Is All You Need》發布一年后寫的,并沒有涉及 transformer,而是專注于循環神經網絡,但它仍然值得關注。因為它有效地提出了預訓練語言模型和遷移學習的下游任務。雖然遷移學習已經在計算機視覺中確立,但在自然語言處理 ( NLP ) 領域還沒有普及。ULMFit(https://arxiv.org/abs/1801.06146)是首批表明預訓練語言模型在特定任務上對其進行微調后,可以在許多 NLP 任務中產生 SOTA 結果的論文之一。

ULMFit 建議的語言模型微調過程分為三個階段 :

1. 在大量的文本語料庫上訓練語言模型;

2. 根據任務特定的數據對預訓練的語言模型進行微調,使其能夠適應文本的特定風格和詞匯;

3. 微調特定任務數據上的分類器,通過逐步解凍各層來避免災難性遺忘。

在大型語料庫上訓練語言模型,然后在下游任務上對其進行微調的這種方法,是基于 Transformer 的模型和基礎模型 ( 如 BERT、GPT-2/3/4、RoBERTa 等 ) 使用的核心方法。

然而,作為 ULMFiT 的關鍵部分,逐步解凍通常在實踐中不進行,因為 Transformer 架構通常一次性對所有層進行微調。

Gopher 是一篇特別好的論文(https://arxiv.org/abs/2112.11446),包括大量的分析來理解 LLM 訓練。研究人員在 3000 億個 token 上訓練了一個 80 層的 2800 億參數模型。其中包括一些有趣的架構修改,比如使用 RMSNorm ( 均方根歸一化 ) 而不是 LayerNorm ( 層歸一化 ) 。LayerNorm 和 RMSNorm 都優于 BatchNorm,因為它們不局限于批處理大小,也不需要同步,這在批大小較小的分布式設置中是一個優勢。RMSNorm 通常被認為在更深的體系架構中會穩定訓練。

除了上面這些有趣的花絮之外,本文的主要重點是分析不同規模下的任務性能分析。對 152 個不同任務的評估顯示,增加模型大小對理解、事實核查和識別有毒語言等任務最有利,而架構擴展對與邏輯和數學推理相關的任務從益處不大。

圖注:圖源 https://arxiv.org/abs/2112.11446

原文鏈接:https://magazine.sebastianraschka.com/p/why-the-original-transformer-figure

THE END

轉載請聯系本公眾號獲得授權

投稿或尋求報道:content@jiqizhixin.com

關鍵詞:

責任編輯:hnmd003

相關閱讀

相關閱讀

推薦閱讀

在线欧美精品国产综合五月_国产精品免费久久久久影院_国产精品久久久久无码av_a级毛片黄免费a级毛片

      
      

        国产欧美精品国产国产专区| 日韩一区中文字幕| 亚洲蜜桃精久久久久久久| 日本不卡一区二区| 99热精品国产| 亚洲伊人伊色伊影伊综合网| 国产欧美精品一区二区色综合 | 一区二区三区四区不卡视频| 欧美色图免费看| 国产欧美精品在线观看| 调教+趴+乳夹+国产+精品| 日本欧美韩国一区三区| 91亚洲国产成人精品一区二三| 成人免费一区二区三区在线观看 | 日韩小视频在线观看专区| 中文字幕一区二区三区四区不卡 | 欧美日本一区二区三区四区| 欧美大胆人体bbbb| 亚洲福利视频一区| 成人app网站| 亚洲免费av观看| 欧美肥妇free| 亚洲色图制服诱惑| 国产精品亚洲一区二区三区妖精 | 99久久精品免费观看| 亚洲综合一二区| 51精品国自产在线| 亚洲三级视频在线观看| 国产大陆a不卡| 亚洲国产日韩a在线播放性色| 色综合久久久久综合体| 国产日韩精品久久久| 蜜桃视频在线观看一区| 国产欧美久久久精品影院 | 精久久久久久久久久久| 成人激情视频网站| 亚洲一区在线观看视频| 久久新电视剧免费观看| 日韩成人一区二区三区在线观看| 91在线视频官网| 欧美最新大片在线看| 日本一区二区三区国色天香 | 99久久99久久精品免费看蜜桃| www.成人在线| 亚洲激情第一区| 国产午夜久久久久| 国产一区二区免费视频| 亚洲欧美色一区| 国产日韩欧美精品电影三级在线| 美女一区二区久久| 自拍偷自拍亚洲精品播放| 精品国产一区二区三区不卡| 亚洲猫色日本管| 粉嫩av一区二区三区在线播放| 欧美日韩高清一区| 中文字幕永久在线不卡| 99久久综合狠狠综合久久| 亚洲视频免费在线| 久久婷婷综合激情| 国产精品99久久久久久宅男| 午夜精品123| 亚洲精品精品亚洲| 国产午夜亚洲精品理论片色戒| 欧美一区二区视频免费观看| 免费在线观看精品| 亚洲自拍偷拍图区| 亚洲日本va午夜在线影院| 久久嫩草精品久久久精品一| 欧美一区二区日韩一区二区| 麻豆精品国产91久久久久久| 亚洲尤物视频在线| 亚洲精品国产成人久久av盗摄 | 91丨porny丨户外露出| 五月天网站亚洲| 亚洲欧洲三级电影| 国产亚洲精品福利| 在线不卡一区二区| 热久久一区二区| 亚洲精品乱码久久久久久黑人| 国产精品成人免费精品自在线观看 | 亚洲免费在线视频一区 二区| 99精品欧美一区| 欧美日韩激情一区| 精品影视av免费| 在线免费不卡视频| 免费久久精品视频| 色婷婷久久久综合中文字幕 | 婷婷一区二区三区| 日韩在线a电影| 亚洲伊人伊色伊影伊综合网| 亚洲视频一区二区在线| 国产超碰在线一区| 99久久国产综合精品女不卡| 欧美不卡视频一区| 夜夜精品浪潮av一区二区三区| 日韩电影在线一区二区三区| 亚洲国产成人午夜在线一区| 欧美日韩一区二区三区四区五区 | 中文字幕第一区二区| 欧美精品视频www在线观看| 亚洲国产精品一区二区www在线| 久久av老司机精品网站导航| 亚洲欧美一区二区三区久本道91| 欧美一级高清大全免费观看| 蜜臀av性久久久久蜜臀av麻豆| 久久一区二区视频| 欧美午夜在线一二页| 国产精品国产精品国产专区不片| 国产一区二区三区最好精华液| 99久久99久久精品免费看蜜桃| 在线不卡a资源高清| 亚洲欧洲日本在线| 国产麻豆视频一区二区| 欧美私人免费视频| 亚洲国产另类精品专区| 国产人成一区二区三区影院| 精品免费视频.| 国产乱国产乱300精品| 午夜亚洲福利老司机| 亚洲欧洲av色图| 亚洲国产精品高清| 欧美一级二级在线观看| 国产激情视频一区二区三区欧美 | 男男视频亚洲欧美| 国产91露脸合集magnet| 欧美性猛交xxxx乱大交退制版| 五月婷婷色综合| 亚洲美女区一区| 日韩欧美中文字幕公布| 国产专区欧美精品| 亚洲久草在线视频| 久久久久久亚洲综合| 国产精品亚洲一区二区三区妖精 | 成人成人成人在线视频| 欧美老年两性高潮| 国产裸体歌舞团一区二区| 欧美午夜一区二区三区免费大片| 久久精品国产色蜜蜜麻豆| 91黄色免费网站| 日韩1区2区3区| 亚洲品质自拍视频| 亚洲色图欧美在线| 亚洲欧洲成人av每日更新| 国产欧美日韩在线视频| 久久精品夜夜夜夜久久| 国产午夜精品久久久久久久| 九色综合狠狠综合久久| 一本一道综合狠狠老| 亚洲精品乱码久久久久久久久| 国产精品免费看片| 在线观看日韩电影| 久国产精品韩国三级视频| 欧美猛男男办公室激情| 午夜久久久久久电影| 舔着乳尖日韩一区| 亚洲精品伦理在线| 一区二区三区美女| 一区二区久久久| 91免费看`日韩一区二区| 亚洲品质自拍视频网站| 亚洲无线码一区二区三区| 亚洲综合色自拍一区| 久久一区二区三区四区| 精品国产免费一区二区三区四区| 777亚洲妇女| 成人免费黄色在线| 欧美一区二区三区在线观看| 蜜桃一区二区三区在线| 色综合久久久久综合体桃花网| 亚洲乱码国产乱码精品精98午夜| av成人免费在线观看| 偷拍与自拍一区| 日韩电影在线一区二区| 亚洲成av人综合在线观看| 国产一区在线看| 中文字幕一区视频| 精彩视频一区二区| 在线播放国产精品二区一二区四区| 国产精品久久久久一区| 亚洲欧美一区二区三区国产精品| 亚洲免费观看高清完整版在线观看 | 亚洲男人的天堂一区二区| 欧美国产视频在线| 国产精品福利一区二区三区| 椎名由奈av一区二区三区| 亚洲美女在线国产| 视频一区二区不卡| 欧美一区二区三区四区视频| 免播放器亚洲一区| 成人免费一区二区三区视频 | 久久精品一二三| 亚洲黄色免费电影| 亚洲色图在线看| 久久99精品国产麻豆婷婷洗澡| 色婷婷av一区二区三区软件| 高清国产一区二区三区| 中文文精品字幕一区二区| 亚洲精选在线视频| 久久精品国产99国产精品| 日本大香伊一区二区三区|