在线欧美精品国产综合五月_国产精品免费久久久久影院_国产精品久久久久无码av_a级毛片黄免费a级毛片

首頁 > 新聞 > 智能 > 正文

基于 Transformer 的大模型是如何運行的?Meta 從全局和上下文學(xué)習(xí)揭秘|世界看熱訊

2023-06-22 14:23:08來源:ZAKER科技  

機(jī)器之心報道

編輯:馬梓文

本文旨在更好地理解基于 Transformer 的大型語言模型(LLM)的內(nèi)部機(jī)制,以提高它們的可靠性和可解釋性。


(相關(guān)資料圖)

隨著大型語言模型(LLM)在使用和部署方面的不斷增加,打開黑箱并了解它們的內(nèi)部工作原理變得越來越重要。更好地理解這些模型是如何做出決策的,這對改進(jìn)模型和減輕其故障(如幻覺或推理錯誤)至關(guān)重要。

眾所周知,最近 LLM 成功的一個重要因素是它們能夠從上下文中學(xué)習(xí)和推理。LLM 對這些上下文的學(xué)習(xí)能力通常歸功于 Transformer 架構(gòu),特別是自注意力塊的使用,其能夠仔細(xì)選擇輸入序列,進(jìn)而推理出可信的下一個 token。此外,預(yù)測可能需要全局知識,如語法規(guī)則或一般事實,這些可能不會出現(xiàn)在上下文中,需要存儲在模型中。

我們不禁會疑問,為什么基于 Transformer 的模型非常擅長使用它們的上下文來預(yù)測新的 token,這種能力是如何在訓(xùn)練中產(chǎn)生的?帶著這些問題,來自 Meta AI 的研究者進(jìn)行了深入的研究。他們通過研究合成設(shè)置下 Transformer 的學(xué)習(xí)機(jī)制,揭示了其全局和上下文學(xué)習(xí)的平衡,并將權(quán)重矩陣解釋為聯(lián)想記憶,為理解和優(yōu)化 Transformer 提供了基礎(chǔ)。

論文地址:https://arxiv.org/pdf/2306.00802.pdf

首先要了解的是在訓(xùn)練過程中 Transformer 是如何發(fā)現(xiàn)這些能力的。為此,該研究引入了一個合成數(shù)據(jù)集,該數(shù)據(jù)集由二元語言模型生成的序列組成。然后,模型需要依靠上下文學(xué)習(xí)來對特定的二元序列進(jìn)行良好的預(yù)測,而全局二元可以根據(jù)當(dāng)前 token 的全局統(tǒng)計數(shù)據(jù)進(jìn)行猜測。雖然單層的 Transformer 無法可靠地預(yù)測上下文二元,但該研究發(fā)現(xiàn)通過開發(fā)感應(yīng)頭(induction head)機(jī)制的雙層 Transformer 取得了成功,即擁有兩個注意力頭的 circuit,其允許 Transformer 從上下文 [ , a, b,, a ] 中預(yù)測 b,并且在 Transformer 語言模型中似乎無處不在。這種感應(yīng)頭(induction head)機(jī)制在 Transformer 語言模型中是普遍存在的,并且取得了成功。

更進(jìn)一步的,為了更好的了解上下文機(jī)制是怎樣出現(xiàn)在訓(xùn)練過程中的,該研究在隨機(jī)初始化時凍結(jié)了一些層(包括嵌入和值矩陣)來進(jìn)一步簡化模型架構(gòu)。這樣一來研究重點轉(zhuǎn)移到注意力和前饋機(jī)制,同時避免了學(xué)習(xí)表征的困難。與此同時,這種簡化還為單個權(quán)重矩陣引入了一個自然模型作為聯(lián)想記憶。自然模型可以通過它們的外積存儲輸入 - 輸出或鍵 - 值對嵌入。隨機(jī)高維嵌入由于其接近正交性而特別適合這種觀點。

總結(jié)而言,該研究的貢獻(xiàn)可概括為:

本文引入了一種新的合成設(shè)置來研究全局和上下文學(xué)習(xí):序列遵循二元語言模型,其中一些二元在序列中變化,而另一些不會。

本文將 Transformer 的權(quán)重矩陣視為學(xué)習(xí)存儲特定嵌入對的聯(lián)想記憶,并以此為任務(wù)推導(dǎo)出一個簡化但更可解釋的模型。

本文對訓(xùn)練動態(tài)進(jìn)行了細(xì)致的實證研究:首先學(xué)習(xí)全局二元,然后以自上而下的方式學(xué)習(xí)適當(dāng)?shù)挠洃洠纬筛袘?yīng)頭。

本文給出了訓(xùn)練動力學(xué)的理論見解,展示了如何通過在噪聲輸入中找到信號,在種群損失上進(jìn)行一些自上而下的梯度步驟來恢復(fù)所需的聯(lián)想記憶。

方法介紹

接著該研究介紹了合成數(shù)據(jù)設(shè)置,這樣能夠仔細(xì)研究感應(yīng)頭機(jī)制在訓(xùn)練過程中的發(fā)展以及 Transformer 如何學(xué)習(xí)利用上下文信息的。

雙元數(shù)據(jù)模型:模型序列由一個通用的雙元語言模型(即馬爾可夫鏈)組成,每個序列的生成方式如下:

下圖 2 可視化了測試序列上的注意力圖,這表明該模型已經(jīng)學(xué)習(xí)了感應(yīng)頭機(jī)制。接著該研究介紹了 Transformer 聯(lián)想記憶觀點:因為幾乎正交的嵌入,權(quán)重矩陣表現(xiàn)為聯(lián)想記憶,將成對的嵌入存儲為其外積的加權(quán)和。研究引入了一個具有固定隨機(jī)嵌入的簡化 Transformer 模型,將用這種想法產(chǎn)生對學(xué)習(xí)動力學(xué)的精確理解。

此外,該研究提出了一個有用的觀點,將 Transformer 中的模型權(quán)重視為高維嵌入向量的聯(lián)想記憶。感應(yīng)頭機(jī)制可以通過以下外積矩陣作為記憶來獲得,而其他所有權(quán)重則固定為隨機(jī)初始化狀態(tài):

實驗

圖 3 研究了在迭代 300 次之前凍結(jié)不同層對訓(xùn)練動態(tài)的影響。

全局 vs 上下文學(xué)習(xí)。從圖 4(左 / 右)可以看出,當(dāng)聯(lián)合訓(xùn)練所有層時,全局二元統(tǒng)計的學(xué)習(xí)速度往往比感應(yīng)頭更快,這可以從早期迭代中的 loss 和 KL 的快速下降中看出。

此外,從圖 4(左)中看到,數(shù)據(jù)分布的變化會對上下文機(jī)制的學(xué)習(xí)速度產(chǎn)生重大影響。該研究觀察到以下情況可能會使上下文學(xué)習(xí)減慢: ( i ) 較少數(shù)量的觸發(fā)器 K, ( ii ) 僅使用少有的固定觸發(fā)器,以及 ( iii ) 使用隨機(jī)觸發(fā)器而不是固定觸發(fā)器。

該研究還在圖 4(中間)中顯示,在訓(xùn)練時將輸出 token 分布更改為二元分布會降低準(zhǔn)確率,這表明,使用更多樣化的訓(xùn)練分布可以產(chǎn)生具有更好泛化準(zhǔn)確率的模型,并且只需少量的額外訓(xùn)練成本。

更多研究內(nèi)容,請參考原論文。

THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com

關(guān)鍵詞:

責(zé)任編輯:hnmd003

相關(guān)閱讀

相關(guān)閱讀

精彩推送

推薦閱讀

在线欧美精品国产综合五月_国产精品免费久久久久影院_国产精品久久久久无码av_a级毛片黄免费a级毛片

      
      

        不卡av电影在线播放| 99久久久久久| 国产亚洲成av人在线观看导航| 亚洲精品乱码久久久久久久久 | av一区二区久久| 亚洲欧美日韩中文播放 | 欧美极品xxx| 日韩中文字幕区一区有砖一区 | 成人性生交大片免费看中文网站| 中文字幕成人在线观看| 欧美亚洲国产一区二区三区| 国产精品每日更新| 激情成人综合网| 国产精品传媒在线| 欧美午夜精品久久久久久超碰| 2024国产精品| 蜜桃av噜噜一区| 中文字幕不卡一区| 69久久夜色精品国产69蝌蚪网| 成人免费一区二区三区在线观看| 国产一区二区三区高清播放| 欧美国产精品劲爆| 欧美日韩一区二区电影| 亚洲精品视频在线| 成人av资源网站| 亚洲人成网站精品片在线观看| 日韩一区二区精品葵司在线| 午夜精品免费在线观看| 久久久久久免费网| 欧美日本在线播放| 亚洲国产你懂的| 2021中文字幕一区亚洲| 欧美性视频一区二区三区| 亚洲卡通动漫在线| 26uuu国产日韩综合| 精品视频在线视频| 亚洲一区国产视频| 国产网站一区二区三区| 欧美一级夜夜爽| 午夜不卡av免费| 国产精品传媒入口麻豆| 精品国产一区二区三区久久久蜜月| 日本亚洲视频在线| 亚洲视频在线一区二区| 久久久久久电影| 国产一区91精品张津瑜| 亚洲h在线观看| 中文字幕在线不卡| 91在线视频播放| 91精品国产综合久久久久| 午夜国产不卡在线观看视频| 国产精品女同一区二区三区| 日韩一级大片在线| 七七婷婷婷婷精品国产| 日韩理论在线观看| 国产婷婷一区二区| 国产九九视频一区二区三区| 午夜电影一区二区三区| 亚洲欧美日韩人成在线播放| 91麻豆免费视频| 欧美一区二区三区免费| 天天色图综合网| 亚洲男同性恋视频| 国产精品久久久久久久裸模| 91在线免费视频观看| 欧美一区二区三区免费大片 | 91啪亚洲精品| 日韩亚洲欧美一区| 韩国精品主播一区二区在线观看| 婷婷久久综合九色综合绿巨人| 亚洲综合一区二区三区| 中文字幕欧美三区| 亚洲国产精品成人久久综合一区| 99久久综合狠狠综合久久| 欧美一区二区大片| 国产在线视频一区二区三区| 在线免费视频一区二区| 日本欧美一区二区| 一本一道久久a久久精品 | 国产精品电影一区二区三区| 91美女在线视频| 欧美精品一区二区三区在线播放 | 欧美一级精品在线| 久久精品国产免费| 色94色欧美sute亚洲13| 日韩中文欧美在线| 亚洲一区二区三区爽爽爽爽爽| 国产精品免费av| 26uuu另类欧美| 国产色婷婷亚洲99精品小说| 国产香蕉久久精品综合网| 国产日韩欧美a| 国产婷婷精品av在线| 欧美国产视频在线| 欧美国产在线观看| 国产精品久久久99| 亚洲国产成人自拍| 日韩美女久久久| 亚洲日本成人在线观看| 亚洲综合一区二区| 亚洲黄色性网站| 亚洲国产日韩精品| 亚洲成人你懂的| 日韩福利视频导航| 亚洲国产你懂的| 日本女优在线视频一区二区| 欧美在线影院一区二区| 国产毛片精品国产一区二区三区| 欧美欧美午夜aⅴ在线观看| 国产乱色国产精品免费视频| 日韩三级免费观看| 92国产精品观看| 国产精品久久久久精k8| 中文字幕欧美一| 亚洲成人福利片| 色av成人天堂桃色av| 狠狠网亚洲精品| 日韩一区二区在线看| 26uuu国产在线精品一区二区| 国产精品天干天干在观线| 中文字幕综合网| 日韩国产欧美在线视频| 欧美群妇大交群中文字幕| 99久久综合精品| 国产精品成人一区二区三区夜夜夜| 亚洲三级视频在线观看| 日韩激情视频网站| 91精品福利在线一区二区三区 | 欧美肥妇free| 91视频在线观看免费| 中文字幕在线视频一区| 亚洲午夜电影在线观看| 精品一区免费av| 精品福利av导航| 国产精品毛片大码女人| 午夜精品久久久久| 精品视频色一区| xnxx国产精品| 亚洲一线二线三线久久久| 在线观看一区日韩| 北条麻妃一区二区三区| 专区另类欧美日韩| 色婷婷综合久色| 成a人片国产精品| 亚洲欧美国产毛片在线| 在线精品视频免费观看| 99精品视频在线观看| 亚洲三级理论片| 欧美亚洲日本一区| 久久在线免费观看| 亚洲h动漫在线| 日韩欧美专区在线| 中文字幕欧美一区| 久久99精品国产麻豆婷婷洗澡| 久久这里只精品最新地址| 亚洲欧美色图小说| 国产在线观看免费一区| 久久久久久久久久久久久女国产乱| 亚洲日本乱码在线观看| 国产一区三区三区| 国产精品理论片在线观看| 日本黄色一区二区| 99久久99久久免费精品蜜臀| 亚洲自拍偷拍麻豆| 91精品国产免费久久综合| 国产精品久久久久久久蜜臀| 毛片基地黄久久久久久天堂| 国产亚洲欧美色| 亚洲.国产.中文慕字在线| 99久久国产综合精品女不卡| 亚洲精品乱码久久久久| 制服视频三区第一页精品| 国产精品不卡在线| 国内精品在线播放| 亚洲色图视频网| 欧美高清一级片在线| 亚洲人成人一区二区在线观看 | 欧美一级二级三级乱码| 国产精品乱码一区二三区小蝌蚪| 久久99精品国产.久久久久久| 欧美激情一区在线观看| 在线一区二区三区四区| 久久久国产精品午夜一区ai换脸| 天涯成人国产亚洲精品一区av| 2欧美一区二区三区在线观看视频| 亚洲黄网站在线观看| 99re6这里只有精品视频在线观看 99re8在线精品视频免费播放 | 国产成人精品一区二区三区网站观看| 亚洲欧美在线视频| 欧美日韩一级二级三级| 亚洲国产精品精华液2区45| 久久99精品一区二区三区| 亚洲视频中文字幕| 日韩一区二区三区视频| 亚洲午夜电影网| 久久综合色综合88| 麻豆极品一区二区三区| 亚洲少妇30p| 欧美一级黄色大片| 午夜激情久久久|