日韩高清一区_国产亚洲一区二区三区四区_亚洲国产一二三_久热精品视频

登錄
首頁 > 汽車測評 > Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

發布時間:2025-09-13 12:07:07

Meta超級智能實驗室(MSL)又被送上爭議的風口浪尖了。

不過,這次不是人事風波,而是他們的第二篇論文《Language Self-Play For Data-Free Training》被質疑忽視前人研究、缺乏創新

究竟是啥論文?

讓模型在博弈中學習

總的來說,MSL這篇新論文的核心思想是通過一種Language Self-Play(LSP)的方法,讓大型語言模型在沒有額外訓練數據的情況下實現自我提升。

這一方法旨在應對當前大語言模型高度依賴大規模、高質量訓練數據,且訓練數據有限所帶來的困境。

為此,LSP將模型的學習過程設計成一個博弈框架,讓同一個語言模型扮演兩個角色進行對抗,從而實現無數據訓練。

具體來說,這兩個角色分別是:

  • 挑戰者:負責生成越來越有挑戰性的問題或指令。
  • 解決者:負責回答或執行這些指令。

在對抗過程中,挑戰者不斷生成越來越刁鉆的問題或指令,以降低解決者的預期回報;而解決者則必須努力理解并回答這些指令,以最大化自身回報——這其實就是我們熟悉的極小極大博弈(minimax game)。

通過這樣的對抗訓練,模型能夠在不斷博弈中持續改進,逐步提升能力。

此外,與傳統對抗訓練不同,LSP讓單個語言模型同時扮演“挑戰者”和“解決者”兩個角色,研究人員給模型設計了一個特殊的“挑戰者提示”(Challenger Prompt):當接收到該提示時,模型進入挑戰者模式,生成難題;否則,它就扮演解決者角色,回答問題。

這種單一模型的設計避免了訓練獨立對抗模型所帶來的額外開銷和不穩定性。整個過程完全自主,模型在自我對抗中不斷迭代,從而在沒有外部數據輸入的情況下提升自身能力。

為了將這個博弈轉化成模型強化學習的過程,研究中采用了GRPO技巧,讓模型在每輪訓練中進行如下操作:

  • 挑戰者生成問題:每輪生成N個問題。

  • 解決者回答問題:對于每個問題,解決者生成一定數量的答案,并分別計算獎勵。

  • 計算組價值與優勢:把解決者對同一個問題的所有答案的獎勵進行平均,得到這個問題整體的難度或表現水平。然后用每個答案的實際獎勵減去組價值,判斷這個答案比平均水平高還是低。 - 更新挑戰者優勢:通過計算優勢函數獲得問題和答案的反饋,優化自己出題的策略。

通過這種獎勵機制,挑戰者生成的問題會針對解決者的薄弱環節,從而推動模型不斷改進。

研究將這一方法稱為Language Self-Play Zero(LSP-Zero),其中 Zero 表示零和。

此外,在實踐中,研究者發現LSP-Zero有時會退化,例如模型為了獲取獎勵而生成無意義但能獲得高分的內容(即獎勵 hacking)。

針對解決這個問題,他們在LSP算法中引入了“自我質量獎勵”(RQ),引導博弈朝高質量交互發展,使訓練可長期進行。

(注:LSP的具體算法如下表)

最后,為了驗證LSP算法的有效性,研究者使用Llama-3.2-3B-Instruct模型在Alpaca Eval基準上進行了兩組實驗。

實驗一將算法與基礎模型本身以及一個通過傳統強化學習微調的大語言模型進行比較。

實驗結果顯示,沒有使用任何數據的LSP和LSP-Zero和使用了數據的GRPO相當,并且顯著優于原始模型。而在 Vicuna這類對話型和開放式指令的數據集上,LSP 的表現遠超GRPO。

實驗二以實驗一中通過數據驅動 RL(GRPO)訓練得到的模型為起點,進一步使用 LSP-Zero 和 LSP 進行訓練,計算這些模型相對于Llama-3.2-3B-Instruct的勝率,并與初始的 RL 模型進行對比。

實驗顯示,經過LSP的進一步訓練后,模型的整體勝率從40.9%顯著提升到了43.1%。

同樣的,LSP在Vicuna數據集上的提升尤為明顯。這表明 LSP 可以作為一種有效的方法,在數據驅動的訓練之后繼續挖掘模型潛力。

總的來說,實驗結果表明,LSP-Zero和LSP算法能夠在無需訓練數據的情況下提升預訓練LLM的性能,尤其是在對話類任務上表現顯著,而這可能意味著AI正在從依賴人類數據過渡到自主學習系統。

網友:感覺忽略了大量前人研究?

雖然(……)但是,LSP一經發布后,在網友們這倒是出了些小插曲。

一位推特網友直言:LSP自稱是突破性工作,但實際上忽視了大量前人研究,還順帶翻了一些舊賬。

抱歉了,Meta“超級智能”實驗室,但 @_AndrewZhao 等人的工作做得更好,而你們卻沒有引用。其實很多人都做過類似研究(比如 @Benjamin_eecs),無論是聯合最大化還是極小極大,不管是驗證器還是獎勵模型。為什么要把這說成是突破呢?你們在Vicuna上的評測確實做得不錯,簡直是2023年LLaMA社區的典型操作。

而且,就連失敗的模型也大同小異。

評論區有網友表示這可能是一篇老工作,然后拿到MSL發的:

Copyright 2017-2025 新車測評網 版權所有  ICP備18049689號-30
日韩高清一区_国产亚洲一区二区三区四区_亚洲国产一二三_久热精品视频
国产日韩综合| 国产精品久久久久9999高清| 久久夜色精品国产噜噜av| 久久资源av| 欧美精品手机在线| 国产精品美女主播在线观看纯欲| 国产日本欧美一区二区三区| 亚洲国产成人在线| 亚洲精品午夜| 香蕉国产精品偷在线观看不卡| 久热这里只精品99re8久| 欧美区一区二| 国产美女精品免费电影| 亚洲国产日韩一区二区| 亚洲综合色婷婷| 久久综合狠狠| 国产精品国产三级国产aⅴ9色| 好男人免费精品视频| 亚洲精品婷婷| 欧美主播一区二区三区美女 久久精品人 | 亚洲视频在线一区观看| 欧美在线亚洲综合一区| 亚洲午夜视频在线| 久久精品人人做人人爽| 欧美日韩免费精品| 国产日韩欧美在线观看| 亚洲精品影视在线观看| 欧美尤物一区| 欧美日韩天堂| 亚洲在线视频免费观看| 免费亚洲一区| 国产女主播一区二区三区| 亚洲欧洲精品一区| 久久精品免费播放| 欧美性片在线观看| 亚洲国产精品久久| 羞羞色国产精品| 欧美看片网站| 狠狠色综合日日| 亚洲一二三区在线| 欧美电影打屁股sp| 国产一区二区剧情av在线| 日韩网站免费观看| 久久久伊人欧美| 国产女主播一区二区三区| 一区二区三区**美女毛片| 免费亚洲婷婷| 国产在线高清精品| 亚洲欧美中文日韩在线| 欧美日韩一区二区三| 在线观看亚洲一区| 久久精品av麻豆的观看方式| 国产精品热久久久久夜色精品三区| 亚洲精品欧美在线| 免费在线观看日韩欧美| 黄色成人精品网站| 欧美一级欧美一级在线播放| 国产精品qvod| 亚洲另类在线视频| 蜜桃视频一区| 好吊妞这里只有精品| 午夜精品福利一区二区三区av | 国产日韩欧美一区在线 | 欧美日韩国产影片| 欧美人在线观看| 亚洲国产高清aⅴ视频| 久久精品国产亚洲精品| 国产精品一区二区在线观看网站 | 国产精品亚洲综合久久| 一区二区三区蜜桃网| 欧美精品一区二区三区蜜臀| 亚洲高清在线观看一区| 久久五月天婷婷| 黑人一区二区三区四区五区| 欧美一区亚洲二区| 国产伦精品一区二区三区在线观看 | 一区二区不卡在线视频 午夜欧美不卡在| 久久综合中文字幕| 在线观看成人av| 免费不卡视频| 亚洲欧洲三级电影| 欧美精品www在线观看| 亚洲高清视频在线| 欧美另类久久久品| 一本色道久久综合精品竹菊| 欧美色另类天堂2015| 在线一区二区三区做爰视频网站| 欧美视频中文一区二区三区在线观看| 一本色道久久88综合日韩精品| 欧美日韩国产麻豆| 99国产精品| 国产精品久久二区二区| 亚洲一区视频在线| 国产日韩亚洲| 久久综合99re88久久爱| 亚洲国产婷婷香蕉久久久久久| 欧美精品一区三区在线观看| 亚洲精品乱码久久久久久久久| 欧美日韩日本网| 午夜精品福利一区二区蜜股av| 国产午夜亚洲精品理论片色戒| 久久精品二区三区| 伊人成年综合电影网| 欧美国产日本在线| 亚洲一级在线观看| 国产一区二区| 女人香蕉久久**毛片精品| 日韩亚洲在线| 国产欧美精品xxxx另类| 久久精品官网| 亚洲欧洲一区二区三区在线观看| 国产精品播放| 久久精品首页| 亚洲精品一区二区三区不| 国产精品福利av| 久久久久99| 99热精品在线| 国产亚洲一区精品| 欧美激情一区二区三区在线 | 免费看的黄色欧美网站| 亚洲视频www| 韩国三级在线一区| 欧美激情亚洲激情| 小处雏高清一区二区三区| 亚洲第一页在线| 国产精品久久久久久久第一福利| 久久久久久久久久码影片| 亚洲伦理一区| 国产一区在线播放| 欧美另类一区| 欧美在线亚洲综合一区| 亚洲三级毛片| 国产无一区二区| 欧美激情在线狂野欧美精品| 午夜精品偷拍| 亚洲精品偷拍| 黄色日韩网站视频| 国产精品成人一区二区艾草| 久久综合网hezyo| 亚洲砖区区免费| 亚洲精品免费在线| 国产一区二区高清不卡| 欧美日韩亚洲三区| 鲁鲁狠狠狠7777一区二区| 亚洲欧美一区二区三区极速播放 | 欧美一区二区三区久久精品茉莉花 | 黄色一区二区三区| 欧美午夜精品理论片a级大开眼界 欧美午夜精品理论片a级按摩 | 欧美国产丝袜视频| 性做久久久久久| 亚洲精品视频一区| 国模一区二区三区| 国产精品成人观看视频免费 | 欧美视频免费在线| 美女精品在线观看| 欧美在线亚洲在线| 亚洲色图自拍| 亚洲欧洲一区二区三区| 国内精品久久久久久久影视蜜臀| 欧美日韩国产一级片| 久久只有精品| 欧美亚洲午夜视频在线观看| 99re6热在线精品视频播放速度| 黑人一区二区三区四区五区| 国产精品自拍小视频| 欧美日韩在线第一页| 欧美高清一区| 久久久亚洲国产美女国产盗摄| 亚洲欧美日韩国产一区二区三区| 日韩一本二本av| 亚洲国产欧美在线| 在线日韩中文字幕| 激情久久影院| 国产一区二区按摩在线观看| 国产精品美女一区二区在线观看| 欧美日韩国语| 欧美激情综合| 欧美电影在线免费观看网站| 久久一区精品| 久久乐国产精品| 久久精品国产一区二区三| 欧美一区二区三区在线免费观看| 亚洲一区二区三区久久| 一区二区激情视频| 99热精品在线| 中文日韩在线视频| 一区二区三区日韩在线观看| 99视频精品在线| 亚洲毛片av| 亚洲免费成人| 日韩视频在线观看国产| 亚洲美女视频网| 日韩亚洲欧美精品| 亚洲免费成人av| 一本不卡影院| 一个人看的www久久| 一区二区三区精密机械公司| 国产精品99久久久久久www| 亚洲少妇诱惑| 午夜精品国产精品大乳美女| 欧美一级视频| 久久免费高清| 母乳一区在线观看| 欧美日韩精品久久久|