Optionshare 選擇幫

 找回密碼
 立即註冊
查看: 9|回復: 9
打印 上一主題 下一主題

大模型語言缺乏關鍵能力: Meta科學家所言

[複製鏈接]
跳轉到指定樓層
樓主
發表於 2 小時前 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式

馬上註冊,結交更多好友,享用更多功能,讓你輕鬆玩轉社區。

您需要 登錄 才可以下載或查看,沒有帳號?立即註冊

x
https://news.cnyes.com/news/id/5752849
回復

使用道具 舉報

沙發
 樓主| 發表於 2 小時前 | 只看該作者
目前的 AI 熱潮集中在大型語言模型(LLM)上,這些模型透過大量的文字資料訓練,預測下一個詞語,基本上就是自回歸的預測方式。這些系統在一定程度上模擬了系統一(System 1)思維,即透過簡單的模式進行反應,但無法像系統二(System 2)一樣進行複雜的推理或規劃。很多人認為,只要讓現有的 AI 模型更大,使用更多的數據訓練,就能達到人類的智慧。但我認為這是非常錯誤的。這些方法不會讓人們實現真正的智能行為,真正的智能需要的是能夠規劃、推理,並且能理解世界的 AI 系統。
回復 支持 反對

使用道具 舉報

板凳
 樓主| 發表於 1 小時前 | 只看該作者
這個「世界模型」幫助人們進行規劃。透過它,人們可以讓機器設定一個任務目標,評估是否達成了某些條件。同時,人們也可以設定一些「護欄目標」,確保在執行任務時不會發生意外,例如保證沒人會受傷。這些條件像是一個個「成本函數」,人們會優化它們,讓任務順利完成。
回復 支持 反對

使用道具 舉報

地板
 樓主| 發表於 1 小時前 | 只看該作者
與傳統方法的不同之處在於,人們的「世界模型」是透過學習得到的,而不是透過一堆手寫的方程式。這些模型會透過資料進行訓練。當然,這裡有兩個難題。首先,人們無法比現實時間運行得更快,這是一個限制。其次,世界並不是確定性的。即使物理學家告訴人們世界是確定的,但人們也無法完全預測,因為人們無法獲得世界的所有資訊。

每次給「世界模型」輸入不同的潛在變數時,模型都會給出不同的預測結果。這樣,人們就能處理不確定的情況。人類和動物也是這樣規劃的。人們會進行「分層規劃」,也就是人們會在不同的抽象層次上去理解和規劃世界的狀態。
回復 支持 反對

使用道具 舉報

5#
 樓主| 發表於 1 小時前 | 只看該作者
人們需要建立一個可以在不同抽象層次上運作的「世界模型」。這種模型會幫助 AI 處理從高層次的目標到低層次的具體行動的轉換,如何訓練這種模型目前還不是很明確。這引出了一個被稱為「目標驅動型 AI 系統」的概念。
回復 支持 反對

使用道具 舉報

6#
 樓主| 發表於 1 小時前 | 只看該作者
在過去幾年中,監督學習在自然語言處理(NLP)領域非常成功。它的核心思想是,系統從大規模資料中自我學習,輸入和輸出沒有明顯的區分,系統會透過恢復部分破壞的輸入來學習理解整個情境。但儘管如此,現有的 LLM 依然無法勝任許多日常任務。

現有的 AI 在處理現實世界的複雜性上仍有很大不足,而這些挑戰主要來自於對現實世界的感知和行動控制的複雜性。解決這些問題需要新的計算思路和模型。
回復 支持 反對

使用道具 舉報

7#
 樓主| 發表於 1 小時前 | 只看該作者
這種方法在從圖像中提取通用特徵方面非常有效。相較之下,有些使用產生模型的系統,例如自動編碼器(Autoencoders)、變分自動編碼器(VAEs)等,效果不如聯合嵌入架構。這種聯合嵌入的方法在多項任務中表現出色,尤其是在最大化編碼器提取的資訊量時效果尤為明顯。
回復 支持 反對

使用道具 舉報

8#
 樓主| 發表於 1 小時前 | 只看該作者
為了實現這一點,人們使用了一個叫做「方差 - 協方差正規化」(VCRG)的技巧。這個方法確保每個編碼器輸出的變數有足夠的方差,同時也盡量減少這些變數之間的相關性,確保每個變數都是獨立的。還有一種非常有效的方法叫做「蒸餾法」。蒸餾法透過兩個編碼器共享權重,其中一個編碼器的權重是另一個編碼器權重的時間平均值。這種方法雖然原理上有些神秘,但實際效果非常好,像 DeepMind 的 BYOL 和 Meta 的 Dinov2 等模型都是基於這種方法建構的。
回復 支持 反對

使用道具 舉報

9#
 樓主| 發表於 1 小時前 | 只看該作者
針對相關領域的研究生,LeCun 提出五個主要建議:

1. 放棄生成模型,轉向使用聯合嵌入預測架構(JEPA)。

2. 放棄機率模型,轉向基於能量的模型。

3. 放棄對比學習方法,採用正規化方法。

4. 放棄強化學習,強化學習不適合達到人類層次的 AI。

5. 不要在 LLM(大型語言模型)上浪費時間。
回復 支持 反對

使用道具 舉報

10#
 樓主| 發表於 1 小時前 | 只看該作者
LeCun 認為,LLM 並不會是下一場 AI 革命的關鍵,也不會幫助系統真正理解物理世界。更重要的是,大公司已經投入大量資源研究 LLM,沒有太多可以貢獻的空間。雖然 LLM 目前在許多領域有應用,但它們的壽命大概只有三到五年。以後,LLM 可能會成為更大系統的一部分,但主流架構將會不同。如果想找一份工作,可以考慮從事 LLM 相關工作,但未來的 AI 革命不會依賴於此。
回復 支持 反對

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

站長信箱|Archiver|手機版|小黑屋|Optionshare 選擇幫.  

GMT+8, 2024-10-26 11:15 , Processed in 0.021528 second(s), 19 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回復 返回頂部 返回列表