大模型語言缺乏關鍵能力: Meta科學家所言

sec2100 · 發表於 2024-10-26 09:10:38

馬上註冊，結交更多好友，享用更多功能，讓你輕鬆玩轉社區。

您需要登錄才可以下載或查看，沒有帳號？立即註冊

x

https://news.cnyes.com/news/id/5752849

sec2100 · 發表於 2024-10-26 09:14:09

目前的 AI 熱潮集中在大型語言模型（LLM）上，這些模型透過大量的文字資料訓練，預測下一個詞語，基本上就是自回歸的預測方式。這些系統在一定程度上模擬了系統一（System 1）思維，即透過簡單的模式進行反應，但無法像系統二（System 2）一樣進行複雜的推理或規劃。很多人認為，只要讓現有的 AI 模型更大，使用更多的數據訓練，就能達到人類的智慧。但我認為這是非常錯誤的。這些方法不會讓人們實現真正的智能行為，真正的智能需要的是能夠規劃、推理，並且能理解世界的 AI 系統。

sec2100 · 發表於 2024-10-26 09:16:34

這個「世界模型」幫助人們進行規劃。透過它，人們可以讓機器設定一個任務目標，評估是否達成了某些條件。同時，人們也可以設定一些「護欄目標」，確保在執行任務時不會發生意外，例如保證沒人會受傷。這些條件像是一個個「成本函數」，人們會優化它們，讓任務順利完成。

sec2100 · 發表於 2024-10-26 09:17:48

與傳統方法的不同之處在於，人們的「世界模型」是透過學習得到的，而不是透過一堆手寫的方程式。這些模型會透過資料進行訓練。當然，這裡有兩個難題。首先，人們無法比現實時間運行得更快，這是一個限制。其次，世界並不是確定性的。即使物理學家告訴人們世界是確定的，但人們也無法完全預測，因為人們無法獲得世界的所有資訊。

每次給「世界模型」輸入不同的潛在變數時，模型都會給出不同的預測結果。這樣，人們就能處理不確定的情況。人類和動物也是這樣規劃的。人們會進行「分層規劃」，也就是人們會在不同的抽象層次上去理解和規劃世界的狀態。

sec2100 · 發表於 2024-10-26 09:18:09

人們需要建立一個可以在不同抽象層次上運作的「世界模型」。這種模型會幫助 AI 處理從高層次的目標到低層次的具體行動的轉換，如何訓練這種模型目前還不是很明確。這引出了一個被稱為「目標驅動型 AI 系統」的概念。

sec2100 · 發表於 2024-10-26 09:18:55

在過去幾年中，監督學習在自然語言處理（NLP）領域非常成功。它的核心思想是，系統從大規模資料中自我學習，輸入和輸出沒有明顯的區分，系統會透過恢復部分破壞的輸入來學習理解整個情境。但儘管如此，現有的 LLM 依然無法勝任許多日常任務。

現有的 AI 在處理現實世界的複雜性上仍有很大不足，而這些挑戰主要來自於對現實世界的感知和行動控制的複雜性。解決這些問題需要新的計算思路和模型。

sec2100 · 發表於 2024-10-26 09:20:18

這種方法在從圖像中提取通用特徵方面非常有效。相較之下，有些使用產生模型的系統，例如自動編碼器（Autoencoders）、變分自動編碼器（VAEs）等，效果不如聯合嵌入架構。這種聯合嵌入的方法在多項任務中表現出色，尤其是在最大化編碼器提取的資訊量時效果尤為明顯。

sec2100 · 發表於 2024-10-26 09:24:05

為了實現這一點，人們使用了一個叫做「方差 - 協方差正規化」（VCRG）的技巧。這個方法確保每個編碼器輸出的變數有足夠的方差，同時也盡量減少這些變數之間的相關性，確保每個變數都是獨立的。還有一種非常有效的方法叫做「蒸餾法」。蒸餾法透過兩個編碼器共享權重，其中一個編碼器的權重是另一個編碼器權重的時間平均值。這種方法雖然原理上有些神秘，但實際效果非常好，像 DeepMind 的 BYOL 和 Meta 的 Dinov2 等模型都是基於這種方法建構的。

sec2100 · 發表於 2024-10-26 09:24:38

針對相關領域的研究生，LeCun 提出五個主要建議：

1. 放棄生成模型，轉向使用聯合嵌入預測架構（JEPA）。

2. 放棄機率模型，轉向基於能量的模型。

3. 放棄對比學習方法，採用正規化方法。

4. 放棄強化學習，強化學習不適合達到人類層次的 AI。

5. 不要在 LLM（大型語言模型）上浪費時間。

sec2100 · 發表於 2024-10-26 09:25:07

LeCun 認為，LLM 並不會是下一場 AI 革命的關鍵，也不會幫助系統真正理解物理世界。更重要的是，大公司已經投入大量資源研究 LLM，沒有太多可以貢獻的空間。雖然 LLM 目前在許多領域有應用，但它們的壽命大概只有三到五年。以後，LLM 可能會成為更大系統的一部分，但主流架構將會不同。如果想找一份工作，可以考慮從事 LLM 相關工作，但未來的 AI 革命不會依賴於此。

		自動登錄	找回密碼
密碼			立即註冊

大模型語言缺乏關鍵能力: Meta科學家所言

馬上註冊，結交更多好友，享用更多功能，讓你輕鬆玩轉社區。

瀏覽過的版塊