简

ADVERTISEMENT

ADVERTISEMENT

发布: 1:49pm 27/07/2024

训练

人工智能（AI）

AI数据

模型崩溃

训练

人工智能（AI）

AI数据

模型崩溃

用AI數據訓練AI效果怎樣？研究：或最終導致崩潰

用AI数据训练AI效果怎样？国际最新研究称可能最终导致崩溃 — 研究證明了一個AI可能會忽略訓練數據中的某些輸出（如不太常見的文本），導致其只用一部分數據集來自我訓練。（互聯網照片）

（北京27日綜合電）國際學術期刊《自然》最新發表一篇計算機科學論文指出，用人工智能（AI）生成的數據集訓練未來幾代機器學習模型可能會汙染它們的輸出，這個概念稱為“模型崩潰”。

據中新網報道，該研究顯示，原始內容會在AI數代內變成不相關的胡言亂語，顯示出使用可靠數據訓練AI模型的重要性。

ADVERTISEMENT

生成式AI工具越來越受歡迎，如大語言模型等，這類工具主要用人類生成的輸入進行訓練。不過，隨著這些AI模型在互聯網不斷壯大，計算機生成內容可能會以遞歸循環的形式被用於訓練其他AI模型或其自身。

論文第一作者兼共同通訊作者、英國牛津大學舒邁洛夫和同事及合作者一起，用數學模型演示了AI模型可能會如何出現模型崩潰。他們證明了一個AI可能會忽略訓練數據中的某些輸出（如不太常見的文本），導致其只用一部分數據集來自我訓練。

隨後，論文作者還研究了AI模型會如何應對主要用人工智能生成的訓練數據集。他們發現，給模型輸入AI生成的數據會減弱今後幾代模型的學習能力，最終導致模型崩潰。他們測試的幾乎所有遞歸訓練語言模型都容易出現重複短語。比如，一個用中世紀建築文本作為原始輸入的測試到第九代的輸出已經是一串野兔的名字。

論文作者指出，為了讓人工智能成功使用其自身輸出進行訓練，本次研究認為用AI生成數據訓練一個模型並非不可能，但必須對數據進行嚴格過濾。與此同時，依賴人類生成內容的科技公司或許能比競爭對手訓練出更高效的AI模型。

ADVERTISEMENT

热门新闻

百格视频

更多视频

更多国际新闻

女子生病欠租19個月房東登門驚見床上白骨

女子生病欠租19個月房東登門驚見床上白骨

55分钟前

佛州前眾議員蓋茨醜聞纏身放棄美國司法部長提名

佛州前眾議員蓋茨醜聞纏身放棄美國司法部長提名

1小时前

佛寺利用屍體冥想引懷疑警挖出12具遺體查核來歷

佛寺利用屍體冥想引懷疑警挖出12具遺體查核來歷

1小时前

醫院大火父勇救7嬰兒　卻救不回雙胞胎女兒

醫院大火父勇救7嬰兒　卻救不回雙胞胎女兒

1小时前

普汀：21日在烏克蘭成功實戰試射新型極音速中程飛彈

普汀：21日在烏克蘭成功實戰試射新型極音速中程飛彈

2小时前

視頻| 印尼印度煎餅攤位火爆顧客排長龍還自己動手煎

視頻| 印尼印度煎餅攤位火爆顧客排長龍還自己動手煎

2小时前

热门话题

ADVERTISEMENT

ADVERTISEMENT

点击

可阅读下一则新闻

ADVERTISEMENT