年度最危險論文發了!英偉達打破20年封印,讓AI親手造出更狠的「考官」淘汰自己論文。無休止的自我進化一旦開啟,2028年ASI降臨真不是玩笑。
Anthropic徹底「RSI上頭」了論文!
聯合創始人Jack Clark丟擲驚人預測,到2028年底,一個高度自主進化的AI就會誕生論文。
這個機率論文,是60%!
在人們還在為「2028 RSI能否實現」爭論不休時,劍橋大學、英偉達等機構聯手,丟出了一篇重磅論文——
「紅皇后哥德爾機器」(Red Queen Gödel Machine)
它的運作論文,宛如一場殘酷的AI生存遊戲:
AI自己編寫新的學習演算法,並將其投入沙盒進行試煉論文。失敗的直接抹殺,成功的保留下來。
接著,倖存者們開啟下一輪的自我進化與繁衍論文。
論文地址論文:
但真正令人毛骨悚然的,是AI隨後展現出的「頓悟」:它意識到,想要不斷變強,就必須面對更加苛刻的試煉論文。
於是,AI開始主動「進化」自己的考官論文。
它親手打造出更嚴苛的裁判,來評判自己寫出的更高階的程式碼論文。
這套機制,將AI死死鎖定在一個無休止的、瘋狂自我迭代的RSI裡論文。
展開全文
看完這37頁論文論文,許多人倒吸一口涼氣,「這絕對是年度最危險的AI論文」!
2028年RSI自進化把預言寫成程式碼
2003年,德國科學家Jürgen Schmidhuber曾構想過一種機器, 名為「哥德爾機」(Gödel Machine)論文。
它的設定堪稱完美:一臺能證明自己的改進有益、然後改寫自身程式碼的機器論文。
一旦造出來,它就能不斷自我升級,越變越強,沒有上限論文。
不過論文,「哥德爾機」有一個致命的「門檻」——
在執行任何一行自我修改的程式碼前,它必須先從數學上嚴格證明:這次改動一定是有益的論文。
但在現實中,這幾乎是個不可能完成的任務,所需的算力堪稱「黑洞」論文。
於是,在之後整整20年裡,哥德爾機只能躺在論文裡,當一個理論上的天花板,一個誰都夠不著的思想實驗論文。
近兩年,學界繞開了證明這道坎論文。
達爾文哥德爾機(DGM) 、赫胥黎哥德爾機(HGM)乾脆拋棄數學證明論文,改用進化——
讓AI「繁殖」出大量帶突變的程式碼變體,扔進沙盒裡跑分,失敗的淘汰,成功的保留,倖存者繼續繁衍論文。
AI跨越了最後一步,開始字面意義上「進化」自己論文。
但這些方法都還有一個共同的盲點——它們的考官是死的論文。
不管AI怎麼進化,給它打分的那個評判標準、那個benchmark、那個驗證器,始終被釘死在迴圈之外,一動不動論文。
這恰恰違背了進化最核心的一條規律論文:
物種從不是在一個靜止的環境裡最佳化自己,而是和不斷變化的環境一起改變論文。
紅皇后哥德爾機(RQGM),要破的就是這道盲點論文。
「紅皇后」真正殺招論文:讓AI造出考官
「紅皇后」這個名字論文,來自生物學家Van Valen 1973年提出的「紅皇后假說」——
你必須拼命奔跑,才能停在原地,因為你的對手也在進化論文。
RQGM乾的事,正是把這句話寫成了演算法:讓考官(評估器)和選手(任務智慧體)一起進化論文。
這是整篇論文,最讓人頭皮發麻的地方論文。
這套精巧的機制叫「受控效用進化」(controlled utility evolution)論文:
整個搜尋被切成一個個epoch論文;
在每個epoch內論文,評估器(考官)是凍結的,給所有考生打分,保證訊號穩定;
只有在epoch的邊界論文,才允許換考官,且新考官必須在一份留出的「基準真相」錨點資料上,統計意義上打贏老考官,才能上位;
一旦換人,系統立刻執行「選擇性擦除」:只丟掉那些由被換掉的考官打過的分,其餘證據全部保留論文。
換句話說,它既要狂奔進化,又要每一步都站得住腳論文。
真的奏效了論文,AI自己改程式碼
光說機制太抽象,不如直接看戰績論文。
第一戰,寫程式碼(Polyglot)論文。
RQGM給寫程式碼的Agent配了一個"程式碼評審員"當陪練論文。
結果,在留出測試集上,透過率從此前SOTA的69.9%提到了71.7%論文。
更狠的是,它達到這個成績,比對手少燒了1.35到1.72倍的token論文。因為那個評審員只需要查一次,比反覆多輪跑測試便宜太多了。
第二戰,寫論文論文。
這是個沒有標準答案的領域,論文好不好,沒法機器自動判分論文。
RQGM讓寫手和它的評審一起進化,結果論文在一個固定評審小組裡的接收率,從前SOTA的21.8%,直接飆到40.5%論文。
第三戰,奧賽級數學證明論文。
它進化出的「評分官」(grader)論文,比靜態基線更準、搜尋成本還低了3倍;
進化出的「證明選手」,拿到了最高的平均分論文。
但全篇最封神的一筆,是它把AI的一個老毛病給治好了論文。LLM當裁判,有個出了名的毛病:偏愛AI生成的內容。
論文裡那個最強的基線審稿人,接受AI寫的論文的機率,是接受人類論文的最高1.91倍論文。
RQGM怎麼治?它在epoch邊界上,把固定評審之前放過的AI論文撈出來,組成一個「對抗樣本池」,然後專門獎勵那些能把這些AI論文揪出來打回去的新評審論文。
進化幾輪之後,最終的評審對AI和人類一視同仁,還保住了80%的真值準確率論文。
當AI學會評判自己
就在同一個夏天,Anthropic聯創Jack Clark押下重注:60%的機率,2028年底前,AI將能親手締造出更強大的自己論文。
曾將「哥德爾機」死死困住20年的那道高牆,名為「證明」論文。
而「紅皇后機」將其喚醒,只用了最殘酷的一招:無休止的繁衍、淘汰、再繁衍論文。
當一個AI開始親自為自己設計最嚴苛的考官,在瘋狂的遞迴中將自己逼向極限,我們所面對的,將是一個開始自行定義「何為智慧」的全新物種論文。
當那一天到來,ASI絕不會敲門預告論文。
它只會默默造出那個唯一有資格評判它的裁判,然後,從容地走入考場論文。
預言只負責指明終點,程式碼才負責抵達論文。
而現在,這段令人窒息的距離,正被 AI 自己,以幾何級數縮短論文。
參考資料論文:
文章來源:新智元論文。