DeepMind帶來新驚喜:成功解決AI打怪最大痛點
DeepMind 又冷不丁給了我們一個小驚喜。
我們都知道,強化學習苦于泛化能力差,經常只能針對單個任務來從頭開始學習。
像 DeepMind 之前開發的 AlphaZero,盡管可以玩轉圍棋、國際象棋和日本將棋,但對每種棋牌游戲都只能從頭開始訓練。
泛化能力差也是 AI 一直被詬病為人工智障的一大原因。人類智能厲害的一點就是,可以借鑒之前的經驗,迅速適應新環境,比如你不會因為是第一次吃川菜,就看著一口鴛鴦鍋不知所措,你吃過潮汕火鍋嘛,不都是涮一下的事情嘛。
但是,泛化能力也不是一蹴而就的,就像我們玩游戲的時候,也是先做簡單任務,然后逐步升級到復雜任務。在游戲《空洞騎士》中,一開始你只需要隨意走動揮刀砍怪就行,但在噩夢級難度的“苦痛之路”關卡中,沒有前面一點點積累的爛熟于心的技巧,只能玩個寂寞。
1 多任務元宇宙
DeepMind 此次就采用了這種“課程學習”思路,讓智能體在不斷擴展、升級的開放世界中學習。也就是說,AI 的新任務(訓練數據)是基于舊任務不斷生成的。
在這個世界中,智能體可以盡情鍛煉自己,簡單的比如“靠近紫色立方體”,復雜一點的比如“靠近紫色立方體或將黃色球體放在紅色地板上”,甚至還可以和其他智能體玩耍,比如捉迷藏 ——“找到對方,并且不要被對方找到”。
每個小游戲存在于世界的一個小角落,千千萬萬個小角落拼接成了一個龐大的物理模擬世界,比如下圖中的幾何“地球”。
總體來說這個世界的任務由三個要素構成,即任務 = 游戲 + 世界 + 玩家,并根據三個要素的不同關系,決定任務的復雜度。
復雜度的判斷有四個維度:競爭性,平衡性,可選項,探索難度。
比如在“搶方塊”游戲中,藍色智能體需要把黃色方塊放到白色區域,紅色智能體需要把黃色方塊放到藍色區域。這兩個目標是矛盾的,因此競爭性比較強;同時雙方條件對等,平衡性比較高;因為目標簡單,所以可選項少;這里 DeepMind 把探索難度評為中上,可能是因為定位區域算是比較復雜的場景。
再例如,在“球球喜歡和方塊一起玩”游戲中,藍色和紅色智能體都有一個共同的目標,讓相同顏色的球體和方塊放在相近的位置。
這時候,競爭性自然很低;平衡性毋庸置疑是很高的;可選項相比上面的游戲會高很多;至于探索難度,這里沒有定位區域,智能體隨便把球體和方塊放哪里都行,難度就變小了。
基于這四個維度,DeepMind 打造了一個任務空間的、超大規模的“元宇宙”,幾何“地球”也只是這個元宇宙的一個小角落,限定于這個四維任務空間的一個點。DeepMind 將這個“元宇宙”命名為 Xland,它包含了數十億個任務。
來看看 XLand 的全貌,它由一系列游戲組成,每個游戲都可以在許多不同的模擬世界中進行,這些世界的拓撲和特征平滑地變化。
2 終生學習
數據有了,那么接下來就得找到合適的算法。DeepMind 發現,目標注意網絡 (GOAT) 可以學習更通用的策略。
具體來說,智能體的輸入包括第一視角的 RGB 圖像、本體感覺以及目標。經過初步處理后,生成中間輸出,傳遞給 GOAT 模塊,該模塊會根據智能體的當前目標處理中間輸出的特定部分,并對目標進行邏輯分析。
所謂邏輯分析是指,對每個游戲,可以通過一些方法,來構建另一個游戲,并限制策略的價值函數的最優值上限或者下限。
到這里,DeepMind 向我們提出了一個問題:對于每個智能體,什么樣的任務集合才是最好的呢?換句話說,在打怪升級中,什么樣的關卡設置才會讓玩家能順利地升級為“真”高手,而不是一刀 9999?
DeepMind 給出的答案是,每個新任務都基于舊任務生成,“不會太難,也不會太容易”。其實,這恰好是讓人類學習時感到“爽”的興奮點。
在訓練開始時,太難或太容易的任務可能會鼓勵早期學習,但會導致訓練后期的學習飽和或停滯。
實際上,我們不要求智能體在一個任務上非常優秀,而是鼓勵其終身學習,即不斷去適應新任務。
而所謂太難、太容易其實是比較模糊的描述。我們需要的是一個量化方法,在新任務和舊任務之間做彈性連接。
怎么不讓智能體在新任務中因為不適應而“暴死”呢?進化學習就提供了很好的靈活性??傮w來說,新任務和舊任務是同時進行的,并且每個任務有多個智能體參與“競爭”。在舊任務上適應得好的智能體,會被選拔到新任務上繼續學習。
在新任務中,舊任務的優秀智能體的權重、瞬時任務分布、超參數都會被復制,參與新一輪“競爭”。
并且,除了舊任務中的優秀智能體,還有很多新人參與,這就引進了隨機性、創新性、靈活性,不用擔心“暴死”問題。
當然,在每個任務中不會只有一種優秀智能體。因為任務也是不斷在生成的、動態變化的,一個任務可以訓練出有不同長處的智能體,并往不同的方向演化(隨著智能體的相對性能和魯棒性進行)。
最終,每個智能體都會形成不同的擅長任務的集合,像極了春秋戰國時期的“百家爭鳴”。說打怪升級顯得格局小了,這簡直是在模擬地球嘛。
DeepMind 表示,“這種組合學習系統的迭代特性是,不優化有界性能指標,而是優化迭代定義的通用能力范圍,這使得智能體可以開放式地學習,僅受環境空間和智能體的神經網絡表達能力的限制。”
3 智能初現
最終,在這個復雜“元宇宙”中升級、進化、分流的智能體形成了什么優秀物種呢?
DeepMind 說道,智能體有很明顯的零樣本學習能力,比如使用工具、打圍、數數、合作 & 競爭等等。
來看幾個具體的例子。
首先是,智能體學會了臨場應變。它的目標有三個:
1、將黑色金字塔放到黃色球體旁邊;
2、將紫色球體放到黃色金字塔旁邊;
3、將黑色金字塔放到橙色地板上。
AI 一開始找到了一個黑色金字塔,想著把它拿到橙色地板上(目標 3),但在搬運過程中瞄見了一個黃色球體,瞬間改變主意,“我可以實現目標 1 啦”,將黑色金字塔放到了黃色球體旁邊。
第二個例子是,不會跳高,怎么拿到高臺上的紫色金字塔?
在這個任務中,智能體需要想辦法突破障礙,取到高臺上的紫色金字塔,高臺周邊并沒有類似階梯、斜坡一樣的路徑。
因為不會調高,所以智能體急的“掀桌子”,把周邊的幾塊豎起來的板子都弄倒了。然后,巧的是,一塊黑色石板倒在高臺邊上,“咦,等等,這不就是我要的階梯嗎?”
這個過程是否體現了智能體的智能,還無法肯定,可能只是一時的幸運罷了。關鍵還是,要看統計數據。
經過 5 代訓練,智能體在 XLand 的 4,000 個獨立世界中玩大約 700,000 個獨立游戲,涉及 340 萬個獨立任務的結果,最后一代的每個智能體都經歷了 2000 億次訓練步驟。
目前,智能體已經能夠順利參與幾乎每個評估任務,除了少數即使是人類也無法完成的任務。
DeepMind 的這項研究,或許一定程度上體現了“密集學習”的重要性。也就是說,不僅是數據量要大,任務量也要大。這也使得智能體在泛化能力上有很好的表現,比如數據顯示,只需對一些新的復雜任務進行 30 分鐘的集中訓練,智能體就可以快速適應,而從頭開始用強化學習訓練的智能體根本無法學習這些任務。
在往后,我們也期待這個“元宇宙”變得更加復雜和生機勃勃,AI 經過不斷演化,不斷給我們帶來驚喜(細思極恐)的體驗。
相關閱讀
-
地產、基建板塊走強,中證1000指數ETF(159633)成交金額已超5.7億,北辰實業、中華企業、鴻路鋼構集體大漲
截至發稿,中證1000指數ETF(159633)跌0 77%,場內交投活躍,成交金額
2023-06-08 -
今日看點:港股通醫藥ETF(513200)成交金額已超7500萬,國藥控股、威高股份、石藥集團飄紅
截至發稿,港股通醫藥ETF(513200)微跌0 11%,成交金額7522萬元;重倉
2023-06-08
精彩推薦
閱讀排行
相關詞
- 段林希簡介_段林希是誰 焦點觀察
- csgo第一次開箱子怎么開?csgo新號開箱子好出金嗎?
- 今日看點:港股通醫藥ETF(513200)成交金額已超7500萬,國藥控股、威高股份、石藥集團飄紅
- csgo開箱子還是直接買?csgo箱子需要買嗎?
- 《自由籃球》選秀賽季全新上線 泰山喬商店好禮派發 全球熱資訊
- 天天熱議:《跑跑卡丁車》竹片持續放送中 個人RP賽回歸
- csgo游戲內如何開箱子?csgo每個箱子都能開出什么?
- 人民銀行:長期堅持穩健貨幣政策 中國金融周期相對穩健
- 【全球快播報】喝咖啡真的能提神嗎
- 每日精選:淘寶賣家的基本義務是什么啊_淘寶賣家的基本義務是什么
- 周小川:上海國際金融中心建設著力點應放在資本市場主力產品上|焦點滾動
- csgo有什么開箱網站?csgo開箱網站是什么原理?
- 再次震蕩?游戲ETF(159869)盤中一度跌超4%
- 地產、基建板塊走強,中證1000指數ETF(159633)成交金額已超5.7億,北辰實業、中華企業、鴻路鋼構集體大漲
- csgo開箱子出什么?csgo一天掉幾個箱子?
- 《星辰變》第五季第十五集:白鳳和白馨下線,引發觀眾共鳴和熱議
- csgo開箱網站打不開是怎么回事?csgo開箱網站有什么用?
- 世界快訊:邊緣計算市場規模將達4450億美元,邊緣AI打開行業想象空間!奧拓電子兩連板
- 通訊:“中國為我打開機遇之門”——一個洪都拉斯青年的中國情緣
- thinkpadt480藍屏怎么解決 環球觀天下
- 全球時訊:中國星辰|中國人登月如何實現?
- csgo網站開箱流程是怎樣的?csgo哪個網頁可以開箱?
- 環球熱資訊!hticons.dll丟失如何自動修復
- csgo開箱子哪個好?csgo最保值的箱子是什么?
- 飛豬:端午出游預訂節奏大幅提前 跨省游訂單占比近9成
- csgo怎么打開箱子?csgo哪里買箱子鑰匙最便宜?
- 外星襲擊什么時候出 公測上線時間預告
- 哪些方法可以還原sd卡內的數據_熱點
- csgo每天免費開箱方法是什么?csgo開箱出金概率高嗎?
- 如何修復缺少fwbase.dll文件的問題
- csgo開箱子機制是怎樣的?csgo箱子對應刀清單
- F4藍屏代碼出現應該采取什么應對方法
- 燉雞的做法大全視頻教程(燉雞的做法大全) 播資訊
- csgo開箱子推薦哪一個?csgo怎么賣箱子?
- csgo幸運開箱網有哪些?csgo開箱網站可以提刀嗎?
- 重慶市長壽區五部門聯合開展互聯網危險化學品專項治理行動|世界實時
- 江西省新余市持續開展“三項行動”夯實消費品質量基礎|天天熱門
- csgo如何免費開箱?csgo開箱一定要錢嗎?
- 諾基亞c500有wifi功能嗎(諾基亞c500) 觀速訊
- 英雄機長劉傳健護航 成都大運會火種飛赴北京_天天觀察
- 全球視訊!隨著天空變成紅色 《暗黑4》的宣發變得像是真的
- 藝術 | 外交頂流京劇《白蛇傳》你看過嗎?
- 全球即時看!南航倫敦至北京大興直飛航線正式開通
- csgo開箱子秘訣是什么?csgo開哪個箱子劃算?
- 電腦啟動時藍屏出現字母是否與驅動有關_世界觀熱點
- 意義非凡的愛地希:展現新一代ADC藥物的卓越療效
- 全球今熱點:【2023高考】考點內外“雙保障” 他們每天為高考“服務”近10小時
- csgo開箱價格是多少?csgo開什么箱子容易出刀?
- 價格跌至前低,創業板成長ETF(159967)連續7天獲資金 環球關注
- 世界簡訊:明星三缺一2005百度云(明星三缺一2006)
- 充滿算計!日美澳在南太鋪光纜,日媒炒“抗衡中國影響力”|當前通訊
- AI醫療大模型MedGPT發布,醫藥ETF(512010)成_天天快資訊
- 海南核電自備碼頭改造圓滿完成工程竣工驗收
- 無人機巡視、紅外測溫…… 上海電力“設備主人”護航高考
- 河南已收獲小麥7506.8萬畝,約占全省種植面積的88%
- 每日看點!上月房企融資數據繼續“縮水” 6月份約349億債券到期
- 我想完美的皮膚官網在哪下載 最新官方下載安裝地址
- csgo開箱歌曲有哪些?csgo開箱沙雕音樂分享
- csgo開箱教學來了 csgo可以免費開箱嗎?
- 彈幕射擊游戲《彈幕無限3》將于6月13日登陸PS4|世界觀點
- 廈門外貿自主品牌培育入選外貿新業態優秀實踐案例
- csgo開箱攻略有哪些?csgo開箱子能賺錢嗎?
- 環球即時看!廣東自貿試驗區八年固定資產投資超1萬億
- 中國專家最新研究證實:腸癌相關標準治療方案非普遍適用|全球熱消息
- 世界通訊!生存游戲《浩劫前夕》發布全新預告視頻 將重新上架Steam
- 北交所上市公司邁入“200+”時代
- 全球熱推薦:護航“平安高考” 大興安嶺市場監管部門在行動
- 《原子之心》發布首個DLC敵人前瞻預告 今年夏季發售
- 廣西來賓市市場監管局開展藥品不良反應監測有成效
- 四川省遂寧市蓬溪縣市場監管局開展“兒童用品安全行”主題宣傳活動-要聞速遞
- csgo開箱秘籍是什么?csgo開箱小技巧了解一下
- 報道:雙星新材董秘回復:短期波動受到多種因素影響,因堅定自身而努力發展,公司持續深耕新材料發展,積極調整產品結構
- 雙星新材董秘回復:公司一直在不斷優化產品結構,對普膜產品持續結構調整
- 貝云科技“點亮”倫敦設計雙年展 LUZENSE探索“情緒照明”
- csgo能不花錢開箱子嗎?csgo一周可以掉落幾個箱子?
- 《影子武士3:最終版》發布新版本更新 改善整體視覺效果
- 云南:總投資1916.75億元,141個新項目完成簽約|全球熱資訊
- csgo開箱子網址有哪些?csgo能在手機上開箱子?
- 焦點報道:2023中國·天門服裝電商產業峰會將召開
- 海泰新光董秘回復: 公司第一代產品沒有在市場上進行大量推廣,這是與公司的產品和市場定位有關|熱點在線
- csgo可以去哪開箱?csgo公認最好的開箱平臺介紹
- 事關耕地紅線!浙江推進“進出平衡” ,嚴控一般耕地轉為其他農用地
- 焦點簡訊:金橋信息(603918)6月8日14點41分觸及漲停板
- 祥生醫療董秘回復: 祥生醫療主營業務為超聲醫學影像設備研發、制造和銷售
- 環球速看:海南昌江一濕地公園首次記錄到六只紫水雞幼崽同框
- csgo開箱子鑰匙如何獲得?csgo怎么得到箱子?
- 無人機巡視、紅外測溫…… 上海電力“設備主人”護航高考 快消息
- 全球關注:港元拆息普遍上升 一周及兩周利率結束六連跌
- 中國科傳(601858)6月8日14點44分觸及跌停板|環球滾動
- csgo手機開箱子可行嗎?csgo開哪個箱子劃算?
- 《麥登橄欖球24》Steam頁面上線 游戲暫不支持中文
- *ST京藍(000711)6月8日14點44分觸及漲停板 每日消息
- 法國反對北約在日本設立辦事處
- csgo開箱見金必中嗎?csgo良心開箱網站分享
- 焦點快看:廣東:向海圖強 激發藍色經濟新動能
- 上海市歷史博物館與俄羅斯國家歷史博物館簽訂友好合作備忘錄
- 河北井陘:保護古村風貌 留住鄉愁古韻
- 日播時尚(603196)6月8日14點35分觸及漲停板
- 泉峰汽車: 公司控股股東及一致行動人自公司上市以來從未減持公司股票|全球訊息
- csgo全球開箱網站有哪些?csgo開箱靠譜嗎?
- 每日熱議!75年后,新疆考古第一人黃文弼《羅布淖爾考古記》嶄新再版
- 天天新消息丨星火成炬 | 此去,桃李滿天下!
- 第七屆平遙國際電影展面向全球征集華語劇本項目 天天快報
- 全球熱文:洪都拉斯總統特別助理:期待訪華增進雙邊關系
- “新歌唱新疆”巡演首場在烏魯木齊舉辦
- 四書五經指什么 四書五經指什么生肖?
- 深圳陽光整形美容醫院怎么樣_是三甲醫院嗎
- 手機評測排名2022:不同價位段中的最佳選擇
- 海泰新光董秘回復: 謝謝您對公司的持續關注,也感謝您對公司的理解和支持-播報
- csgo開箱回本率是多少?csgo開箱微信支付在哪里?
- 向海圖強!海洋經濟“揚帆遠航”-今日熱搜
- csgo開箱梗是什么?csgo怎么批量開箱?
- 每日看點!更寬敞!我國新一代載人飛船可坐7人,將實現回收技術
- 微信群待辦怎么發 微信群待辦怎么發起-天天微速訊
- csgo開箱玄學有哪些?csgo開箱看見金了必出嗎?
- Win11永劫無間藍屏出現應該如何應
- 霧霾藍連衣裙配什么鞋子 霧霾藍連衣裙搭配什么鞋子-世界訊息
- 深圳友華普惠眼科怎么樣 手術案例效果證明一切_全球實時
- 每日熱文:通訊:“中國為我打開機遇之門”——一個洪都拉斯青年的中國情緣
- csgo開箱多少錢一個?csgo開箱模擬器推薦
- 日本民眾舉行抗議活動 反對政府排放核污染水入海_環球時快訊
- 離婚協議書的格式 離婚協議書的格式怎樣寫圖片
- 潘功勝:中國堅持穩健的貨幣政策是金融周期相對穩健的原因-短訊
- 全球要聞:普通話手抄報內容大全_普通話手抄報內容精選
- CPU藍屏一進系統就重啟該如何解決
- 熱點評!公安部交管局公布近期三輪車肇事肇禍典型交通事故案例
- 海南司機 今日高考英語聽力考試期間途經考點禁止鳴笛-世界視點
- 長三角鐵路端午小長假預計發送旅客1500萬人次
- 妄想山海營地怎么升級(妄想山海營地如何升級) 環球即時看
- 什么是新零售的前端表象(新零售的表現形式)
- 怎樣快速去黑眼圈_怎么去除黑眼圈|世界聚看點
- api-ms-win-core-bicltapi-l1-1-0.dll文件丟失如何修復?|熱點在線
- xmllite.dll文件被破壞怎么辦|天天微動態
- 一公頃等于多少平方千米_等于0.01平方分米
- 星球神偷官網在哪下載 最新官方下載安裝地址
- 今日熱搜:和平精英第十周任務怎么完成 任務完成技巧方法詳解
- “國企領導牽手門”最新進展:牽手門涉事女子已被停職并接受調查
- 如何解決msprivs.dll報錯丟失問題 環球熱頭條
- 前沿資訊!英語四級多少分及格_英語四級簡介
- 靈顯第一季_關于靈顯第一季介紹 焦點日報
- 國服csgo如何開箱?csgo國服開箱方法介紹
- 河南省開封市龍亭區市場監管部門就定量包裝茶葉過度包裝問題開展專項檢查和行政指導
- 天天速讀:安徽省市場監管局推進法治政府建設結碩果
- 7b藍屏怎么解決
- 新知青_關于新知青簡介
- 深圳思莉醫療美容門診部怎么樣 真實情況在線獲取-全球播報
- 新石器_關于新石器簡介 環球熱點
- csgo去哪開箱?csgo新人玩家開箱攻略
- 端午假期火車票6月8日開售,年輕人尋找下一個“淄博”
- 視焦點訊!童年好詞好句好段_童年好詞好句好段總結