2018.08.27 18:13 臺北時間

AI在DOTA 2頂級賽事上一敗塗地 這究竟意味著什麼?

OpenAI開發團隊亮相TI 8。(TI 8提供)
OpenAI開發團隊亮相TI 8。(TI 8提供)
隨著OpenAI Five被1支中國隊伍打敗以及另一場失敗,AI提前結束了其在本屆DOTA 2國際頂尖賽事TI 8的旅程。
回顧這兩場比賽,雖然AI在比賽的前20-35分鐘內保持了很好的獲勝機會,但OpenAI Five最終仍沒有把握住機會:第1場比賽AI對陣世界排名前18的隊伍的paiN Gaming,比賽持續了大約51分鐘(一般比賽持續40分鐘);在第2場比賽中,AI對陣由中國退役頂尖玩家組成的隊伍,其中3人曾在一支明星隊伍中比賽過,在經歷了一些精彩額來回戰鬥後,人類45分鐘後獲勝。
OpenAI Five在比賽中確實展現了自己一定的實力,根據OpenAI賽後發佈的博客文章,導致失敗的主要原因是對戰的遊戲玩家明顯實力比AI高出不少量級 ,如今年5月以來玩家排名的圖表所示:
各個隊伍的實力分佈。(翻攝自OpenAI)
除此之外,缺乏戰略規劃也導致了AI的失敗。
「我們並不感到震驚」OpenAI成員Filip Wolski賽後對媒體表示。「我們以極高的不確定性參加了比賽。我們不知道某些因素,比如在比賽那天我們會對戰誰」。
在週三遭遇首次失敗之後,開發人員也重新調整了AI的獎勵系統,試圖最大限度地獲得勝利的機會。Wolski向表示:「當機器人贏得比賽時,最大的回報是給予獎勵……這個項目讓我們經歷了很多不眠之夜,我們會休息一下,並考慮是否為AI上傳新的超參數。我們將繼續研究Dota 2,以便更好地使用越來越少的限制來玩遊戲。」
總體來說,在保留一定限制的前提下,OpenAI的系統仍然無法全面理解DOTA複雜的遊戲系統和規則,比如對偵查守衛和詭計之霧的錯誤使用,站在Roshan洞穴發呆,將Roshan復活盾交給輔助等等。這些行為和操作無疑浪費了遊戲中寶貴的資源和稍縱即逝的戰機。
退一步講,即使AI系統對這些物品和機制有人類無法理解的「獨特看法」,但是結合局勢來看,這些做法似乎不符合OpenAI團隊所說的「為全域最優設計的演算法」,反倒像是AI系統在通過不斷試錯,來找到物品的正確使用方法和機制背後蘊藏的原理。這或許是因為新的AI演算法還存在Bug和訓練時間不足。
OpenAI在泉水處瘋狂插眼。
縱觀8月中旬和TI 8的幾場比賽,OpenAI的系統似乎並沒有展現出太多的進步。雖然比賽規則有所調整,但是面對更加默契和高水準的職業隊伍時,AI系統精密計算的技能釋放和反應極快的微操可以驚豔觀眾,打贏遭遇戰,但是無法帶來勝利。
歸根結底,這是因為規則修改後的遊戲更加真實,同時頂級職業選手對Dota的理解更加成熟,比如抱團、刷野和帶線的時機;對戰術的執行更為徹底,比如黑皇杖等關鍵裝備出爐後的開霧抓人;針對不同局勢的出裝也更加靈活,比如關鍵英雄補出永恆之盤,防止被秒。
這些戰略上的部署是目前AI系統所缺失的,它還無法針對局勢制定和變化戰術。本質上講,如果人類選手的所有操作都可以被AI視為一種輸入值,那麼OpenAI的強大演算法就會處理這些輸入值,並產生相應的輸出值,即AI英雄的操作。顯而易見,AI通常可以完美地執行這些回饋操作,比如利用跳刀和風杖躲斧王跳吼。
然而AI系統缺少在無資訊情況下的主動的預測性行動,比如在特定位置被抓後進行反眼,在關鍵時間點組織開霧進攻,或者圍繞Roshan盾進行推進和反打。這種特徵在逆風局勢下尤為明顯,因為OpenAI作為被動的一方需要尋求突破口來打開局面,有效的戰術轉變是一種必須掌握的技能。
OpenAI重大事件時間軸(來源:DT君)
值得注意的是,OpenAI Five整個從零開始最終達到世界級職業玩家水準的道路中,並沒有使用任何人類提供的額外資料進行訓練。但在這次比賽結束後,如果開發團隊希望AI能夠更快地進步,他們真的需要考慮讓AI學習人類的經驗了。
更新時間|2023.09.12 20:27 臺北時間

支持鏡週刊

小心意大意義
小額贊助鏡週刊!

每月 $79 元全站看到飽
暢享無廣告閱讀體驗

延伸閱讀

更多內容,歡迎 鏡週刊紙本雜誌鏡週刊數位訂閱了解內容授權資訊

月費、年費會員免費線上閱讀動態雜誌

線上閱讀

更多內容,歡迎 鏡週刊紙本雜誌鏡週刊數位訂閱了解內容授權資訊

月費、年費會員免費線上閱讀動態雜誌

線上閱讀