2018.08.27 18:13 臺北時間

AI在DOTA 2頂級賽事上一敗塗地　這究竟意味著什麼？

發布時間：2018.08.27 18:13 臺北時間

更新時間：2023.09.12 20:27 臺北時間

文

DeepTech深科技

攝影

DeepTech深科技

已複製連結

贊助本文

選手深科技玩家電玩 AI技術電競遊戲

隨著OpenAI Five被1支中國隊伍打敗以及另一場失敗，AI提前結束了其在本屆DOTA 2國際頂尖賽事TI 8的旅程。

回顧這兩場比賽，雖然AI在比賽的前20-35分鐘內保持了很好的獲勝機會，但OpenAI Five最終仍沒有把握住機會：第1場比賽AI對陣世界排名前18的隊伍的paiN Gaming，比賽持續了大約51分鐘（一般比賽持續40分鐘）；在第2場比賽中，AI對陣由中國退役頂尖玩家組成的隊伍，其中3人曾在一支明星隊伍中比賽過，在經歷了一些精彩額來回戰鬥後，人類45分鐘後獲勝。

OpenAI Five在比賽中確實展現了自己一定的實力，根據OpenAI賽後發佈的博客文章，導致失敗的主要原因是對戰的遊戲玩家明顯實力比AI高出不少量級 ，如今年5月以來玩家排名的圖表所示：
各個隊伍的實力分佈。（翻攝自OpenAI）除此之外，缺乏戰略規劃也導致了AI的失敗。
「我們並不感到震驚」OpenAI成員Filip Wolski賽後對媒體表示。「我們以極高的不確定性參加了比賽。我們不知道某些因素，比如在比賽那天我們會對戰誰」。
在週三遭遇首次失敗之後，開發人員也重新調整了AI的獎勵系統，試圖最大限度地獲得勝利的機會。Wolski向表示：「當機器人贏得比賽時，最大的回報是給予獎勵……這個項目讓我們經歷了很多不眠之夜，我們會休息一下，並考慮是否為AI上傳新的超參數。我們將繼續研究Dota 2，以便更好地使用越來越少的限制來玩遊戲。」
總體來說，在保留一定限制的前提下，OpenAI的系統仍然無法全面理解DOTA複雜的遊戲系統和規則，比如對偵查守衛和詭計之霧的錯誤使用，站在Roshan洞穴發呆，將Roshan復活盾交給輔助等等。這些行為和操作無疑浪費了遊戲中寶貴的資源和稍縱即逝的戰機。

退一步講，即使AI系統對這些物品和機制有人類無法理解的「獨特看法」，但是結合局勢來看，這些做法似乎不符合OpenAI團隊所說的「為全域最優設計的演算法」，反倒像是AI系統在通過不斷試錯，來找到物品的正確使用方法和機制背後蘊藏的原理。這或許是因為新的AI演算法還存在Bug和訓練時間不足。
OpenAI在泉水處瘋狂插眼。縱觀8月中旬和TI 8的幾場比賽，OpenAI的系統似乎並沒有展現出太多的進步。雖然比賽規則有所調整，但是面對更加默契和高水準的職業隊伍時，AI系統精密計算的技能釋放和反應極快的微操可以驚豔觀眾，打贏遭遇戰，但是無法帶來勝利。
歸根結底，這是因為規則修改後的遊戲更加真實，同時頂級職業選手對Dota的理解更加成熟，比如抱團、刷野和帶線的時機；對戰術的執行更為徹底，比如黑皇杖等關鍵裝備出爐後的開霧抓人；針對不同局勢的出裝也更加靈活，比如關鍵英雄補出永恆之盤，防止被秒。
這些戰略上的部署是目前AI系統所缺失的，它還無法針對局勢制定和變化戰術。本質上講，如果人類選手的所有操作都可以被AI視為一種輸入值，那麼OpenAI的強大演算法就會處理這些輸入值，並產生相應的輸出值，即AI英雄的操作。顯而易見，AI通常可以完美地執行這些回饋操作，比如利用跳刀和風杖躲斧王跳吼。
然而AI系統缺少在無資訊情況下的主動的預測性行動，比如在特定位置被抓後進行反眼，在關鍵時間點組織開霧進攻，或者圍繞Roshan盾進行推進和反打。這種特徵在逆風局勢下尤為明顯，因為OpenAI作為被動的一方需要尋求突破口來打開局面，有效的戰術轉變是一種必須掌握的技能。
OpenAI重大事件時間軸（來源：DT君）值得注意的是，OpenAI Five整個從零開始最終達到世界級職業玩家水準的道路中，並沒有使用任何人類提供的額外資料進行訓練。但在這次比賽結束後，如果開發團隊希望AI能夠更快地進步，他們真的需要考慮讓AI學習人類的經驗了。
本文係由DeepTech深科技（微信公眾號ID: mit-tr）授權刊登。原文連結：AI在DOTA 2顶级赛事上一败涂地，这究竟意味着什么？