從《王者榮耀》“開悟”中，窺見人工智能的未來

游戲是連接人工智能、教育和產(chǎn)業(yè)的媒介。

編輯彭楚微2023年05月18日 19時00分

現(xiàn)場采訪：彭楚微

撰稿：彭楚微、祝佳音

“您覺得強人工智能快要出現(xiàn)了嗎？”我問鄧民文。

“不管是聊天，還是做圖，目前還都屬于基本工具范疇里的進展。”鄧民文這么回答我。他坐在我的面前，似乎把采訪看成是啟發(fā)思考的討論。當(dāng)有人提醒我們問答要按照流程時，他揮揮手，示意大家輕松一點，這讓他有一點兒學(xué)者的氣度。

“比如人說話，不僅可以回顧過去，也能預(yù)測未來，目前的聊天機器人不能預(yù)測未來，因為它是基于歷史數(shù)據(jù)去做的，所以它對于預(yù)測是比較弱的。”鄧民文說，接著他又補上一句自謙的話：“這個是我的簡單思考?！?/p>

我和鄧民文聊的話題是最近火熱的人工智能。上周二，騰訊在成都舉行了本年度的STAC科創(chuàng)聯(lián)合大會。STAC，簡單理解，就是用技術(shù)聯(lián)結(jié)生活、聯(lián)結(jié)生產(chǎn)，而 “技術(shù)”，具體而言指的就是人工智能。

如鄧民文所說，目前的人工智能更為人熟知的是根據(jù)既定事實進行回顧和總結(jié)的功能，而少有從記憶中總結(jié)經(jīng)驗，從而“預(yù)測未來”的能力——按我的理解，這里所說的“未來”既包括數(shù)十年之后，也包括1秒之后。他說，“決策型人工智能”就是一種能“預(yù)測未來”的人工智能——模型根據(jù)未來的預(yù)期效益，決定此刻的行為。強化學(xué)習(xí)，是目前實現(xiàn)智能決策的最優(yōu)方法，按照他的說法，“開悟”平臺主要做的就是強化學(xué)習(xí)研究。

我和鄧民文不是第一次打交道。在2年前的程序員節(jié)上，我和他就聊過用《王者榮耀》訓(xùn)練人工智能的事兒。鄧民文是騰訊AI Lab智能計算中心總監(jiān)和“開悟”平臺的技術(shù)負責(zé)人，“開悟”是“騰訊牽頭構(gòu)建的，依托騰訊AI Lab和《王者榮耀》技術(shù)與研究環(huán)境的AI開放研究平臺”。

在那篇文章中，我打過一個比方：人工智能就像孩子，想要讓孩子懂事兒，你就需要教他知識，讓他在世界中奔跑以積累經(jīng)驗——“開悟”就是那個孩子，《王者榮耀》就是讓這個孩子積累經(jīng)驗的世界。

讓我們好奇的是，時至今日，當(dāng)初的孩子長大了嗎？

■ “AI向善”

先簡單介紹一下人工智能吧?！叭斯ぶ悄堋辈⒉皇且粋€新的術(shù)語，它已經(jīng)有幾十年的歷史了。大約在上世紀80年代初，計算機科學(xué)家們就開始設(shè)計可以學(xué)習(xí)和模仿人類行為的算法。如果說人工智能是個孩子，那么，你可以把算法看成這個孩子的教育方式。

現(xiàn)在，“開悟”平臺上的人們，正在讓人工智能進行強化學(xué)習(xí)。所謂“強化學(xué)習(xí)”，就是人工智能不僅能利用現(xiàn)有數(shù)據(jù)，還可以通過事先設(shè)計的獎勵規(guī)則，讓AI在行動中根據(jù)反饋自我修正，逐步學(xué)會正確的行為模式。

學(xué)習(xí)是為了更好地對環(huán)境進行探索，而探索是為了獲取數(shù)據(jù)反饋進行更好的學(xué)習(xí)。如果說深度學(xué)習(xí)是死記硬背式的學(xué)習(xí)方式，那么，強化學(xué)習(xí)更像是一個什么都不懂，但被放在考場中不斷考試的學(xué)生，通過分數(shù)（反饋）知道自己做對了什么，在大量嘗試中提高分數(shù)。

比起監(jiān)督學(xué)習(xí)需要的大量標注數(shù)據(jù)，強化學(xué)習(xí)的關(guān)鍵是讓人工智能自主地對環(huán)境進行感知和探索，在和環(huán)境交互過程中，產(chǎn)生大量數(shù)據(jù)?！叭绻阆雽崿F(xiàn)強人工智能，就要依賴特別多的數(shù)據(jù)，但是問題在于，現(xiàn)在很多場景數(shù)據(jù)不多?！编嚸裎膶ξ艺f道。

場景越復(fù)雜，越能模擬真實的環(huán)境，人工智能強化學(xué)習(xí)的效果就越好。在過去，學(xué)術(shù)界用的環(huán)境往往比較簡單，比如走迷宮，這些環(huán)境適合教育入門，卻無法對應(yīng)更深度的研究和發(fā)展。這種時候，游戲便自然而然地走入了研究者們的視野。最早是簡單的智力游戲，比如棋類，大名鼎鼎的AlphaGo就是這么干的，它可以同時開展很多對戰(zhàn)，通過對棋類游戲的規(guī)則模擬獲得海量的數(shù)據(jù)。

但棋類游戲是一個封閉系統(tǒng)。盡管它的空間復(fù)雜程度對于普通人來說難以想象，卻并不是人工智能的算力上限——概括地說，它不夠復(fù)雜，也不夠符合現(xiàn)實。

這時，研究者們就需要更加復(fù)雜的環(huán)境。多人對抗類游戲由此成為熱門選擇。早在2017年，《刀塔2》就曾開放內(nèi)部代碼供給研究團隊訓(xùn)練人工智能，第二年，名為Open AI的機器人就能在賽場上和職業(yè)玩家對戰(zhàn)。但其后，《刀塔2》很快停止了對人工智能訓(xùn)練的支持，國內(nèi)研究者也無從尋找合適的游戲進行學(xué)習(xí)。

同樣在2017年，《王者榮耀》團隊與騰訊AI Lab共同研發(fā)了策略協(xié)作型人工智能，這也就是現(xiàn)在玩家們耳熟能詳?shù)摹巴跽呓^悟”。按介紹所說，王者絕悟是深度強化學(xué)習(xí)、多智能體決策等智能課題上的重要研究成果——這得益于《王者榮耀》高復(fù)雜度、高挑戰(zhàn)性、強協(xié)作性等特征。介紹還說，因為《王者榮譽》能夠滿足研究人員的一系列要求，包括環(huán)境的不確定性、信息獲取的局限性、個體目標與全局目標的一致性（這些詞兒聽起來有些嚇人）。所以，2019年8月“開悟”平臺的上線，對人工智能的研究和發(fā)展具有重要意義。

如果再用棋類游戲來類比，圍棋和MOBA在狀態(tài)空間復(fù)雜度上有著明顯的差異。通俗地說，圍棋下一個子就是一次“狀態(tài)”變更，而MOBA游戲中，一個英雄每向前走一步，就算一個狀態(tài)變更，還要涉及到多個維度。以數(shù)字而言，一局圍棋的狀態(tài)空間大約是10的172次方，而一局《王者榮耀》則可高達10的20000次方。

鄧民文對我說：“我們提供的環(huán)境比較復(fù)雜，所以也給學(xué)術(shù)界提供了一種新的嘗試，它既有原來教育的簡單的環(huán)境，也有我們比較復(fù)雜的環(huán)境?！?/p>

鄧民文口中的新嘗試，指的是在2022年11月份， “開悟”平臺宣布正式開放“《王者榮耀》AI開放研究環(huán)境”申請。開放的環(huán)境基于《王者榮耀》1v1對局，用個簡單的例子，就是研究者們使用兩個AI來操控英雄相互戰(zhàn)斗。在《王者榮耀》中，戰(zhàn)斗的規(guī)則相對復(fù)雜——不僅要攻擊，要釋放技能，技能又影響到走位、狀態(tài)等等因素，所以非常適合用作學(xué)術(shù)上博弈問題的研究。

這種博弈環(huán)境比圍棋更加復(fù)雜，也更能夠挑起年輕人們的興趣——如今在視頻網(wǎng)站上有一種新潮的風(fēng)格，叫做“電子斗蛐蛐”，簡單來說就是讓自己調(diào)試好的AI在游戲中進行戰(zhàn)斗。年輕人大多是天然的玩家，《王者榮耀》又常常是他們第一款啟蒙游戲。誰能拒絕看兩個英雄在自己的學(xué)習(xí)成果下相互戰(zhàn)斗呢？

正因為“開悟”平臺同時滿足了研究者的興趣和要求，所以到目前為止，申請超過了400人次。這遠超出了鄧民文的想象。鄧民文告訴我，他原本并沒有很高的預(yù)期，因為這個領(lǐng)域的研究比較困難，研究這個領(lǐng)域的學(xué)者也不是很多。

“我們把它往前推了一步，從原來缺少的訓(xùn)練環(huán)境的現(xiàn)狀，這是我們覺得做得比較好的地方?！编嚸裎男α似饋?，還帶著點兒欣慰，其慈祥程度讓我想起望子多時的父母：當(dāng)初的孩子終于長大了些，可以對外做點什么了。

當(dāng)然，如今的“開悟”平臺不僅把教育和興趣相結(jié)合，也在理論和實際應(yīng)用之間承擔(dān)著橋梁的作用。就像本次大會的主題：“AI（愛）在——合則有靈，萬物共生”一樣，AI在從游戲中學(xué)到的知識將被用到和萬物相融的方向?！癆I向善”，是會上發(fā)言的嘉賓們不斷重復(fù)的一句話。

通過“開悟”平臺，研究者們可以有條件研究博弈問題，博弈的問題不僅是學(xué)術(shù)前沿的問題，也和現(xiàn)實生活息息相關(guān)。鄧民文告訴我：“研究機器人的路徑規(guī)劃、智能的物流，或者是交通燈，或者研究虛擬場景下兩個智能體的交互。這些場景下，我們這個《王者榮耀》的研究環(huán)境比較好，所以才會吸引到很多的學(xué)生以及老師去把這個環(huán)境下載下來。”

基于游戲虛擬場景，訓(xùn)練AI的通用能力，讓更智能的AI在各領(lǐng)域服務(wù)人類，是游戲AI研究的核心目標。舉個例子，假如AI在王者峽谷中，能夠快速分析瞬息萬變的環(huán)境和對手并作出決策，這個能力運用于同樣復(fù)雜的真實城市路況，就是自動駕駛AI的雛形；當(dāng)AI學(xué)會了如何控制5個隊友配合互助，或許就能在工業(yè)環(huán)境中操作多個機器人，完成復(fù)雜的生產(chǎn)任務(wù)。

和高校與科研團隊建立長期合作，將現(xiàn)實問題“請”到游戲之中，通過低成本的游戲環(huán)境去模擬和解決現(xiàn)實問題。最后，讓AI通過在游戲中學(xué)習(xí)去解決現(xiàn)實中的問題，正是本次大會“AI向善”主題下，“開悟”希望用游戲科技去探索的方向。

■ “人人有高光”

上午10點30分，和鄧民文聊過后，我回到會議廳。此時，《王者榮耀》對外宣布了新的賽事，并提出了“以賽促學(xué)，學(xué)以致用”的理念。在未來，所有高校的研究者都將能夠有機會使用“開悟”平臺，參與到“開悟”平臺的賽事之中，“人人有高光”。

“賽事”指的是2023騰訊開悟人工智能全國公開賽，在這之前，“開悟”平臺所舉辦的賽事都是以“邀請賽”的形式進行的。而在接下來的幾個月間，這項賽事將轉(zhuǎn)變?yōu)楣_賽。也就是說，在這次大會之后，全國大大小小的院校，不需要資格，就可以獲得由《王者榮耀》等平臺提供的研究資源、計算平臺、評估工具等等其他服務(wù)。

STAC科創(chuàng)聯(lián)合大會上，2023騰訊開悟人工智能全國公開賽正式發(fā)布

從這個意義上說，“人人有高光”不僅是說每個人都能參賽，也表示在人工智能科教方面，“開悟”平臺在逐步推動AI教育資源的普及——這些服務(wù)不僅面向重點大學(xué)，更會走進更多普通的本科和大專，開展機器學(xué)習(xí)、強化學(xué)習(xí)、多智能體決策等相關(guān)課程。鄧民文告訴我，將會有許多來自騰訊的老師前去各個高校分享教學(xué)經(jīng)驗。

“我們幫助一些高校的老師，培訓(xùn)他們使用我們的工具，這不是說我們就比老師們要更厲害，”鄧民文說，“而是我們前期跟4所高校的合作得到了一些經(jīng)驗，把這些經(jīng)驗分享給更多高校，就可以讓更多人學(xué)會怎么使用我們的工具去教學(xué)?！?/p>

根據(jù)騰訊提供的數(shù)據(jù)，“王者AI”相關(guān)課程合作高校數(shù)量從去年的4所增至今年的19所。有超過20個班級的學(xué)生參與了“王者AI”相關(guān)課程的學(xué)習(xí)，累計學(xué)生超過630名。

授人以魚不如授人以漁，這聽起來很鼓舞人心。

通過人工智能，《王者榮耀》以“開悟”平臺和高校教育相聯(lián)結(jié)。游戲是平等的，人人都可以拿起自己手機，在游戲中獲得屬于自己的高光時刻?！伴_悟”平臺不僅充當(dāng)了游戲、產(chǎn)業(yè)和教育的橋梁，也把游戲本身的平等氣質(zhì)帶給了大學(xué)生們。

雖然說起來很輕巧，但這同樣需要許多人的努力加上合適的時機才能促成。“開悟”平臺賽制的轉(zhuǎn)變是個有趣的例子。

從2020年8月的首屆“騰訊開悟MOBA多智能體強化學(xué)習(xí)”大賽起，通過3年的積累，賽事逐漸提升了平臺易用性，降低了賽題門檻；準備了體系化的人工智能課程，幫助參賽選手更好地學(xué)習(xí)和參與比賽。如今，也將會把課程和平臺引入高校課堂，把實踐教學(xué)與競賽聯(lián)系起來，實現(xiàn)‘以賽促學(xué)，學(xué)以致用’，讓高校學(xué)子有更大的平臺驗證和鍛煉自己。

根據(jù)“開悟”平臺官網(wǎng)的介紹，在今年，“開悟”將可供測試和研究人工智能的客戶端版本調(diào)整為了Web版本——這意味著電腦配置比較低的學(xué)生，也能夠使用“開悟”平臺來進行強化學(xué)習(xí)和多智能體相關(guān)的技術(shù)研究。同時，“開悟”也拓展了新的迷宮地圖——比傳統(tǒng)的峽谷PvP地圖更簡單。這一方面表示，更簡單的地圖能夠讓初次接觸相關(guān)領(lǐng)域的學(xué)生更輕松上手研究；同時，應(yīng)用到比賽中，也能降低相關(guān)賽事門檻。

在現(xiàn)場，當(dāng)宣布完騰訊“開悟”AI賽事將從往年的定向邀請模式改為公開報名模式的時候，我聽見一陣掌聲響起。當(dāng)時我正在會議廳門外站著，這給我提供了一個站在角落旁觀整個會場的機會，過了一會，我注意到周圍站了不少年輕人，掌聲也大多由他們而起。

他們是各個高校的學(xué)生，像是正在發(fā)芽的種子，接受著外界的陽光和雨露，他們知道自己想要什么，并為之鼓掌歡呼。他們也是中國人工智能產(chǎn)業(yè)的希望。

■ 寫在騰訊STAC?會后

成都的5月充滿了水和霧氣，這是萬物蓬勃生長的季節(jié)，給人一種希望感，正如這次大會給我的感覺。

人工智能正迎來猛烈發(fā)展的時期。在今年，國家出臺了一系列支持人工智能的規(guī)劃綱要和行動計劃，將人工智能明確為建設(shè)創(chuàng)新型國家，實現(xiàn)新型工業(yè)化、信息化，推動經(jīng)濟高質(zhì)量發(fā)展必不可少的技術(shù)基礎(chǔ)。隨著過去一年中，各類繪圖、聊天AI的出現(xiàn)，以AI為典型代表、基于大模型應(yīng)用的技術(shù)創(chuàng)新和產(chǎn)業(yè)成果，也開始在我國全面展開。

《王者榮耀》和“開悟”平臺正在做的事兒就是“播種”，通過自身的影響力為我國AI產(chǎn)業(yè)的未來播下希望的種子，并溫和地對待它們，盡力讓每一顆種子能夠擁有成長的條件。某種程度上，能夠這樣做，并選擇這樣做的《王者榮耀》是一款電子游戲理想的樣子：它好玩，影響力足夠大，并且足夠成功，在做好自己分內(nèi)事情的基礎(chǔ)上開始思考更大的命題：科學(xué)的發(fā)展、教育的公平，讓更多的人——無論玩游戲的人，還是不玩游戲的人——都變得更好。

3年來，“開悟”平臺播下的種子，其實已經(jīng)初見成效，騰訊與西南交大合作的智慧交通項目進行到了實驗階段，預(yù)計今年下半年進入校內(nèi)場景測試。

一切并沒有那么快，當(dāng)初的那個孩子，如今仍然沒有長大成人，它只是長大了一些。但所有人都是從孩童時代開始的，AI技術(shù)已經(jīng)開始在用自己的一點點努力去帶動更多人成長，并回報整個社會。