從《王者榮耀》“開悟”中,窺見人工智能的未來

游戲是連接人工智能、教育和產(chǎn)業(yè)的媒介。

編輯彭楚微2023年05月18日 19時00分

現(xiàn)場采訪:彭楚微

撰稿:彭楚微、祝佳音

“您覺得強人工智能快要出現(xiàn)了嗎?”我問鄧民文。

“不管是聊天,還是做圖,目前還都屬于基本工具范疇里的進展。”鄧民文這么回答我。他坐在我的面前,似乎把采訪看成是啟發(fā)思考的討論。當(dāng)有人提醒我們問答要按照流程時,他揮揮手,示意大家輕松一點,這讓他有一點兒學(xué)者的氣度。

“比如人說話,不僅可以回顧過去,也能預(yù)測未來,目前的聊天機器人不能預(yù)測未來,因為它是基于歷史數(shù)據(jù)去做的,所以它對于預(yù)測是比較弱的。”鄧民文說,接著他又補上一句自謙的話:“這個是我的簡單思考?!?/p>

我和鄧民文聊的話題是最近火熱的人工智能。上周二,騰訊在成都舉行了本年度的STAC科創(chuàng)聯(lián)合大會。STAC,簡單理解,就是用技術(shù)聯(lián)結(jié)生活、聯(lián)結(jié)生產(chǎn),而 “技術(shù)”,具體而言指的就是人工智能。

STAC科創(chuàng)聯(lián)合大會已經(jīng)舉辦到了第3屆

如鄧民文所說,目前的人工智能更為人熟知的是根據(jù)既定事實進行回顧和總結(jié)的功能,而少有從記憶中總結(jié)經(jīng)驗,從而“預(yù)測未來”的能力——按我的理解,這里所說的“未來”既包括數(shù)十年之后,也包括1秒之后。他說,“決策型人工智能”就是一種能“預(yù)測未來”的人工智能——模型根據(jù)未來的預(yù)期效益,決定此刻的行為。強化學(xué)習(xí),是目前實現(xiàn)智能決策的最優(yōu)方法,按照他的說法,“開悟”平臺主要做的就是強化學(xué)習(xí)研究。

我和鄧民文不是第一次打交道。在2年前的程序員節(jié)上,我和他就聊過用《王者榮耀》訓(xùn)練人工智能的事兒。鄧民文是騰訊AI Lab智能計算中心總監(jiān)和“開悟”平臺的技術(shù)負責(zé)人,“開悟”是“騰訊牽頭構(gòu)建的,依托騰訊AI Lab和《王者榮耀》技術(shù)與研究環(huán)境的AI開放研究平臺”。

在那篇文章中,我打過一個比方:人工智能就像孩子,想要讓孩子懂事兒,你就需要教他知識,讓他在世界中奔跑以積累經(jīng)驗——“開悟”就是那個孩子,《王者榮耀》就是讓這個孩子積累經(jīng)驗的世界。

讓我們好奇的是,時至今日,當(dāng)初的孩子長大了嗎?

“AI向善”

先簡單介紹一下人工智能吧?!叭斯ぶ悄堋辈⒉皇且粋€新的術(shù)語,它已經(jīng)有幾十年的歷史了。大約在上世紀80年代初,計算機科學(xué)家們就開始設(shè)計可以學(xué)習(xí)和模仿人類行為的算法。如果說人工智能是個孩子,那么,你可以把算法看成這個孩子的教育方式。

現(xiàn)在,“開悟”平臺上的人們,正在讓人工智能進行強化學(xué)習(xí)。所謂“強化學(xué)習(xí)”,就是人工智能不僅能利用現(xiàn)有數(shù)據(jù),還可以通過事先設(shè)計的獎勵規(guī)則,讓AI在行動中根據(jù)反饋自我修正,逐步學(xué)會正確的行為模式。

學(xué)習(xí)是為了更好地對環(huán)境進行探索,而探索是為了獲取數(shù)據(jù)反饋進行更好的學(xué)習(xí)。如果說深度學(xué)習(xí)是死記硬背式的學(xué)習(xí)方式,那么,強化學(xué)習(xí)更像是一個什么都不懂,但被放在考場中不斷考試的學(xué)生,通過分數(shù)(反饋)知道自己做對了什么,在大量嘗試中提高分數(shù)。

比起監(jiān)督學(xué)習(xí)需要的大量標注數(shù)據(jù),強化學(xué)習(xí)的關(guān)鍵是讓人工智能自主地對環(huán)境進行感知和探索,在和環(huán)境交互過程中,產(chǎn)生大量數(shù)據(jù)?!叭绻阆雽崿F(xiàn)強人工智能,就要依賴特別多的數(shù)據(jù),但是問題在于,現(xiàn)在很多場景數(shù)據(jù)不多?!编嚸裎膶ξ艺f道。

鄧民文在STAC科創(chuàng)聯(lián)合大會上

場景越復(fù)雜,越能模擬真實的環(huán)境,人工智能強化學(xué)習(xí)的效果就越好。在過去,學(xué)術(shù)界用的環(huán)境往往比較簡單,比如走迷宮,這些環(huán)境適合教育入門,卻無法對應(yīng)更深度的研究和發(fā)展。這種時候,游戲便自然而然地走入了研究者們的視野。最早是簡單的智力游戲,比如棋類,大名鼎鼎的AlphaGo就是這么干的,它可以同時開展很多對戰(zhàn),通過對棋類游戲的規(guī)則模擬獲得海量的數(shù)據(jù)。

但棋類游戲是一個封閉系統(tǒng)。盡管它的空間復(fù)雜程度對于普通人來說難以想象,卻并不是人工智能的算力上限——概括地說,它不夠復(fù)雜,也不夠符合現(xiàn)實。

這時,研究者們就需要更加復(fù)雜的環(huán)境。多人對抗類游戲由此成為熱門選擇。早在2017年,《刀塔2》就曾開放內(nèi)部代碼供給研究團隊訓(xùn)練人工智能,第二年,名為Open AI的機器人就能在賽場上和職業(yè)玩家對戰(zhàn)。但其后,《刀塔2》很快停止了對人工智能訓(xùn)練的支持,國內(nèi)研究者也無從尋找合適的游戲進行學(xué)習(xí)。

如今,Open AI與《刀塔2》的故事已經(jīng)家喻戶曉

同樣在2017年,《王者榮耀》團隊與騰訊AI Lab共同研發(fā)了策略協(xié)作型人工智能,這也就是現(xiàn)在玩家們耳熟能詳?shù)摹巴跽呓^悟”。按介紹所說,王者絕悟是深度強化學(xué)習(xí)、多智能體決策等智能課題上的重要研究成果——這得益于《王者榮耀》高復(fù)雜度、高挑戰(zhàn)性、強協(xié)作性等特征。介紹還說,因為《王者榮譽》能夠滿足研究人員的一系列要求,包括環(huán)境的不確定性、信息獲取的局限性、個體目標與全局目標的一致性(這些詞兒聽起來有些嚇人)。所以,2019年8月“開悟”平臺的上線,對人工智能的研究和發(fā)展具有重要意義。

如果再用棋類游戲來類比,圍棋和MOBA在狀態(tài)空間復(fù)雜度上有著明顯的差異。通俗地說,圍棋下一個子就是一次“狀態(tài)”變更,而MOBA游戲中,一個英雄每向前走一步,就算一個狀態(tài)變更,還要涉及到多個維度。以數(shù)字而言,一局圍棋的狀態(tài)空間大約是10的172次方,而一局《王者榮耀》則可高達10的20000次方。

鄧民文對我說:“我們提供的環(huán)境比較復(fù)雜,所以也給學(xué)術(shù)界提供了一種新的嘗試,它既有原來教育的簡單的環(huán)境,也有我們比較復(fù)雜的環(huán)境?!?/p>

鄧民文口中的新嘗試,指的是在2022年11月份, “開悟”平臺宣布正式開放“《王者榮耀》AI開放研究環(huán)境”申請。開放的環(huán)境基于《王者榮耀》1v1對局,用個簡單的例子,就是研究者們使用兩個AI來操控英雄相互戰(zhàn)斗。在《王者榮耀》中,戰(zhàn)斗的規(guī)則相對復(fù)雜——不僅要攻擊,要釋放技能,技能又影響到走位、狀態(tài)等等因素,所以非常適合用作學(xué)術(shù)上博弈問題的研究。

這種博弈環(huán)境比圍棋更加復(fù)雜,也更能夠挑起年輕人們的興趣——如今在視頻網(wǎng)站上有一種新潮的風(fēng)格,叫做“電子斗蛐蛐”,簡單來說就是讓自己調(diào)試好的AI在游戲中進行戰(zhàn)斗。年輕人大多是天然的玩家,《王者榮耀》又常常是他們第一款啟蒙游戲。誰能拒絕看兩個英雄在自己的學(xué)習(xí)成果下相互戰(zhàn)斗呢?

AI也可以在峽谷中展開博弈

正因為“開悟”平臺同時滿足了研究者的興趣和要求,所以到目前為止,申請超過了400人次。這遠超出了鄧民文的想象。鄧民文告訴我,他原本并沒有很高的預(yù)期,因為這個領(lǐng)域的研究比較困難,研究這個領(lǐng)域的學(xué)者也不是很多。

“我們把它往前推了一步,從原來缺少的訓(xùn)練環(huán)境的現(xiàn)狀,這是我們覺得做得比較好的地方?!编嚸裎男α似饋?,還帶著點兒欣慰,其慈祥程度讓我想起望子多時的父母:當(dāng)初的孩子終于長大了些,可以對外做點什么了。

當(dāng)然,如今的“開悟”平臺不僅把教育和興趣相結(jié)合,也在理論和實際應(yīng)用之間承擔(dān)著橋梁的作用。就像本次大會的主題:“AI(愛)在——合則有靈,萬物共生”一樣,AI在從游戲中學(xué)到的知識將被用到和萬物相融的方向?!癆I向善”,是會上發(fā)言的嘉賓們不斷重復(fù)的一句話。

通過“開悟”平臺,研究者們可以有條件研究博弈問題,博弈的問題不僅是學(xué)術(shù)前沿的問題,也和現(xiàn)實生活息息相關(guān)。鄧民文告訴我:“研究機器人的路徑規(guī)劃、智能的物流,或者是交通燈,或者研究虛擬場景下兩個智能體的交互。這些場景下,我們這個《王者榮耀》的研究環(huán)境比較好,所以才會吸引到很多的學(xué)生以及老師去把這個環(huán)境下載下來。”

基于游戲虛擬場景,訓(xùn)練AI的通用能力,讓更智能的AI在各領(lǐng)域服務(wù)人類,是游戲AI研究的核心目標。舉個例子,假如AI在王者峽谷中,能夠快速分析瞬息萬變的環(huán)境和對手并作出決策,這個能力運用于同樣復(fù)雜的真實城市路況,就是自動駕駛AI的雛形;當(dāng)AI學(xué)會了如何控制5個隊友配合互助,或許就能在工業(yè)環(huán)境中操作多個機器人,完成復(fù)雜的生產(chǎn)任務(wù)。

和高校與科研團隊建立長期合作,將現(xiàn)實問題“請”到游戲之中,通過低成本的游戲環(huán)境去模擬和解決現(xiàn)實問題。最后,讓AI通過在游戲中學(xué)習(xí)去解決現(xiàn)實中的問題,正是本次大會“AI向善”主題下,“開悟”希望用游戲科技去探索的方向。

“人人有高光”

上午10點30分,和鄧民文聊過后,我回到會議廳。此時,《王者榮耀》對外宣布了新的賽事,并提出了“以賽促學(xué),學(xué)以致用”的理念。在未來,所有高校的研究者都將能夠有機會使用“開悟”平臺,參與到“開悟”平臺的賽事之中,“人人有高光”。

“賽事”指的是2023騰訊開悟人工智能全國公開賽,在這之前,“開悟”平臺所舉辦的賽事都是以“邀請賽”的形式進行的。而在接下來的幾個月間,這項賽事將轉(zhuǎn)變?yōu)楣_賽。也就是說,在這次大會之后,全國大大小小的院校,不需要資格,就可以獲得由《王者榮耀》等平臺提供的研究資源、計算平臺、評估工具等等其他服務(wù)。

STAC科創(chuàng)聯(lián)合大會上,2023騰訊開悟人工智能全國公開賽正式發(fā)布

從這個意義上說,“人人有高光”不僅是說每個人都能參賽,也表示在人工智能科教方面,“開悟”平臺在逐步推動AI教育資源的普及——這些服務(wù)不僅面向重點大學(xué),更會走進更多普通的本科和大專,開展機器學(xué)習(xí)、強化學(xué)習(xí)、多智能體決策等相關(guān)課程。鄧民文告訴我,將會有許多來自騰訊的老師前去各個高校分享教學(xué)經(jīng)驗。

“我們幫助一些高校的老師,培訓(xùn)他們使用我們的工具,這不是說我們就比老師們要更厲害,”鄧民文說,“而是我們前期跟4所高校的合作得到了一些經(jīng)驗,把這些經(jīng)驗分享給更多高校,就可以讓更多人學(xué)會怎么使用我們的工具去教學(xué)?!?/p>

根據(jù)騰訊提供的數(shù)據(jù),“王者AI”相關(guān)課程合作高校數(shù)量從去年的4所增至今年的19所。有超過20個班級的學(xué)生參與了“王者AI”相關(guān)課程的學(xué)習(xí),累計學(xué)生超過630名。

授人以魚不如授人以漁,這聽起來很鼓舞人心。

通過人工智能,《王者榮耀》以“開悟”平臺和高校教育相聯(lián)結(jié)。游戲是平等的,人人都可以拿起自己手機,在游戲中獲得屬于自己的高光時刻?!伴_悟”平臺不僅充當(dāng)了游戲、產(chǎn)業(yè)和教育的橋梁,也把游戲本身的平等氣質(zhì)帶給了大學(xué)生們。

雖然說起來很輕巧,但這同樣需要許多人的努力加上合適的時機才能促成。“開悟”平臺賽制的轉(zhuǎn)變是個有趣的例子。

從2020年8月的首屆“騰訊開悟MOBA多智能體強化學(xué)習(xí)”大賽起,通過3年的積累,賽事逐漸提升了平臺易用性,降低了賽題門檻;準備了體系化的人工智能課程,幫助參賽選手更好地學(xué)習(xí)和參與比賽。如今,也將會把課程和平臺引入高校課堂,把實踐教學(xué)與競賽聯(lián)系起來,實現(xiàn)‘以賽促學(xué),學(xué)以致用’,讓高校學(xué)子有更大的平臺驗證和鍛煉自己。

第3屆騰訊多智能體強化學(xué)習(xí)大賽冠、亞、季軍

根據(jù)“開悟”平臺官網(wǎng)的介紹,在今年,“開悟”將可供測試和研究人工智能的客戶端版本調(diào)整為了Web版本——這意味著電腦配置比較低的學(xué)生,也能夠使用“開悟”平臺來進行強化學(xué)習(xí)和多智能體相關(guān)的技術(shù)研究。同時,“開悟”也拓展了新的迷宮地圖——比傳統(tǒng)的峽谷PvP地圖更簡單。這一方面表示,更簡單的地圖能夠讓初次接觸相關(guān)領(lǐng)域的學(xué)生更輕松上手研究;同時,應(yīng)用到比賽中,也能降低相關(guān)賽事門檻。

在現(xiàn)場,當(dāng)宣布完騰訊“開悟”AI賽事將從往年的定向邀請模式改為公開報名模式的時候,我聽見一陣掌聲響起。當(dāng)時我正在會議廳門外站著,這給我提供了一個站在角落旁觀整個會場的機會,過了一會,我注意到周圍站了不少年輕人,掌聲也大多由他們而起。

他們是各個高校的學(xué)生,像是正在發(fā)芽的種子,接受著外界的陽光和雨露,他們知道自己想要什么,并為之鼓掌歡呼。他們也是中國人工智能產(chǎn)業(yè)的希望。

寫在騰訊STAC?會后

成都的5月充滿了水和霧氣,這是萬物蓬勃生長的季節(jié),給人一種希望感,正如這次大會給我的感覺。

人工智能正迎來猛烈發(fā)展的時期。在今年,國家出臺了一系列支持人工智能的規(guī)劃綱要和行動計劃,將人工智能明確為建設(shè)創(chuàng)新型國家,實現(xiàn)新型工業(yè)化、信息化,推動經(jīng)濟高質(zhì)量發(fā)展必不可少的技術(shù)基礎(chǔ)。隨著過去一年中,各類繪圖、聊天AI的出現(xiàn),以AI為典型代表、基于大模型應(yīng)用的技術(shù)創(chuàng)新和產(chǎn)業(yè)成果,也開始在我國全面展開。

《王者榮耀》和“開悟”平臺正在做的事兒就是“播種”,通過自身的影響力為我國AI產(chǎn)業(yè)的未來播下希望的種子,并溫和地對待它們,盡力讓每一顆種子能夠擁有成長的條件。某種程度上,能夠這樣做,并選擇這樣做的《王者榮耀》是一款電子游戲理想的樣子:它好玩,影響力足夠大,并且足夠成功,在做好自己分內(nèi)事情的基礎(chǔ)上開始思考更大的命題:科學(xué)的發(fā)展、教育的公平,讓更多的人——無論玩游戲的人,還是不玩游戲的人——都變得更好。

3年來,“開悟”平臺播下的種子,其實已經(jīng)初見成效,騰訊與西南交大合作的智慧交通項目進行到了實驗階段,預(yù)計今年下半年進入校內(nèi)場景測試。

一切并沒有那么快,當(dāng)初的那個孩子,如今仍然沒有長大成人,它只是長大了一些。但所有人都是從孩童時代開始的,AI技術(shù)已經(jīng)開始在用自己的一點點努力去帶動更多人成長,并回報整個社會。

騰訊AI Lab總經(jīng)理楊巍

“最困難(的時候)是我們之前跟《王者榮耀》一起做這件事情時,我們做這件事情,可以說是史無前例的?!痹诓稍L的尾聲,騰訊AI Lab總經(jīng)理楊巍這樣對我說。

既史無前例,也希望無窮。

0

編輯 彭楚微

3078417601@qq.com

頭腦復(fù)雜的傻瓜。

查看更多彭楚微的文章
關(guān)閉窗口