很多人喜歡說,“游戲不只是游戲”,在一定程度上,游戲技術(shù)亦然。
“有沒有一種可能,你們發(fā)現(xiàn)AI比評估它的高手更聰明,高手已經(jīng)看不懂了?”我問阿文。
“這是個很好的問題?!卑⑽脑陔娫捓锘卮鹞?。他就像一個真正的老師,或者學(xué)者那樣,在采訪過程中,偶爾喜歡說“這是個很好的問題”,按我的理解,大概這就說明他對回答這個問題很有興趣。阿文說:“現(xiàn)在我們的一些AI已經(jīng)超過了公司內(nèi)高手的評價水平,當(dāng)然,我們同事玩《王者榮耀》的水平畢竟不都是特別強(qiáng)的,當(dāng)AI的段位比他們還高的時候,他們就評估不了AI的水平了。這時候,我們就必須找一些更強(qiáng)的玩家,去社會上找也好,去找半職業(yè)選手也好……總之,到了這個階段,我們確實(shí)就很難給AI打分了。
我和阿文正在聊用《王者榮耀》訓(xùn)練人工智能的事兒。簡單說起來,這事兒是這樣的:你有一個初始的AI(你總該知道AI大概是什么意思),或者叫一個深度學(xué)習(xí)訓(xùn)練的模型。你需要編寫一些程序讓這個AI通過通用接口讀取游戲信息,并輸出操作信息——我們可以簡單地把這個過程形容為“讓AI開始玩《王者榮耀》”。
接下來的工作就是“訓(xùn)練”AI。在我和阿文的對話中,“AI”這個寬泛的名詞其實(shí)是個代稱,實(shí)際上,我們在說的是“開悟”。按官網(wǎng)上的介紹,“開悟”是“騰訊牽頭構(gòu)建的,依托騰訊AI Lab和《王者榮耀》的AI多智能體與復(fù)雜決策開放研究平臺”。
我也可以用一個更簡單的描述,開悟是騰訊研發(fā)的深度學(xué)習(xí)平臺。所謂“深度學(xué)習(xí)”,簡單來說,就是AI通過海量的實(shí)例和嘗試,總結(jié)和歸納出規(guī)律,并最終具備某種能力的過程。
或許你覺得這么說還是有些抽象,那我可以再說得直觀一點(diǎn)(不過要知道,越直觀,越便于理解,對它的形容就越不精確)。AI就像孩子,想要讓孩子懂事兒,你就需要教他知識,讓他在世界中奔跑以積累經(jīng)驗(yàn),孩子在一次一次嘗試中了解社會,獲得經(jīng)驗(yàn),以應(yīng)對更大的挑戰(zhàn)——我們幾乎都是這樣成長起來的。
王者開悟就是那個孩子,《王者榮耀》就是讓這個孩子積累經(jīng)驗(yàn)的世界。
游戲深度學(xué)習(xí)這事兒,大多數(shù)人都是從人工智能科技公司DeepMind的相關(guān)報道中得到啟蒙。你總該聽說過“阿爾法狗”(AlphaGo),AlphaGo就是DeepMind研發(fā)的人工智能。2015年,DeepMind第一次進(jìn)入公共視野。后來的事情就比較轟動了,他們的AI,AlphaGo橫掃圍棋棋壇,引來一大堆人驚呼未來是否是AI的(就像無數(shù)科幻小說每5年就要時髦一次的話題那樣),再之后,AlphaGo開始將目光轉(zhuǎn)向《星際爭霸2》。
在這一步上,公眾對于AlphaGo的認(rèn)識出現(xiàn)了幾個誤區(qū),首先是將AI轉(zhuǎn)向不同項(xiàng)目的難度。很多人覺得這沒什么難的,拔下幾根接頭,插到另外的機(jī)器上,AI就可以在新游戲中傲視四方——在現(xiàn)實(shí)生活中,一個人被稱作“游戲高手”,通常意味著他對幾乎所有游戲都具備過人的理解力和操作能力。
AI不是這樣。在采訪中,阿文告訴我,AI“能力的遷移是一件比較困難的工作”。簡單來說,按我的理解,一個AI下圍棋可以,但直接用來下象棋就沒戲。一個AI玩《星際爭霸2》可以,但直接拿去玩《王者榮耀》就完全不行。還是用阿文的話說,“設(shè)計模型在領(lǐng)域和領(lǐng)域之間是很難遷移的”。
第二個誤區(qū)是很多人會把“電腦難度”和“AI”混淆,很多人覺得游戲中的“AI”已經(jīng)很強(qiáng)。比如說《星際爭霸2》,如果你選了高難度電腦,那想要獲得勝利的確不太容易——但我們所說的AI和游戲中的“電腦難度”關(guān)系并不大。簡單來說,游戲中的難度往往通過各種方式實(shí)現(xiàn)。你在游戲中的電腦對手可以看到游戲內(nèi)所有的數(shù)據(jù):在RTS中,機(jī)器人知道你在哪里,你建造了哪些兵種,你的部隊(duì)調(diào)動去什么方向;在FPS游戲中,你的對手往往有數(shù)倍于你的血量——總而言之,在游戲中,電腦往往通過作弊的方式讓玩家覺得“難度提升”。
但用以訓(xùn)練的AI不同,它在游戲中獲得的信息不比任何一個普通玩家多,AI需要在復(fù)雜的游戲環(huán)境中觀察周圍,進(jìn)行判斷,再做出選擇。
這些知識都是阿文和老劉在采訪中告訴我的。阿文是騰訊AI Lab的研究員,老劉是騰訊互娛天美工作室群的研發(fā)工程師,兩個人在電話中接受了我的采訪。
“我們差不多2016年就開始商量要做AI,然后一直合作到現(xiàn)在?!崩蟿ξ艺f。然后他向我講述了合作開始時的情景:“當(dāng)時AI Lab的領(lǐng)導(dǎo)和天美的領(lǐng)導(dǎo)在一次騰訊內(nèi)部的會議上遇到,兩人相談甚歡,然后一拍即合,決定要做這件事?!?/p>
合作開展得非常順利,天美將部分游戲數(shù)據(jù)開放給AI Lab,并派出了經(jīng)驗(yàn)最豐富的同事和AI Lab一起探討如何訓(xùn)練這個AI。
就像本章一開始說的那樣,AI能力的遷移是很困難的工作,具體到《王者榮耀》這款游戲,AI訓(xùn)練的重點(diǎn)又和《星際爭霸2》不同,在《王者榮耀》中,玩家需要和另外4位隊(duì)友配合,重點(diǎn)就放到了多個AI之間的相互協(xié)同和配合上——用阿文的說法,重點(diǎn)在于“多智能體的博弈策略”。
這種博弈策略通過海量的訓(xùn)練學(xué)習(xí)而來,學(xué)習(xí)的方法也很簡單,讓AI不停玩游戲,同時進(jìn)行數(shù)萬局比賽,每一個AI在每一局的每一分鐘都在生成新的版本,這看起來像一個生物快速進(jìn)化的過程,不同的版本相互PK、競爭,勝者存留,敗者淘汰。簡單點(diǎn)說,就是在實(shí)戰(zhàn)中進(jìn)行驗(yàn)證,對手一個技能打過來,往左躲還是往前沖,哪種行動帶來的收益會更高——當(dāng)然,實(shí)際情況可能更復(fù)雜。支持這種進(jìn)化過程的是由數(shù)量驚人的服務(wù)器組成的集群,這也是AI之于人的優(yōu)勢,“開悟在兩周內(nèi)的學(xué)習(xí)成果相當(dāng)于一個人持續(xù)間斷不停地玩幾千年”。
在我想寫這篇文章之前,我曾經(jīng)大致想過要以什么角度切入。媒體對技術(shù)人員有一些固化印象,包括但不限于不擅言辭、不喜歡社交,在某個方面很強(qiáng)但在某些方面相當(dāng)木訥。媒體經(jīng)常通過臉譜化技術(shù)人員的方式引發(fā)讀者的愉悅。在《生活大爆炸》獲得成功后,技術(shù)人員仿佛有了統(tǒng)一的性格,一個不通人情世故的編程天才?這聽起來當(dāng)然很吸引人。
但事實(shí)當(dāng)然不是這樣。讓我們忘記那些臉譜化的技術(shù)人員形象,我在寫這篇文章的過程中采訪了許多優(yōu)秀的程序員,除了那些我們認(rèn)為技術(shù)人員應(yīng)該具備的特質(zhì),思維縝密、邏輯嚴(yán)謹(jǐn)之外,他們還擁有優(yōu)秀的表達(dá)技巧,以及能被感受到的巨大熱情。我在這篇文章的寫作過程中采訪了一些在天美工作的技術(shù)人員,除了剛才提到的阿文和老劉,還有毛星云。
毛星云,網(wǎng)名“淺墨”,游戲開發(fā)技術(shù)圈里不少人知道這個名字——他是《實(shí)時渲染(第四版)》(Real-Time Rendering 4th,簡稱RTR4)的翻譯者?!癛TR”系列書籍一直被實(shí)時渲染以及計算機(jī)圖形學(xué)領(lǐng)域認(rèn)為是“圣經(jīng)”般的存在。毛星云也一直在知乎上分享自己對技術(shù)的理解、答疑解惑,以及,為項(xiàng)目招人。
毛星云從小就喜歡玩游戲,“在一個虛擬的世界里去扮演不同角色,去實(shí)現(xiàn)不同的目標(biāo)”,這讓他感覺“確實(shí)體會到了不同的人生”。他對游戲的發(fā)展史也比較感興趣,后來,機(jī)緣巧合,他看了《DOOM啟示錄》,由此決定進(jìn)入游戲行業(yè)。
現(xiàn)在,毛星云是天美F1工作室的引擎技術(shù)負(fù)責(zé)人之一。天美F1是一個全新的工作室,F(xiàn)代表Future,未來。
就在前幾天,毛星云在知乎發(fā)貼,對外首次披露了天美F1的情況。他著重介紹了開放世界項(xiàng)目的研發(fā)積累。我問他為什么發(fā)帖,他告訴我:“其實(shí)我們一直在埋頭進(jìn)行研發(fā)和攻堅(jiān),發(fā)帖只是為了分享我們的進(jìn)展,在技術(shù)圈子里招人,吸引更多志同道合的人,尤其是那種做過3A、有點(diǎn)理想、技術(shù)牛的行業(yè)大佬的加入?!?/p>
毛星云在談起他的工作時會更多地說起技術(shù)。在被問起“最難忘的時刻”時,他回答說是“技術(shù)研發(fā)的過程中,將研發(fā)出的多個高質(zhì)量的技術(shù)模塊整合到一起的時候”。隨后,他提出了一大堆的術(shù)語:“包括高品質(zhì)的著色模型、動態(tài)的光照氛圍、基于物理的可交互植被系統(tǒng)、基于物理的風(fēng)場系統(tǒng),以及動態(tài)地形形變系統(tǒng),結(jié)合實(shí)時光線追蹤加持下的反射、陰影和環(huán)境光遮蔽后,最后呈現(xiàn)出來的整體畫面,有一種虛擬世界躍然紙上的感覺?!?/p>
坦白講,這些內(nèi)容我有點(diǎn)兒一知半解,但我能感受到他的熱情。毛星云喜歡他在做的事兒。“我們在做的一些工作,我們所從事的行業(yè),正在不斷地突破虛擬和真實(shí)的邊界,這是一件讓人特別激動的事情?!?/p>
也許正是這種熱情支持著毛星云不斷地進(jìn)行知識分享,從學(xué)生時代開始,他就有寫技術(shù)博客的習(xí)慣,在CSDN這樣的地方有極高的知名度,在承接《實(shí)時渲染技術(shù)第四版》的翻譯工作之前,他就寫了流傳甚廣的系列教程《〈Real-Time Rendering 3rd〉提煉總結(jié)》。
他在一定程度讓我想到互聯(lián)網(wǎng)的原初時代——人們無私地奉獻(xiàn)著自己的知識、經(jīng)驗(yàn)和才華,并從中獲得成就感。這種行為幾乎是完全利它的。分享者并不能從中得到什么物質(zhì)意義上的好處,他們所能得到只有幫助他人及促進(jìn)科技發(fā)展的快樂(哪怕只有一點(diǎn)點(diǎn))。
在天美,利用休息時間進(jìn)行知識分享的人當(dāng)然不止毛星云。戈登是天美的游戲研究員,他的日常工作是“給各種開發(fā)小組提供產(chǎn)品的參考策略,比如市場表現(xiàn)、DAU什么的,有時候我們也會講一些比較長遠(yuǎn)的東西,比如游戲的設(shè)計邏輯或者是情感表達(dá)。”在閑暇時間里,戈登組織了一個前綴中帶有“天美”的公眾賬號(大概是因?yàn)椴缓靡馑迹幌胱屛艺f出這個賬號的名稱)。戈登承擔(dān)了這個賬號的大部分工作——寫一些非常有趣、翔實(shí)的游戲科普類文章。這些同樣是無償?shù)?,?qū)動他做這些的原因在我看來很簡單,就是對于游戲的愛。
無論是王者開悟的合作,還是毛星云、戈登在知乎上的分享,我們都能從他們身上看到“臉譜化”之外的一些特性,我將其稱之為“開源文化”。和技術(shù)圈子近年來流行的代碼開源一脈相承,這群搞技術(shù)的人特別熱愛分享、喜歡探索,并非常熱衷于將探索結(jié)果進(jìn)行碰撞,以擦出不一樣的火花。而這種“開源”精神,不僅僅局限在游戲本身。在采訪過程中,我問阿文,為什么是天美和《王者榮耀》在做AI深度學(xué)習(xí)這件事兒?AI深度學(xué)習(xí)這件事兒幾乎完美地符合“不明覺厲”的形容。我們都清楚它是未來,我們都知道它能做許多事,但我的問題是,為什么這件事和“游戲”有關(guān)?
“其實(shí)很多研究人員已經(jīng)發(fā)現(xiàn)了,游戲是強(qiáng)化學(xué)習(xí)的最好戰(zhàn)場。”阿文告訴我。
還是讓我們從“深度學(xué)習(xí)”和“強(qiáng)化學(xué)習(xí)”的區(qū)別說起?!拔覀兺ǔUf的深度學(xué)習(xí)要依賴于人類給的數(shù)據(jù),AI基于這份數(shù)據(jù)進(jìn)行升級;而強(qiáng)化學(xué)習(xí)則可以在人類提供的數(shù)據(jù)的基礎(chǔ)上進(jìn)行自我演算,基于演算結(jié)果推出更優(yōu)解??梢赃@么理解,深度學(xué)習(xí)的情況下,AI始終需要人類提供數(shù)據(jù)協(xié)助更新,而強(qiáng)化學(xué)習(xí)的情況下,AI會自己動腦子。”阿文告訴我,然后他補(bǔ)充,“為什么AlphaGo也是從智力游戲開始的?因?yàn)橹橇τ螒蚩梢员容^好地生成大量數(shù)據(jù)來供AI強(qiáng)化、擬合,它可以同時開展很多的對戰(zhàn),提供海量的數(shù)據(jù)?!?/p>
而如果將對象局限于現(xiàn)實(shí),人們會遇到非常多的障礙。阿文向我舉了個例子:“比如我們想要模擬車輛撞擊,該怎么做呢?車輛有很多碰撞的角度,角度的不同會導(dǎo)致產(chǎn)生的形變也不同。如果要去獲取車輛碰撞的數(shù)據(jù),就需要在真實(shí)世界中進(jìn)行非常多的實(shí)地撞擊測試。但是如果你有一個很真實(shí)的,或者叫‘游戲’,或者叫‘模擬器’的東西,就可以(以很低的成本)去還原車輛在真實(shí)世界里可能產(chǎn)生的行為。當(dāng)然,還原度很難做到一模一樣,但整體上能夠大體還原——或許逼真程度有90%吧?!?/p>
簡單點(diǎn)說,游戲作為虛擬環(huán)境,為研究者提供了數(shù)據(jù)的可獲得性以及可模仿性。與此同時,就像是AlphaGo和《王者榮耀》AI所做的那樣,在必要的時候,人類可以參與檢驗(yàn)AI的成效,這一切都為技術(shù)研發(fā)提供了便利。
而且,事情不會永遠(yuǎn)停留在虛擬環(huán)境中。
“這些技術(shù)最終還是要進(jìn)行轉(zhuǎn)化,為生活帶來更多的實(shí)際價值?!崩蟿⒄f,“我們最開始做AI的時候,也是帶著這個初衷,我們希望AI對我們的生活和產(chǎn)業(yè)帶來一些幫助。在項(xiàng)目推進(jìn)過程中,我們發(fā)現(xiàn)它能發(fā)揮的作用不只是局限在游戲里,它是能夠?qū)ζ渌姆较蛱峁椭?,這就是我們要去做開放平臺的原因,也是我們后來和高校開展合作的原因。我們希望通過項(xiàng)目中積累的經(jīng)驗(yàn)和技術(shù),降低大家的研究成本,我們制作了相關(guān)的工具,也向一些大學(xué)和研究機(jī)構(gòu)開放了強(qiáng)化學(xué)習(xí)的框架,同時提供了一些算力,方便他們在開悟平臺上進(jìn)行一些AI的研究及演練實(shí)操等……我們做這些事情,其實(shí)也是在探索游戲的附加價值,我們希望這個價值能夠延伸出去,為其他產(chǎn)業(yè)帶來一定的可能性。我們不敢保證100%解決問題,但至少可以提供對于可能性的探索?!?/p>
目前為止,王者開悟已經(jīng)同國內(nèi)超過20個大學(xué)和研究所進(jìn)行了合作,我想,推動這些合作的,其實(shí)也正是他們的“開源精神”。阿文告訴我,騰訊會向合作伙伴提供基于《王者榮耀》訓(xùn)練而成的數(shù)據(jù)、強(qiáng)化學(xué)習(xí)的框架、模擬研究環(huán)境的內(nèi)核以及算力,以幫助其進(jìn)行研究。在未來,他們還準(zhǔn)備把整套方案產(chǎn)品化和成熟化,幫助合作伙伴直接進(jìn)行部署,從而進(jìn)行有規(guī)?;漠a(chǎn)業(yè)科技的研究。
仍然是在未來,王者開悟所產(chǎn)生的成果可能應(yīng)用于多個方面,包括多智能體強(qiáng)化學(xué)習(xí)、多機(jī)器人自主避障導(dǎo)航、工業(yè)自動化等場景上。也許在未來,我們可以享受足夠智能的機(jī)器人家政服務(wù)、更智能的無人駕駛或者倉儲物流——而所有這些技術(shù)所依賴的運(yùn)算中樞,那些我們看起來在未來聰明、智慧、強(qiáng)大到超越人類的AI,在一定意義上可能是從王者峽谷里啟蒙、成長,最后走向社會的。
從開悟的例子,我們不難看出天美在產(chǎn)學(xué)研方面的一些嘗試,從最早的“傳統(tǒng)文化數(shù)字化”,再到“技術(shù)跨領(lǐng)域合作”、“高校合作”,甚至是最近的科幻題材探索。
因?yàn)閯偤煤托窃篇勵C獎活動沖突,幾位天美J3工作室的成員與天美工作室群總裁姚曉光先生一同去了活動現(xiàn)場,沒能按計劃參與采訪。關(guān)注科幻領(lǐng)域的朋友可能知道星云獎——如果你不熟悉,我可以用一句話簡單介紹一下,星云獎是華語科幻界最權(quán)威的獎項(xiàng)活動,歷史悠久,影響力巨大。很顯然,在和科技僅一墻之隔的科幻領(lǐng)域,天美也在嘗試“開源”。從后續(xù)的報道中我們可以大概猜測到,天美在科幻題材探索方面正在布局“中式科幻”,這場中國科幻文學(xué)和游戲科幻藝術(shù)的聯(lián)手當(dāng)然值得期待——實(shí)話說,我認(rèn)為這是遲早發(fā)生的事情。
最后,讓我們回到“今天”。
今天是10月24日,1024,對于計算機(jī)而言,這是個很重要的數(shù)字,它是2的十次方。計算機(jī)起源于二進(jìn)制,而對二進(jìn)制計數(shù)來說,1024也有著重要的意義,因此,10月24日也被稱為程序員節(jié)。這是這篇文章最初的動因,我們的初衷是講述天美在游戲領(lǐng)域所進(jìn)行的技術(shù)積累和探索。我聯(lián)系了天美的團(tuán)隊(duì),希望他們?yōu)槲医榻B幾位優(yōu)秀的技術(shù)人員,讓他們講講自己在做的事情。
自從誕生以來,游戲就同技術(shù)緊密地結(jié)合在一起——用結(jié)合可能有點(diǎn)兒抬舉游戲,事實(shí)上,我認(rèn)為,游戲的發(fā)展嚴(yán)重依賴于計算機(jī)技術(shù)的發(fā)展。計算機(jī)算力增加,我們得以在屏幕上感受更真實(shí)的游戲畫面;計算機(jī)具備聯(lián)網(wǎng)功能,我們才能玩到帶有網(wǎng)絡(luò)功能的游戲;計算機(jī)普及了光驅(qū),游戲開發(fā)者們才得以在游戲中塞入高質(zhì)量貼圖和真人語音。伴隨著技術(shù)的發(fā)展,游戲的形態(tài)、玩法和設(shè)計理念往往會迎來一次大的變革。
與此同時,包括游戲在內(nèi)的諸多應(yīng)用又往往促進(jìn)和提升了計算機(jī)科技的發(fā)展——計算機(jī)的發(fā)展是過程而非目的,最終始終指向解決具體的問題。娛樂是人們最普遍也是頻次最高的要求,許多科技進(jìn)步由此而來,再逐漸擴(kuò)散到方方面面,讓我們的生活發(fā)生實(shí)際的改變。
誠然,“技術(shù)積累”一詞在顯得“尖端”的同時,也意味著它指向的東西是我們暫時用不上。我們總是很難去量化那些基礎(chǔ)研究,很難量化那些大多數(shù)領(lǐng)域尚不貼近人類實(shí)用的AI實(shí)驗(yàn)和知識分享的“實(shí)際價值”。我們也偶爾會忽略那些為未來默默奉獻(xiàn)的人——在這個方面,天美,或者說騰訊的付出并不被常人所知。
很多人喜歡說,“游戲不只是游戲”,在一定程度上,游戲技術(shù)亦然。游戲技術(shù)在協(xié)同跨產(chǎn)業(yè)合作上的推動作用比我們想象的可能還要大一些。在某種程度上,游戲、游戲開發(fā)者們參與了未來世界的構(gòu)建,并幫助未來世界越來越好,比如AI的訓(xùn)練和算法完善,又比如場景建模、AR/VR的發(fā)展等等。我們經(jīng)常會探討游戲的價值,而這,或許就是游戲的價值之一。
commando@chuapp.com
編輯,怪話研究者,以及首席廚師。2001年進(jìn)入游戲行業(yè),熱衷于報導(dǎo)游戲行業(yè)內(nèi)有趣的人和故事,希望每一篇寫出的東西都是有價值的。
查看更多祝佳音的文章