降本與增效的平衡,以及更加分化的未來。
在過去一年中,觸樂已經(jīng)寫過多篇關(guān)于游戲行業(yè)嘗試應用AI的文章。鑒于AI技術(shù)仍在飛速發(fā)展,總是掌握最新的情況并不是一件容易的事,對于游戲廠商來說也是如此。到目前為止,仍然有很多公司的決策者不知道怎樣引入AI,是否能夠引入AI,而專門分出人力去研究這件事,似乎也并不符合人們對技術(shù)“降本增效”的原始期待。
因此,有一部分業(yè)內(nèi)人士開始專門鉆研AI技術(shù),并且嘗試作為一個獨立的團隊與游戲廠商展開合作,為他們提供包括建立合理工作流、自主訓練模型、AI輔助概念設計等方面的解決方案。和AI技術(shù)一樣,這種團隊非常新興,人們尚且不夠全面了解他們所能做到的事情。
在游戲行業(yè)工作20余年、作為制作人參與研發(fā)7年的吉川明靜目前是一家AI工作室的負責人。他的團隊主要研究AI美術(shù)方向。和過去的研發(fā)經(jīng)驗結(jié)合,他們對AI美術(shù)融入游戲開發(fā)的工作流程有比較深入的經(jīng)驗和心得,并且有了一些和廠商合作的實際案例。為此,觸樂和他聊了聊,以期更全面地了解AI技術(shù)融入游戲開發(fā)流程的實際狀況與前景。
觸樂:能不能先簡要地介紹一下您這個工作室的人員情況和分工情況?
吉川:我們AI工作室的成員均來自于小紅書上最大的AIGC社群“野神殿”,目前有9名成員。其中3名偏向技術(shù),6名偏向設計,大家來自天南地北、各行各業(yè)。目前,AIGC是團隊成員共同的興趣和紐帶。
我們現(xiàn)在的主要工作之一,是幫合作方調(diào)教模型。具體一點說,所謂的模型,通常是AI生成圖片所需的基底大模型(又稱Checkpoint),或者能對其產(chǎn)生影響和控制的小模型(例如常見的LoRA和LyCORIS),每個人都可以通過不同方法——一般就是通過提供大量圖片和打標給AI學習,稱為訓練——去調(diào)優(yōu)模型,讓它根據(jù)自己想要的概念去定向生成某一類圖。在這個過程中,單純的訓練往往是不夠的,還要將不同模型進行復雜的融合,就像雜交植物那樣,才能最終獲得我們想要的模型。
如果已經(jīng)有了較為滿意的模型,我們還可以幫合作方根據(jù)實際需求需要和操作人員的水平來設計合理的AI工作流。比如你應該通過哪些步驟使用哪些參數(shù),用什么形式的提示詞,甚至如何跟傳統(tǒng)的美術(shù)工具去配合,最后得到想要的效果。因為我們掌握的AI工具相對多,也時刻保持著最新知識的迭代,所以能夠幫助游戲公司去做統(tǒng)籌優(yōu)化。
我們還會直接幫合作方做設計,包括服裝、場景和角色?,F(xiàn)在可以做到在傳統(tǒng)設計的基礎(chǔ)上加入AI輔助,快速實現(xiàn)70%以上的最終效果。比如角色設定,在以往的工作流中,不管是在公司內(nèi)部還是跟外部做交流,其實都需要花大量的時間去找資料或是設計草圖,但現(xiàn)在我們可以靠AI的幫助來使得前期溝通和反饋的效率大大提升。而中期迅速且高品質(zhì)的設計成型也會給后期人工調(diào)整省下不少的力氣。
觸樂:您有能透露的幫助游戲廠商訓練AI的具體事例嗎?
吉川:最近3個月,我們工作室跟3家公司合作了5個項目。有的項目做了不久就停止了,有的則在堅持一段時間之后成功了。
我先講一個不那么成功的例子吧,因為這個例子是我個人覺得比較可惜的,而且能夠反映出一些普遍的狀況。
合作一開始,我們定了一個比較高的目標:為游戲訓練一款全能的畫風模型,這樣他們后面的一些人物立繪,甚至整個劇情CG都能用這個畫風模型很快地跑出來。比如說給AI一張線稿或者一張色稿,AI就能輸出一個很接近成品的結(jié)果。
具體一點說,當時我們的目標是根據(jù)簡單線稿,把角色衣服的材質(zhì)以及精細花紋都能用AI跑出來。然而嘗試了多種不同技術(shù)之后,我們發(fā)現(xiàn),立繪的畫風不難實現(xiàn),服裝的材質(zhì)也能夠很好地還原,但AI生成的花紋在精細度、結(jié)構(gòu)和邏輯上問題就比較多了。進一步細化線稿能改善這個問題,但這樣對研發(fā)來講可能有些得不償失,因為這就近乎用人力來負擔起最復雜的工作,AI只是負責上色。這不是我們想要的方向。
總之當時訓練并調(diào)整了近1個月,中間遇到形形色色的困難,我們也一一克服。最初我們的目標是能跑出接近成品百分之七八十的圖片,但最終的成果大概也只有百分之五十左右的完成度。這時研發(fā)覺得,實際效果和一開始想的有較大出入,再加上其他一些運營方面的顧慮,他們決定停止繼續(xù)合作。
觸樂:但您覺得那個項目其實是有前景的嗎?
吉川:是的。我之所以覺得這個項目很可惜,是因為當時已經(jīng)看到了曙光。我想多花一點時間,看能不能讓AI學會一些具體的花紋??上ё詈鬀]有更多時間可以嘗試了。
觸樂:感覺這可能代表一個普遍現(xiàn)象,不光是廠商對在AI上投入成本比較猶豫,很多公司還要考慮項目上線之后會面臨的輿論壓力。
吉川:確實會感覺到,每位公司的負責人對AI技術(shù)的態(tài)度是不一樣的。有的負責人會比較積極地推進這件事,哪怕是遇到一些困難和技術(shù)難題都很有耐心。這樣的話,對接的研發(fā)者同樣也會配合度比較高,往往能夠得到比較好的結(jié)果。
但如果碰到負責人對AI技術(shù)本身認知有差異,或者只是抱著試試看的心態(tài),并沒有決心去真正落地的話,那從上到下的態(tài)度都會比較糾結(jié)。尤其是一線工作者可能會流露出明顯的抵觸情緒。
有一些人會感覺自己在“給AI打下手”,尤其是現(xiàn)在很多公司會把“降本增效”放在明面上講,一些員工就會覺得,AI這個東西整合好了會不會讓自己失業(yè)。所以在溝通上、反饋上偶爾就會流露出“要不就算了”的情緒。而這種情緒同樣也會自下而上蔓延。
觸樂:您也知道目前游戲行業(yè)的環(huán)境比較艱難,很多人會把更多精力放在生存問題上。在這個前提下,AI真的能起到“救命”的作用嗎?尤其是在“降本增效”方面?
吉川:我認為增效更為重要,而非降本,不應該本末倒置。因為AI工作流的設計與運行并非大家想象的那么容易。
我知道不少從業(yè)者,包括游戲用戶潛意識就覺得AI是個廉價的東西。尤其是一些二次元游戲,主要賣卡面的,用戶會覺得幾千幾百去抽一個好看又強力的角色,必須得是“大觸”手工畫的,如果用了AI,這張圖就會價值大跌。再加上網(wǎng)上現(xiàn)在有很多教程會教人傻瓜式的訓練模型,甚至給一般人使用“一鍵出圖”等功能,就讓人覺得AIGC是個很容易的事情。
但如果實際使用過AI工作流,就會發(fā)現(xiàn),要做出可用的圖,那些簡單的教程是沒有辦法做到的,不是簡簡單單挑幾個提示詞就能畫出來。商業(yè)化落地需要精準輸出,構(gòu)圖是什么樣,服裝設計要遵循哪些規(guī)則,色調(diào)和光線不能發(fā)生偏差……比如我們訓練一個模型,如何判斷訓練集(素材)的好壞,如何添加關(guān)鍵參數(shù),目前還是需要專業(yè)的人來做。而哪怕直接把訓練好的模型給初學者用,畫出的成品也無法滿足商業(yè)落地的需要。
觸樂:但這似乎不符合現(xiàn)在大眾對AI的印象。
吉川:是的,包括一些來找我們的公司也存在認知誤區(qū)。有些人以為AI現(xiàn)在已經(jīng)非常簡單,能5分鐘畫完想要的。過來看了之后發(fā)現(xiàn)實際不是那么回事,就退縮了。還有一些人稍微試了一下水,好像就安心了,覺得“AI確實不行”,再問一下價格,覺得“還不如找人畫便宜”。
因為很多人都知道,現(xiàn)在美術(shù)上的成本占游戲開發(fā)的大頭,但大量的一線畫師人工其實是非常低的。而目前AIGC的人才還比較缺乏——有專門研究AI,但對傳統(tǒng)作畫知識不夠了解的;也有很了解傳統(tǒng)作畫知識,但對AI不夠了解的。同時掌握兩者,且具有一定審美的人可謂少之又少——這樣的人才無論如何都不會是廉價的吧?因此,對于那些把“降本”看作一切的人,目前AI確實還無法滿足他們。
觸樂:所以AI并不是一個很好的“降本”方式?
吉川:我覺得比較有遠見的態(tài)度還是把AI當做增效工具,去思考如何利用現(xiàn)有的人力資源配置,在同等的時間下開發(fā)出更多更優(yōu)質(zhì)的內(nèi)容。這件事非常重要,因為現(xiàn)在的游戲?qū)?nèi)容的消耗是很大的。你開發(fā)了很長時間的內(nèi)容,上線之后慢則幾個月,快則幾周、幾天就消耗完了。用AI的話就不需要像以前那樣按部就班地出草稿、色稿、線稿,而是能快速將完成度推到70%,剩下人工修改的工作量相比之下就少得多,那樣的話,同等時間內(nèi)能生產(chǎn)的美術(shù)素材量就可以有比較大的提升。
觸樂:也許您能舉一些成功案例?
吉川:我這邊最成功的案例是和一家成都公司合作的項目。合作已經(jīng)持續(xù)了3個多月,我們不但成功地把角色和場景模型都開發(fā)到了期待值之上,還在根據(jù)新需求和新技術(shù)不斷優(yōu)化和補充新的合作內(nèi)容。
另一個成功范例是一個原創(chuàng)游戲。根據(jù)對方提供的原始素材和目標闡述,我們在不斷嘗試之后,找到了合適的模型組合去實現(xiàn)具體的設計風格。每個深入的階段我們都會去和合作方確認??梢詮倪@些示例看到我們是怎么樣從一開始確定筆觸、構(gòu)圖風格,一步步地把角色具象化的整個過程。
觸樂:那您覺得目前AI生成圖片的技術(shù)瓶頸在哪里?其中影響最大的是什么?
吉川:我來講講跟模型有關(guān)的難點吧。
首先是能用于訓練集的素材不足。這個問題非常常見。?比如說某個IP的游戲已經(jīng)做到第2代了,那么它對美術(shù)質(zhì)量其實是有迭代要求的。現(xiàn)在出的游戲,畫面效果不可能跟5年前、10年前的水準一樣。所以,哪怕前作積累了很多素材,里面還是有很大一部分無法直接使用,不能進入訓練集,最多只能用來訓練一些基礎(chǔ)的概念。
所以在組建訓練集的時候,肯定需要將現(xiàn)有的素材運用各種手段“變出花來”,還需要跟其他的優(yōu)秀模型進行一些深層融合,以借鑒它們的優(yōu)點。出圖的流程也要相應調(diào)優(yōu),最后才能做出好的成品來。我們的核心競爭力就在于此,也希望將來能有機會參與更多有著不同需要的研發(fā)項目。
還有一個難點在于,因為AI神經(jīng)網(wǎng)絡本身的復雜性,整個訓練過程其實就像黑箱,誰也不知道它具體是如何學習的。目前大家只在大方向上有共識,但具體的訓練方法,哪些參數(shù)該怎么設置,還沒有全球統(tǒng)一的標準,存在很多不同流派的見解。正因如此,模型訓練也被稱為“煉丹”或“煉金”(笑)。很多東西還是要在實踐中慢慢摸索,根據(jù)輸出效果及時調(diào)整。像我這邊兩位負責技術(shù)的大佬,他們訓練了成百上千個模型,都有自己獨到的一套方法論。
之后我們有計劃去訓練一些能在游戲這個垂直領(lǐng)域使用的定制化大模型,用來探索我們之前沒見過的美術(shù)風格。
觸樂:圖片的畫風對成功率有影響嗎?比如二次元和真人畫風感覺差異就挺大的。
吉川:要求的風格對難度有一些影響。比如現(xiàn)在比較主流的兩種,真人畫風和二次元畫風,二者的訓練參數(shù)稍微有一些區(qū)別,而理論大體是一樣的,只不過用戶對真人的還原度要求會比二次元來得高。舉個例子,有時候真人模型需要針對某個特定人物,但出圖經(jīng)常會不像,或者只有幾分像。因為一般對真人的面部判斷是很苛刻的。二次元相對來說好很多,以初音未來為例,基本上有水青色的雙馬尾,眼睛顏色對上了,大家自然而然就會認出這個角色,對五官的位置、比例之類的要求沒有真人標準那么高。當然現(xiàn)在SD迭代更新的一些技術(shù)(注:SDXL),本身包含的參數(shù)是之前的幾倍,但我還沒有看到在還原度上表現(xiàn)非常穩(wěn)定的真人模型,大部分還是要通過反復的抽卡來獲得偶爾滿意的結(jié)果。
我估計,明年年初AI會再經(jīng)歷一次技術(shù)迭代,到時候再看能不能突破現(xiàn)在真人模型訓練的局限。而二次元的話,現(xiàn)在的技術(shù)可以說已經(jīng)夠用了。
觸樂:除了繪圖之外,AI也逐漸應用到了視頻領(lǐng)域。在這方面有什么值得分享的新成果嗎?
吉川:最近AI動畫(視頻)的發(fā)展也特別快,從今年9月開始,AI圈子里像瘋了一樣地研究動畫。之前不是有人用AI做了一個《流浪地球3》的偽預告片嗎?甚至驚動了郭帆導演,把作者請過去聊了,可謂是徹底出圈。而現(xiàn)在SD派生出來的新插件和節(jié)點也很適合做原創(chuàng)動畫。上半年的時候,想做動畫可能還得用真人視頻來轉(zhuǎn)繪,現(xiàn)在只需要提示詞和視頻參考就能做出相當自然流暢的動畫了。
順便一提,目前做得最好的短片,比如“剪刀石頭布”系列,就是用真人先拍,再轉(zhuǎn)成動畫,那個效果就已經(jīng)很驚艷了。
當然這個領(lǐng)域也沒有到一步登天的程度,想坐在電腦前點幾下鼠標就可以直接做一部動畫片,那不現(xiàn)實。我覺得還需要至少半年左右的發(fā)展,才能用AI技術(shù)直接生成面向最終用戶的完整短片。
當下AI動畫的應用前景已經(jīng)很有想象力。比如很多二次元游戲需要做片頭或者劇情動畫,如果先用AI做一些Demo或者概念片還是很方便的。比起拼接別的動畫進行溝通、或者繪制傳統(tǒng)的靜態(tài)故事板的形式,交流效率高得多。
說個有意思的題外話,我們AI創(chuàng)作者社區(qū)里還有很多其他行業(yè)的從業(yè)者,其中廣告行業(yè)的朋友非常歡迎AI動畫。他們說用了之后提案通過率高得嚇人,客戶往往看了之后“大喜”。以往要溝通很長時間才能談下來的項目,現(xiàn)在一周就可以拿下,關(guān)鍵是動畫的制作時間成本還不高。
觸樂:那廠商能不能自己研究AI呢?我經(jīng)常碰見有負責人說自己指定了團隊里的一兩個人專門研究這個,更激進一點的,會要求全員都學習。
吉川:很多小團隊,尤其獨立開發(fā)者,對嘗試AI的態(tài)度確實非常積極,甚至可以說是激進。因為他們有著迫切的降低成本需求,如果只是在Steam之類的平臺上發(fā)一些實驗性質(zhì)大于商業(yè)性質(zhì)游戲的話,也不會去考慮太多輿論風險。中型公司會相對謹慎一些,他們會更多考慮玩家的反應。但通常來說,中小團隊對AI的學習仍然僅止于應用層面,真正去深入研究怎么訓練模型、甚至做一定程度開發(fā)的還是比較少。
據(jù)我了解,現(xiàn)在只有一些跨領(lǐng)域的大公司能夠組織專門的人甚至部門來研究AI。像騰訊這樣的大廠,本身就有自己的AI Lab,研發(fā)出了不少圖像生成的關(guān)鍵性技術(shù)。但中小公司就很難有這個余力了。一方面是這方面的綜合性人才難覓,另一方面組織學習也很困難,因為市面上沒有成熟的培訓體制,全職員工也往往沒有閑余時間。我們之前也做過培訓課件,發(fā)現(xiàn)很多知識都要自己去分辨、補充、整理。而且知識迭代非常快,一些原有的功能可能短短一兩個月后就有上位替代了。所以每天必須花不少時間在學習最新的知識上。
在這種情況下,讓專業(yè)的人來做專業(yè)的事確實是對中小團隊的一個補充。
觸樂:那之前傳言的“AI會徹底解放生產(chǎn)力,讓每個人都成為開發(fā)者”豈不是不太現(xiàn)實?
吉川:確實,AI創(chuàng)作的門檻在不斷降低,只是還沒有大家想象的那么“傻瓜式”。打個比方,就像是單反相機和手機拍照的效果確實存在差異。比如最近特別火的DALL-E3,它集成在ChatGPT里之后,甚至不需要使用者會英文,直接用中文的自然語言去跟它聊天、描述,就能把圖生成出來。當然畫出來的東西從美學角度來看還是比不過最好的AI繪圖軟件,只是它把使用門檻拉低到了前所未有的程度。相應地,如果要產(chǎn)出質(zhì)量特別好的素材,或者要在游戲開發(fā)過程中深度融入AI的話,還是要系統(tǒng)地學一些高級的生圖和訓練技能;小小的個人需求和務求落地的大型商業(yè)項目,對這方面的需求完全不一樣。
觸樂:聽起來最后會分化成“專業(yè)AI”和“非專業(yè)AI”。
吉川:在我看來,AI創(chuàng)作最終會是一個比較兩極分化的領(lǐng)域。低門檻會越來越低,高門檻會越來越高。我甚至想過去深入學一些傳統(tǒng)藝能,比如Adobe那一系列繪圖和視頻制作的工具……像Adobe這樣的傳統(tǒng)公司其實也在積極擁抱AI。未來的話,一些在傳統(tǒng)美術(shù)方面有實力、在傳統(tǒng)工具方面也很有經(jīng)驗的人,仍能保持遙遙領(lǐng)先。
我覺得,未來AI創(chuàng)作領(lǐng)域很可能會分化為3個方向:一是圍繞AI最新技術(shù)發(fā)展為主的創(chuàng)作蓬勃發(fā)展,二是普羅大眾的低門檻應用,三是傳統(tǒng)的專業(yè)選手利用扎實的基礎(chǔ),去利用AI提升原本的工作效率和效果。我知道現(xiàn)在圍繞AI還是有很多爭議,但面對新事物和技術(shù)的發(fā)展,一些人心中會有被落下的恐懼,另一些人則把這種變化視為機遇。
而我一直將AI的迅猛發(fā)展看作人生的重大轉(zhuǎn)折和千載難求的機遇,我也希望能夠有機會與更多有著相近觀點和看法的朋友,在游戲的領(lǐng)域一起進行更多、更長期的實際探索。