日前騰訊宣布,其人工智能球隊(duì)摘得足球AI比賽——首屆谷歌足球Kaggle競(jìng)賽冠軍,該冠軍球隊(duì)來(lái)自騰訊AI Lab研發(fā)的絕悟WeKick版本。騰訊方面表示,“AI+游戲”是騰訊攻克AI終極研究難題——通用人工智能(AGI)的關(guān)鍵一步。從圍棋機(jī)器人“絕藝”到“絕悟”,不斷讓AI從0到1去學(xué)習(xí)進(jìn)化,未來(lái)有望在醫(yī)療、制造等領(lǐng)域帶來(lái)更為深遠(yuǎn)的影響。
11個(gè)智能體的合作與對(duì)抗
一直以來(lái),足球運(yùn)動(dòng)團(tuán)隊(duì)策略以其復(fù)雜性、多樣性和高難度,成為長(zhǎng)期困擾世界頂尖AI研究團(tuán)隊(duì)的難題。Kaggle創(chuàng)立于2010年,是全球最大的數(shù)據(jù)科學(xué)社區(qū)和數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái)。此次比賽由Google Research與英超曼城俱樂(lè)部在Kaggle平臺(tái)上聯(lián)合舉辦,吸引了來(lái)自世界頂級(jí)院校和研究機(jī)構(gòu)的1100多支科研強(qiáng)隊(duì)參與挑戰(zhàn)。
這不是一場(chǎng)真實(shí)的足球賽,比賽使用Google Research Football環(huán)境,更像是一款由AI操作的FIFA游戲。比賽采取11vs11的賽制,參賽團(tuán)隊(duì)需要控制其中1個(gè)智能體與10個(gè)內(nèi)置智能體組成球隊(duì)。這場(chǎng)比賽規(guī)則與正常足球賽一樣,雙方擁有一樣的球員,沒(méi)有主客場(chǎng)、狀態(tài)好壞的數(shù)值差異,沒(méi)有替補(bǔ)球員、沒(méi)有加時(shí)賽、進(jìn)球多獲勝(否則平局),目標(biāo)都是將球踢入對(duì)方球門。
比賽中,每個(gè)球員都各由一個(gè)單獨(dú)的智能體控制,參賽團(tuán)隊(duì)需要實(shí)時(shí)選擇并控制其中一個(gè)智能體,與其他內(nèi)置智能體配合。因此,每個(gè)“球員”不僅需要觀察對(duì)手的行為,還需要留意己方隊(duì)員的情況,這需要非常復(fù)雜的團(tuán)隊(duì)協(xié)作和競(jìng)爭(zhēng)策略,以及高速的實(shí)時(shí)決策能力。最終,來(lái)自騰訊AI Lab研發(fā)的絕悟WeKick版本,憑借1785.8的總分在與全球頂級(jí)技術(shù)團(tuán)隊(duì)的競(jìng)技中以顯著優(yōu)勢(shì)勝出。
能打“王者”也能踢足球
實(shí)際上,這次奪冠的“絕悟”正是《王者榮耀》中的那個(gè)AI?!敖^悟”為何要在游戲領(lǐng)域四處征戰(zhàn)?騰訊花大力氣研發(fā)“絕悟”有何原因?
據(jù)騰訊AI Lab專家介紹,AI研究近年成為國(guó)際科技公司必爭(zhēng)之地,游戲則是檢驗(yàn)AI能力的試金石。1997年DeepBlue戰(zhàn)勝國(guó)際象棋第一人,2016年的圍棋AI AlphaGo戰(zhàn)勝李世石,這兩大AI劃時(shí)代事件都與游戲相關(guān)。
業(yè)內(nèi)普遍認(rèn)為,復(fù)雜策略游戲可能會(huì)是下一塊寶地。AI能學(xué)會(huì)類似于人的長(zhǎng)期策略規(guī)劃和協(xié)作能力,代表著多智能體決策最高水準(zhǔn)。正因?yàn)樵谔魬?zhàn)性和應(yīng)用性的巨大價(jià)值,騰訊長(zhǎng)期關(guān)注并持續(xù)投入該領(lǐng)域。
早在2016年,騰訊AI Lab就已開(kāi)始了“AI+游戲”的研究之路。當(dāng)時(shí)研發(fā)的圍棋AI“絕藝”相繼在UEC杯、AI龍星戰(zhàn)以及圍棋人工智能大賽等頂級(jí)賽事中3次奪冠,并成為中國(guó)國(guó)家隊(duì)圍棋訓(xùn)練專用AI。圍棋AI的難點(diǎn)在于大規(guī)模離散決策空間探索,突破強(qiáng)化學(xué)習(xí)理論實(shí)踐瓶頸,探索超過(guò)人類的優(yōu)化策略。
2017年,騰訊開(kāi)始在星際爭(zhēng)霸2這類RTS游戲(即時(shí)戰(zhàn)略游戲)中進(jìn)行“AI+游戲”研究。與圍棋相比,星際爭(zhēng)霸2是一個(gè)不完全信息博弈場(chǎng)景,需在復(fù)雜連續(xù)的決策空間下進(jìn)行面向長(zhǎng)期決策的決策。同年,AI Lab還與王者榮耀展開(kāi)AI聯(lián)合研究,并取得了喜人的成績(jī)。
據(jù)介紹,“絕悟”作為策略協(xié)作型AI,寓意擁有絕佳領(lǐng)悟力的AI。2018年8月,“絕悟”已達(dá)到王者業(yè)余頂尖水平,并在2019年8月的王者榮耀世界冠軍杯半決賽上通過(guò)了5v5賽區(qū)聯(lián)隊(duì)測(cè)試,達(dá)到電競(jìng)職業(yè)水平。2020年11月底,“絕悟”首次讓AI精通了所有英雄的技能,而此次絕悟WeKick版本的整體設(shè)計(jì)正是基于絕悟完全體遷移得到,并針對(duì)足球任務(wù)進(jìn)行了一些針對(duì)性的調(diào)整,驗(yàn)證了“絕悟”AI底層架構(gòu)與方法的通用性。
攻克AI終極難題關(guān)鍵一步
騰訊AI Lab表示,長(zhǎng)遠(yuǎn)來(lái)看,“AI+游戲”將是騰訊攻克AI終極研究難題——通用人工智能(AGI)的關(guān)鍵一步。如果在模擬真實(shí)世界的虛擬游戲中,AI學(xué)會(huì)跟人一樣快速分析、決策與行動(dòng),就能執(zhí)行更困難復(fù)雜的任務(wù)并發(fā)揮更大作用。實(shí)際上,從圍棋AI“絕藝”到策略決策型AI“絕悟”,再到如今的AI足球隊(duì)絕悟WeKick版本,體現(xiàn)了AI Lab的深度強(qiáng)化學(xué)習(xí)智能體步步進(jìn)化,逐漸向更復(fù)雜更多樣化的問(wèn)題遷移,而每一次進(jìn)展,都離AGI這一終極目標(biāo)更近一步。
此外,AGI代表研發(fā)能在通用系統(tǒng)中執(zhí)行多種復(fù)雜命令,達(dá)到或超越人類水平的AI,從絕藝到絕悟,不斷讓AI從0到1去學(xué)習(xí)進(jìn)化,并發(fā)展出一套合理的行為模式,這中間的經(jīng)驗(yàn)、方法與結(jié)論,長(zhǎng)期來(lái)看,有望在大范圍內(nèi),如醫(yī)療、制造、無(wú)人駕駛、農(nóng)業(yè)到智慧城市管理等領(lǐng)域帶來(lái)更為深遠(yuǎn)的影響。
騰訊AI Lab于2016年4月成立。官網(wǎng)顯示,作為騰訊公司級(jí)AI實(shí)驗(yàn)室,AI Lab基礎(chǔ)研究方向包括計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)言處理和機(jī)器學(xué)習(xí),應(yīng)用探索結(jié)合了騰訊場(chǎng)景與業(yè)務(wù)優(yōu)勢(shì),為內(nèi)容、游戲、社交和平臺(tái)工具型AI四類。2020年,AI Lab重點(diǎn)在虛擬集成世界與機(jī)器人兩大研究方向上的重要探索,除AI+游戲外,還在AI+醫(yī)療、AI+醫(yī)藥等領(lǐng)域取得一系列成果。
除“絕悟”外,2020年4月,圍棋AI“絕藝”與中國(guó)國(guó)家圍棋隊(duì)續(xù)約3年。作為“教練”,絕藝能從對(duì)弈、復(fù)盤、拆解、分析等多個(gè)維度,為中國(guó)圍棋事業(yè)的發(fā)展提供助力,與人類頂尖棋手一起探索圍棋的更多可能。(陳姝)