Sinu brauser on natuke ajast maha jäänud. Et kõik töötaks, nagu vaja, palun uuenda enda brauserit.
Küpsised aitavad meil teenuseid edastada. Meie teenuseid kasutades nõustute sellega, et kasutame küpsiseid. ROHKEM INFOT >
Postimees 160 Juubeli puhul loe seda lugu tasuta!

Tehisintellektile tõi pokkeris võidu strateegilisest mõtlemisest loobumine

KOMMENTEERI PRINDI ARTIKKEL
Ässade nelik. | FOTO: Repro

Kaks viimase aja põrutavamat uudist masinõppe valdkonnast näitavad, et arvutiprogrammid suudavad mängudes inimesi võita ka ilma täieliku info valdamiseta.

Tormikiirusega arenevas tehisintellekti arendamise maailmas on mängud olnud aastaid põhiline masinõppe algoritmide katseplatsdarm. Ligi 20 aastat pärast kuulsa Deep Blue matšivõitu tollase male maailmameistri Garri Kasparovi vastu (1997. aasta kevadel New Yorgis; 1996. aastal Philadelphias võitis samade vastaste matši Kasparov – toim) on arvutid inimese seljatanud ka neile seni võitmatuks peetud Hiina päritolu lauamängus «Go».

Ometigi jäi arvutitele kuni tänavu jaanuarini ületamatuks raskuseks pokker. Jaanuaris tegi Carnegie Melloni ülikooli superarvutil jooksutatav tehisintellekt Libratus Pennsylvania kasiinos Texas Holdemi pokkeriturniiril võimatut ning võitis 20-päevase turniiri lõpuks inimestelt 1,7 miljoni dollari väärtuses žetoone. Enne seda oli Libratus jälginud strateegiate õppimiseks 15 miljonit tundi kaardimängu profiturniire.

Laineid löönud uudisele järgnes peagi järgmine katse, kus Tšehhi teadlaste algoritm DeepStack mängis rahvusvahelise pokkeriföderatsiooni valitud 33 professionaalse pokkerimängija vastu. Pärast nelja nädala jooksul tehtud 44 852 mängu olid arvuti edukuse näitajad ligi kümme korda paremad kui profimängijatel. Erinevalt Libratusest suutis DeepStack oma tulemused saavutada lihtsa sülearvutiga, mis oli varustatud ühe maailma võimsama, spetsiaalselt masinõppeks optimeeritud graafikakaardiga GeForce GTX 1080.

Mõlemad uurimisrühmad rõhutavad, et nende eesmärk on märksa laiem kui vaid pokker: rakendusi võib leiduda alates lennuturvalisusest kuni äriliste läbirääkimiste hõlbustamiseni. Inimeste domineerimine keerukates lauamängudes on nüüd igatahes läbi.

Põhjus, miks jõuti pokkeri alistamiseni hiljem, on seotud mängu iseloomuga: erinevalt malest ja «Go’st» on pokker ebatäiusliku infoga mäng. Kuna mängija näeb korraga vaid oma käes ja lauas olevaid kaarte ning ülejäänud on tema eest varjatud, ei saa ta kunagi vallata kogu teavet kaartide hetkeseisust.

«See on väga oluline samm tehisintellekti arengus,» hindas Libratuse saavutust New Scientistile Malta ülikooli arvutiteadlane Georgios Yannakakis. «See on nagu reaalsus. Ka pärismaailm on justkui ebatäiusliku infoga mäng, mistõttu toob pokkeriga hakkama saamine meid üldisele tehisintellektile ühe sammu võrra lähemale.»

Kui täiusliku info puhul saavad masinad keskenduda olulistele stsenaariumidele ja vältida vähem tõenäoseid, siis puuduliku info puhul matemaatiline loogika ja strateegiline mõtlemine ei aita. Mida rohkem on määramatust, seda mahukamaks muutuvad ka ülesanded, mille põhjal vastase käike ennustatakse. Vaja on ka intuitsiooni.

Sellest probleemist mööda hiilimiseks lähenesidki DeepStacki loojad kogu ülesande püstitusele teistmoodi. Suurem osa senistest katsetest algoritmidele pokkerit õpetada keskendus varasematest mängudest ja võitudest vajalike võtete ja vastaste nõrkuste õppimisele. DeepStacki loojad mõistsid, et niisugune lähenemine eirab tõsiasja, et pokkeris suudavad edukad mängijad käituda igas voorus isemoodi ja hoida ära etteaimatavuse teket.

Seetõttu teebki DeepStack arvutusi vaid mõne käigu piires ega üritagi välja mõelda ideaalseid strateegiaid. Kindlasti ei võida ta niimoodi kõiki voore, kuid on summaarselt siiski inimestest edukam.

Sisuliselt on iga mängus tehtav operatsioon – kaartide korjamine, panuste tõstmine jne – DeepStackile eraldi mäng, mille lahendamist kiirendab tehislikel närvivõrkudel põhineva sügava masinõppe kasutamine. See lahendus teeb kogu tema mängu oluliselt tõhusamaks ja kiiremaks.

Kuigi mõlemad pokkerivõidud on kahtlemata ajaloolised, kaasneb nendega kitsendusi. Nimelt toimusid need mängud formaadis, kus arvuti pidi rinda pistma vaid ühe profimängijaga. Suurema laudkonna puhul tõuseb arvutuste keerukus järsult.

Inimmõistuse keerukusega ühele pulgale jõudmiseks kulub DeepStackil veel aastaid, kinnitas Science’ile ka selle üks loojaid, Alberta ülikooli arvutiteadlane Michael Bowling. Praegu vajab programm edukaks toimimiseks veel liiga palju selgeid reegleid.

«Kuigi pokkeris võitmine on täiusliku infoga mängudega võrreldes kahtlemata samm edasi, on tal pärismaailma kaootilisusega hakkama saamiseni käia veel pikk tee,» ütles arvutiteadlane.

Praegu ei ole ka veel teada, kumb kahest algoritmist on võimsam. Selleks tuleks panna need teineteise vastu mängima, kuid seda pole veel plaanis.

Tagasi üles