Deep-learning programma wordt meester schaken in 72 uur

Een deep-learning programma dat zichzelf schaken aanleerde, slaagde er in drie etmalen in om grootmeestersterkte te bereiken. Een mens heeft daar jaren voor nodig.

Schaakcomputers al tien jaar beter dan mensen
Al een kleine tien jaar geleden, in 2006, slaagde een team IBM-programmeurs er in om met hun schaakcomputer DeepFritz! de regerend wereldkampioen schaken Vladimir Kramnik in te maken. Dit was minder indrukwekkend dan het op het eerste gezicht lijkt. De schaakcomputer werd ‘geladen’ met de kennis van duizenden schaakpartijen tussen grootmeesters. Ook werden schaakstrategieën met de hand ingevoerd. Kortom: de arme Kramnik moest het niet alleen opnemen tegen een rekenmonster dat 200 miljoen posities per seconde door kan rekenen, maar ook tegen een team schaakspecialisten en een bibliotheek met duizenden schaakpartijen.

Na ongeveer tienduizend iteraties zat de AI dicht op de maximum sterkte. Bron: artikel

Grootmeester in drie dagen
Dat maakt de prestatie van Matthew Lai, de ontwikkelaar van deze kunstmatige intelligentie des te indrukwekkender. Niet alleen slaagde zijn programma Giraffe er in meestersniveau te bereiken – nu standaard bij de meeste schaaksoftware – het slaagde daarin zonder enige hulp van de programmeur, door drie etmalen door te rekenen. Dit komt overeen met een ELO-rating van 2300, wat maar twee procent van de clubschakers halen.
De software bestaat uit een ‘deep neural network’. Dit is een gestapelde reeks neurale netwerken, in dit geval vier. Informatie gaat dus heen en weer van een neuraal netwerk naar een hoger, of lager gelegen neuraal netwerk.
Een van de effecten hiervan is dat een patroon dat in een lager gelegen netwerk gelegen is, in een hoger gelegen netwerk wordt uitvergroot en verder uitgewerkt. Daardoor kunnen deep neural networks ingewikkelder patronen herkennen.

De beste schaakprogramma's zijn nu vele malen beter dan welke menselijke speler dan ook. — De beste schaakprogramma’s zijn nu vele malen beter dan welke menselijke speler dan ook. – Wikimedia Commons

Het neurale netwerk wordt getraind door het bloot te stellen aan heel veel voorbeelden. Hiervoor gebruikte Lai vijf miljoen schaakstellingen, die random gekozen werden uit een veel grotere verzameling schaakpartijen. Deze werden in een formaat omgezet dat door het neurale netwerk kon worden verwerkt. Om extra variatie toe te voegen, werden aan elke schaakstelling legale zetten toegevoegd, zodat 175 miljoen schaakstellingen ontstonden. De drie taken die door de vier lagen werden uitgevoerd waren: bestuderen van de globale stelling, de positie van elk stuk en de velden die elk stuk bestrijkt.

Tegen zichzelf spelen
Vervolgens liet hij Giraffe tegen zichzelf spelen: vanuit deze positie voorspellen welke zetten winnend waren en deze achteraf evalueren, zodat – en dit is echt heel belangrijk – de machine zichzelf als het ware aan de haren omhoog trok, zonder verdere hulp. Afgezien dan van enkele beslisregels, denk bijvoorbeeld aan de puntenwaarde van stukken, die worden gebruikt om winst of verlies te bepalen.

Giraffe is ongeveer tien keer zo langzaam als bestaande schaakprogramma’s die op dezelfde hardware functioneren. Lai wil nu andere spellen, zoals het Japanse bordspel go, onder handen nemen.

De gevolgen
Deze techniek zou je in principe ook op andere datasets los kunnen laten. Een database met verkoopgesprekken, Facebookreacties en dergelijke. Als je als doel bijvoorbeeld instelt: maximale winst, of: de alleenheerschappij op aarde van jouw sekte, zou dit programma opmerkelijke strategieën kunnen bedenken. Wel moet het domein geformaliseerd kunnen worden in een vrij eenvoudig gestructureerde dataset. Gelukkig is het dagelijks leven lang zo eenvoudig niet, maar eenvoudiger systemen zoals de effectenbeurs zullen met programma’s als dit vermoedelijk onder handen genomen worden.

Bronnen
Deep Learning Machine Teaches Itself Chess in 72 Hours, Plays at International Master Level, MIT Technology Review, 2015
Matthew Lai, Giraffe: Using Deep Reinforcement Learning to Play Chess, ArXiv prepress server, 2015

1 gedachte over “Deep-learning programma wordt meester schaken in 72 uur”

Bemoeier
19 september 2015 bij 01:07

Of wat voor bewegingen en beslissingen een robot moet maken als productie medewerker, bouwvakker, machinebouwer of ander handwerk misschien.

Log in om te reageren

Laat een reactie achter Reactie annuleren

Je moet inloggen om een reactie te kunnen plaatsen.