Data Science Machine verslaat met algoritmes menselijke intuïtie
Al weer een typisch menselijk domein lijkt nu gesneuveld. Na rekenkracht, gezichtsherkenning en het spelen van schaak is nu de menselijke intuïtie overtroffen door de Data Science Machine.
Algoritme presteert beter dan meeste menselijke dataspecialisten
Big data analyse bestaat uit het zoeken van verborgen liggende patronen die een bepaald soort voorspellende kracht hebben. De mens is nog nodig met het herkennen van bruikbare patronen binnen de data. In een database met bijvoorbeeld de begin- en einddata van verschillende uitverkoopperiodes en wekelijkse winsten, bestaat de cruciale informatie mogelijk niet uit de datums zelf, maar uit de periode tussen de actieweken en de gemiddelde winst over deze perioden.
Onderzoekers van de Amerikaanse technische universiteit MIT in Boston, Massachusetts, proberen het menselijke element uit big data analyse te halen. Dit met een nieuw systeem dat niet alleen zoekt naar patronen, maar ook kijkt naar wat de meest veelbelovende parameters zijn. Om hun systeem te testen, lieten ze hun “Data Science Machine” meedoen met drie wedstrijden tegen menselijke teams. In deze wedstrijden moet het systeem voorspellende patronen herkennen in onbekende datasets. Van de 906 teams die meededen aan de drie competities, presteerde de “Data Science Machine” beter dan 615.
In de competities scoorde de Data Science Machine respectievelijk 94 procent, 96 procent en 87 procent van de score van de winnende inzendingen. Waar de winnende teams maanden deden over het bedenken en verfijnen van hun algoritmes, deed de Data Science Machine er tussen twee en twaalf uur over per inzending.
De bedenkers van de Data Science Machine, Max Kanter en Kalyan Veeramachaneni, zien hun systeem als complementair aan de menselijke intelligentie. Volgens hem kan door de Data Science Machine veel meer deep data worden geanalyseerd dan nu door de schaarse deep data specialisten.
Hoe werkte het systeem?
In big data analyse zoals die nu plaatsvindt, is de eerste stap, het ontdekken van variabelen die voorspellende waarde hebben. Dit vereist het bedenken van heel mogelijkheden, met andere woorden de nodige creativiteit en inzicht. De auteurs gaven het voorbeeld van het voorspellen van de drop-out hoeveelheid van studenten. Belangrijke variabelen hierbij bleken vooral de mate waarin studenten de e-learning website bezochten, vergeleken met klasgenoten, en hoe lang voor de deadline de student begint met het werken aan de opdracht. Deze informatie was niet direct uit de brondata (van het e-learningplatform van MIT, MITx) af te leiden, maar indirect wel te berekenen.
Het systeem berekent dingen als gemiddelden en dergelijke uit de database. Dit moet wel een relationele database zijn, voor de IT’ers onder u: een database die op is gebouwd uit tabellen. Dit is overigens met de meeste databases het geval. Het systeem gebruikt de koppelingen tussen tabellen als middel om verbanden te vinden. Ook berekent het systeem zaken als gemiddelden, minima, maxima en dergelijke. Dan bestudeert het systeem hoe deze variabelen met elkaar samenhangen.
Ook zoekt het systeem categorische data, denk aan dag van de week of merknamen.
De volgende stap is deze variabelen uitproberen op voorbeelddata en ze fine-tunen, bijvoorbeeld door iets aan de vergelijkingen waarmee ze worden gecombineerd te veranderen, om zo de voorspellende kracht te verbeteren.
De gevolgen
Big data zal door deze ontdekking nog veel waardevoller worden dan nu. Over het algemeen is dat goed nieuws, want daardoor zullen producten en overheidsdiensten beter en goedkoper worden. Aan de andere kant vergroot dat de voorsprong die bezitters van big data, doorgaans overheden en grote bedrijven nu al hebben op de rest van de mensheid. Het is daarom denk ik belangrijker dan ooit, om big data-bronnen publiek te maken en te houden en open-source big data analysetools te ontwikkelen.
Meer informatie
Data Science Machine crunches numbers faster and more effectively than most humans, MIT CSAIL News, 2015
Deep Feature Synthesis: Towards Automating Data Science Endeavors, 2015.