Data Science Machine verslaat met algoritmes menselijke intuïtie

Share Button

Al weer een typisch menselijk domein lijkt nu gesneuveld. Na rekenkracht, gezichtsherkenning en het spelen van schaak is nu de menselijke intuïtie overtroffen door de Data Science Machine.

Algoritme presteert beter dan meeste menselijke dataspecialisten
Big data analyse bestaat uit het zoeken van verborgen liggende patronen die een bepaald soort voorspellende kracht hebben. De mens is nog nodig met het herkennen van bruikbare patronen binnen de data. In een database met bijvoorbeeld de begin-  en einddata van verschillende uitverkoopperiodes en wekelijkse winsten, bestaat de cruciale informatie mogelijk niet uit de datums zelf, maar uit de periode tussen de actieweken en de gemiddelde winst over deze perioden.

Onderzoekers van de Amerikaanse technische universiteit MIT in Boston, Massachusetts, proberen het menselijke element uit big data analyse te halen. Dit met een nieuw systeem dat niet alleen zoekt naar patronen, maar ook kijkt naar wat de meest veelbelovende parameters zijn. Om hun systeem te testen, lieten ze hun “Data Science Machine” meedoen met  drie wedstrijden tegen menselijke teams. In deze wedstrijden moet het systeem voorspellende patronen herkennen in onbekende datasets.  Van de 906 teams die meededen aan de drie competities, presteerde de “Data Science Machine” beter dan 615.

Big Data wordt steeds waardevoller, zeker door deze nieuwe ontdekking waarmee een computerprogramma menselijke datadeskundigen klopt.

Big Data wordt steeds waardevoller, zeker door deze nieuwe ontdekking waarmee een computerprogramma menselijke datadeskundigen klopt. Bron: mit.edu

In de competities scoorde de Data Science Machine respectievelijk 94 procent, 96 procent en 87 procent van de score van de winnende inzendingen. Waar de winnende teams maanden deden over het bedenken en verfijnen van hun algoritmes, deed de Data Science Machine er tussen twee en twaalf uur over per inzending.

De bedenkers van de Data Science Machine, Max Kanter en Kalyan Veeramachaneni, zien hun systeem als complementair aan de menselijke intelligentie. Volgens hem kan door de Data Science Machine veel meer deep data worden geanalyseerd dan nu door de schaarse deep data specialisten.

Hoe werkte het systeem?
In big data analyse zoals die nu plaatsvindt, is de eerste stap, het ontdekken van variabelen die voorspellende waarde hebben. Dit vereist het bedenken van heel mogelijkheden, met andere woorden de nodige creativiteit en inzicht. De auteurs gaven het voorbeeld van het voorspellen van de drop-out hoeveelheid van studenten. Belangrijke variabelen hierbij bleken vooral de mate waarin studenten de e-learning website bezochten, vergeleken met klasgenoten, en hoe lang voor de deadline de student begint met het werken aan de opdracht. Deze informatie was niet direct uit de brondata (van het e-learningplatform van MIT, MITx) af te leiden, maar indirect wel te berekenen.

Het systeem berekent dingen als gemiddelden en dergelijke uit de database. Dit moet wel een relationele database zijn, voor de IT’ers onder u: een database die op is gebouwd uit tabellen. Dit is overigens met de meeste databases het geval. Het systeem gebruikt de koppelingen tussen tabellen als middel om verbanden te vinden. Ook berekent het systeem zaken als gemiddelden, minima, maxima en dergelijke. Dan bestudeert het systeem hoe deze variabelen met elkaar samenhangen.

Ook zoekt het systeem categorische data, denk aan dag van de week of merknamen.

De volgende stap is deze variabelen uitproberen op voorbeelddata en ze fine-tunen, bijvoorbeeld door iets aan de vergelijkingen waarmee ze worden gecombineerd te veranderen, om zo de voorspellende kracht te verbeteren.

De gevolgen
Big data zal door deze ontdekking nog veel waardevoller worden dan nu. Over het algemeen is dat goed nieuws, want daardoor zullen producten en overheidsdiensten beter en goedkoper worden. Aan de andere kant vergroot dat de voorsprong die bezitters van big data, doorgaans overheden en grote bedrijven nu al hebben op de rest van de mensheid.  Het is daarom denk ik belangrijker dan ooit, om big data-bronnen publiek te maken en te houden en open-source big data analysetools te ontwikkelen.

Meer informatie
Data Science Machine crunches numbers faster and more effectively than most humans, MIT CSAIL News, 2015
Deep Feature Synthesis: Towards Automating Data Science Endeavors, 2015. 

Share Button

Germen

Hoofdredacteur en analist (Visionair.nl) Expertise: biologische productiesystemen (master), natuurkunde (gedeeltelijek bachelor), informatica

Dit vind je misschien ook interessant:

3 reacties

  1. antares schreef:

    Aan gezien mijn reactie op het artikel “Nanorobots rukken steeds verder op”, naar mijn mening relevant is met wat ik hier boven aantref, heb ik de inhoud van mijn reactie daar, hieronder gekopieerd.
    (EDIT: kopiëren kan op AdS en dergelijke sites, niet op Visionair. -red.)

    • antares schreef:

      Ik kan moeilijk plagiaat op mijn geheel eigen visies, interpretaties, en van daaruit gepubliceerde reacties plegen. AdS en dergelijke sites ken ik niet eens. Wat ik hier schrijf en ooit schreef onder andere pseudoniemen, is zonder uitzondering uitsluitend mijn originele interpretatie van de werkelijkheid, of het gepubliceerde in de artikelen hier geweest. Daarbij komt ten overvloede nog, dat zeer veel hier gepubliceerde artikelen al veel eerder, elders door mij gelezen en gevolgd zijn. Dat stoort mij niet, integendeel. Ik vindt dit juist erg handig, daar ik mij dan zo tevoren al in de relevante informatie in heb kunnen lezen. Mijn vaak lange en uitgebreide reacties vloeien daar uit voort. De redenen waarom ik hier voor het allereerst, en dus überhaupt één reactie van mijzelf heb gekopieerd is; mij ontbrak de energie die nodig was en is, omdat ik zelf doodziek ben, en tegelijkertijd recent een dramatisch, plotseling sterfgeval moest mee maken in de familiekring. Meer ga ik daar over beslist niet zeggen, vul zelf maar in wat daar gebeurd is.

      Overigens:

      Kopiëren blijkt hier dus wel degelijk te kunnen, ik deed het één keer, toch? Douwe deed dit constant hier uit andermans werk, tot grote ergernis van zeer velen.

Geef een reactie

Advertisment ad adsense adlogger