Doorbraak in zoeken door ‘onleesbare’ teksten

Onderzoekers van de Rijksuniversiteit Groningen hebben een techniek ontwikkeld om snel relevante informatie te filteren. Het gaat dan om lappen tekst die helemaal niet geschreven zijn om van a tot z te lezen. Dankzij de nieuwe methode kunnen nu ook nauwelijks gestructureerde teksten, losse notities en intern bedoelde documenten worden gescand. De bedenker van deze vorm van kunstmatige intelligentie is Ashwin Ittoo. Hij verwacht dat de algoritmen die hij heeft ontwikkeld zeer breed toepasbaar zijn, tot zoekmachines als Google aan toe.

Voor een computer is het vinden van woordjes of combinaties daarvan in grote hoeveelheden tekst heel eenvoudig. Maar om een computer een tekst te laten begrijpen en er een conclusie uit te laten destilleren, is een techniek die nog sterk in ontwikkeling is. Dat vereist zogeheten ‘Natural Language Processing’ (NLP), een zijtak van kunstmatige intelligentie. Zo was het heel bijzonder toen de Watson-supercomputer van IBM een klein jaar geleden in staat bleek quizvragen beter te begrijpen en te beantwoorden dan de mens.

Kladjes

Het zal nog wel even duren voordat deze brief van David Livingstone goed door computers te lezen is, maar de eerste stappen zijn gezet.

Niet geheel toevallig werkte informaticus Ittoo aan vergelijkbare technieken als het Watson-project, want NLP vormde daarvoor de grondslag. Zijn algoritmes ontsluiten echter een enorme hoeveelheid extra informatie. Het was al mogelijk een computer goed leesbare teksten, zoals nieuwsberichten en wetenschappelijke artikelen, te laten begrijpen en er relevante informatie aan te onttrekken. Maar deze tekstanalyse kan nu ook worden toegepast op in telegramstijl geschreven informele kladjes, vol spel- en grammatica-fouten, zoals klachtenformulieren van klanten of interne memo’s. Ittoo testte en ontwikkelde zijn zoek-algoritmes onder meer bij Philips Health Care en Bang&Olufsen. Beide bedrijven gebruiken inmiddels prototypes van zijn zoektechniek om hun bedrijfsinformatie, bijvoorbeeld over klanttevredenheid, te verfijnen.

Terrorismebestrijding

Hoewel de techniek is ontwikkeld bij bedrijven in consumenten-elektronica, is deze veel breder toepasbaar, onder meer in medische dossiers, in financiële documenten, in terrorismebestrijding en in zoekmachines. Ittoo stelt vast dat zoeken via Google vaak zeer veel resultaten oplevert, waardoor de behoefte bestaat die trefzeker te kunnen filteren. Hij verwacht dat zijn algoritmes daarbij behulpzaam zijn. De verfijning van de bestaande NLP-technieken is niet alleen een wetenschappelijke stap voorwaarts, maar ook een commercieel interessante vinding. Alleen al in de Verenigde Staten wordt de markt voor dit soort tekst-analyse geschat op $ 835 mln. En het aantal gebruikers van de benodigde software steeg in 2010 met 25%. Daarom streeft Ittoo naar spoedige commerciële toepassing van zijn algoritmes. Die zijn nu specifiek voor de Engelse taal ontwikkeld, maar ze zijn toepasbaar voor elke taal, als daar maar een goed model voor bestaat.

Ittoo promoveert vandaag, 5 januari 2012, aan de Faculteit Economie en Bedrijfskunde.

Bron: Rijksuniversiteit Groningen