Algoritme voorspelt trending topics op Twitter

MIT claimt een algoritme te hebben ontwikkeld waarmee uiterst nauwkeurig kan worden voorspeld welke onderwerpen trending topic worden. Maar er zijn meer voorspellingen mogelijk.

MIT-professor Devavrat Shah beweert dat hij een algoritme heeft gevonden dat grote hoeveelheden real-time data van Twitter doorspit en vervolgens enkele uren vooraf voorspelt welke onderwerpen trends worden. Uit zijn test blijkt dat 95 procent van de voorspelde onderwerpen later ook daadwerkelijk 'trending topic' worden op het microblog.

Data beslist zelf
Het algoritme heeft volgens een publicatie van MIT een unieke manier waarop het data beoordeelt. Door het voortdurend koppelen van real-time data aan historische data leert het algoritme op basis van gebeurtenissen uit het verleden welke onderwerpen hetzelfde patroon volgen en dus op korte termijn trends worden. Het computermodel geeft daarbij 'live' gewicht aan onderwerpen welke de meeste overeenkomsten vertonen.

Tot dusver is het algoritme toegepast op 400 onderwerpen, waarvan de helft wel en de helft niet trends waren. Volgens MIT wordt het algoritme sterker wanneer deze getraind is om de juiste patronen in datasets te herkennen. Het unieke is dat het daarbij gebruik maakt van een zogenaamde verdelingsvrije toets.

Meer voorspellingen

Bij het ontwikkelen van het algoritme heeft Shah hulp uit de juiste kringen gehad. De assistent van de MIT-professor bij dit project is student Stanislav Nikolov, tevens medewerker van Twitter. Dat bedrijf heeft al interesse getoond in het rekenmodel, dat in de toekomst volgens Shah mogelijk kan inspringen bij het actueel plaatsen van gerichte advertenties.

Maar de mogelijkheden zijn groter dan alleen het microblog. Het algoritme kan zichzelf mogelijk verder ontwikkelen tot een rekenmodel dat aandeelkoersen, kaartverkoop en andere dynamisch veranderende data kan voorspellen. Kanttekening daarbij is data van Twitter-posts relatief 'schoon' is, wat betekent dat er een sterke correlatie bestaat tussen verleden en toekomst. Andere historische datasets gebruiken bij voorspellingen zou mogelijk te veel computerkracht kosten.