Wil je weten welke informatie uit de media de gemoederen het meest bezig hielden? Probeer dan eens de site Peilend.nl. Deze site mede ontwikkeld door de UvA koppelt via het web verkregen informatie (uit o.a. Algemeen dagblad, NRC, Trouw) aan het aantal reakties op de verschillende berichten. Ook kun je zoeken naar de 10 meest genoemde steden in bijvoorbeeld de verschillende nieuwsartikelen (in- of exclusief reakties) op woensdag 6 maart.
Wil je weten welke namen het meest zijn gebruikt in de afgelopen week in alle artikelen genereert de applicatie een prachtige tagcloud voor je.
De applicatie probeert inzicht te krijgen in de 'commentosphere' (de wereld van het reageren op nieuwsartikelen). Ze probeert hierbij vragen te beantwoorden zoals wie regaeert er, reageren ze op elkaar, in welke taal wordt er gereageerd, waar komen ze vandaan, hoe kun je een persoon achter een reaktie indentificeren, etcetera.
Het geheel is gebaseerd op de bachelor thesis 'Applied Text Analytics for Comments on News-Articles' (PDF) van Anne Schuth.
ABSTRACT
Several on-line daily newspapers offer readers the opportunity to directly comment on articles. In the Netherlands this feature is used quite often and the quality grammatically and content-wise) is surprisingly high. The paper develops techniques to collect, store, enrich and analyze these comments. After giving a high-level overview of the Dutch 'commentosphere' we zoom in on extracting the discussion structure found in flat comment threads; people not only comment on the news article, they also heavily comment on other comments, resembling discussion fora. We show how techniques from information retrieval, natural language processing and machine learning can be used to extract the 'reacts-on' relation between comments with remarkably high precision and recall.
Leave a comment