Ce tutoriel s’adresse à des dataminers ou data scientists qui sont confrontés à une problématique de text mining usuelle : comment identifier la langue d’un message. Ce tutoriel présente une implémentation simple de la librairie Java ‘language-detection‘ au sein de Talend. Le tutoriel se veut le plus pédagogue possible pour les profanes de Talend, et […]
Étiquette : talend
Nous avons expliqué précédemment comment collecter des tweets. Il peut être intéressant de « découper » ces messages en mots afin de procéder à des analyses de fréquences. Cela est utile pour analyser les discours au sein d’un corpus. Je vous propose une méthode simple à mettre en oeuvre à l’aide de Talend. D’abord, authentifiez-vous à Twitter […]
Twitter est le site de contenus le plus fréquemment mis à jour ; environ 500 millions de messages sont postés quotidiennement sur sa plateforme. Dans un précédent billet, je me suis intéressé de près à la valeur de Twitter, en tant que moteur de recommandation ou pour la recherche de marché, d’autant plus que Twitter […]