Ce tutoriel s’adresse à des dataminers ou data scientists qui sont confrontés à une problématique de text mining usuelle : comment identifier la langue d’un message. Ce tutoriel présente une implémentation simple de la librairie Java ‘language-detection‘ au sein de Talend. Le tutoriel se veut le plus pédagogue possible pour les profanes de Talend, et […]
Étiquette : data science
Le précédent tutoriel expliquait comment constituer un dataset de tweets et le formater pour le rendre facilement manipulable. Nous allons expliquer comment exploiter partiellement ces données pour construire un tableau de bord. Pour cela, nous allons nous appuyer sur une solution propriétaire, Tableau desktop, développée par Tableau Software. L’outil étant payant, il est toutefois possible […]
Nous avons expliqué précédemment comment collecter des tweets. Il peut être intéressant de « découper » ces messages en mots afin de procéder à des analyses de fréquences. Cela est utile pour analyser les discours au sein d’un corpus. Je vous propose une méthode simple à mettre en oeuvre à l’aide de Talend. D’abord, authentifiez-vous à Twitter […]