Pour compléter le tutoriel sur la détection de la langue d’un message, nous allons maintenant voir comment appliquer des traitements text mining avancés à un corpus, à l’aide de la librairie Stanford CoreNLP. Le groupe de recherche de l’université de Stanford partage depuis plusieurs années une série d’outils, parmi les meilleurs du marché, en Java, […]
Catégorie : Tutoriels
N’avez-vous jamais été surpris par la qualité des recommandations de Spotify, une fois l’écoute d’un album terminée ? Le service de streaming dispose de données plutôt riches concernant les titres de son catalogue et peut ainsi créer des enchaînements pertinents. Par exemple, Spotify prend en compte des critères d’énergie, de positivité, de tempo, etc. Je vous propose […]
Ce tutoriel s’adresse à des dataminers ou data scientists qui sont confrontés à une problématique de text mining usuelle : comment identifier la langue d’un message. Ce tutoriel présente une implémentation simple de la librairie Java ‘language-detection‘ au sein de Talend. Le tutoriel se veut le plus pédagogue possible pour les profanes de Talend, et […]
Le suivi d’une conversation en temps-réel sur les réseaux sociaux est une pratique courante dans les directions marketing et communication, afin de recueillir des retours de la part des consommateurs, détecter des tendances ou d’inscrire le discours de la marque dans l’instant. Ce tutoriel propose un modèle opératoire simple pour comprendre l’évolution d’une conversation sur […]
Le précédent tutoriel expliquait comment constituer un dataset de tweets et le formater pour le rendre facilement manipulable. Nous allons expliquer comment exploiter partiellement ces données pour construire un tableau de bord. Pour cela, nous allons nous appuyer sur une solution propriétaire, Tableau desktop, développée par Tableau Software. L’outil étant payant, il est toutefois possible […]
Nous avons expliqué précédemment comment collecter des tweets. Il peut être intéressant de « découper » ces messages en mots afin de procéder à des analyses de fréquences. Cela est utile pour analyser les discours au sein d’un corpus. Je vous propose une méthode simple à mettre en oeuvre à l’aide de Talend. D’abord, authentifiez-vous à Twitter […]
Twitter est le site de contenus le plus fréquemment mis à jour ; environ 500 millions de messages sont postés quotidiennement sur sa plateforme. Dans un précédent billet, je me suis intéressé de près à la valeur de Twitter, en tant que moteur de recommandation ou pour la recherche de marché, d’autant plus que Twitter […]