
Scraper de Données Twitter / X
01. Vue d'ensemble
Outil CLI Python basé sur Selenium pour extraire des tweets par profil, hashtag ou requête, avec authentification flexible et export CSV.
Objectif
Construire un outil flexible et authentifié pour collecter des données Twitter/X à des fins d'analyse et de recherche.
Résultat
Un scraper opérationnel avec extraction multi-modes, limites configurables et sortie CSV structurée.
02. Stack technique
03. Fonctionnalités clés
Extraction de tweets par profil, hashtag ou requête
Authentification flexible: arguments CLI, fichier .env ou prompt interactif
Limite de tweets configurable (50 par défaut ou illimitée)
Support des tris latest et top
Support des requêtes avancées compatibles recherche Twitter
Export CSV avec métadonnées optionnelles du compte auteur
04. Pipeline d'ingénierie
Configuration de Selenium avec ChromeDriver pour l'automatisation navigateur
Conception de l'interface CLI avec argparse et options d'authentification/extraction
Implémentation des modes d'extraction par profil, hashtag et requête
Ajout de l'export CSV avec champs étendus optionnels (followers/following)
05. Défis & exécution
Contrainte
Gérer de manière fiable le contenu Twitter dynamique rendu en JavaScript via Selenium
Exécution
Utilisation de Selenium WebDriver avec attentes explicites pour stabiliser le rendu dynamique.
Contrainte
Concevoir un système d'authentification flexible (variables d'environnement, args CLI, prompt interactif)
Exécution
Mise en place d'une authentification en cascade: arguments CLI, puis .env, puis prompt interactif.
Contrainte
Implémenter une extraction compatible avec les limites de fréquence sans bannissement
Exécution
Ajout de limites configurables et d'un mode sans limite pour les collectes volumineuses.