Scraper de Données Twitter / X
2024-05-01Données & Automatisation

Scraper de Données Twitter / X

PythonSeleniumdotenvargparseCSV+1

01. Vue d'ensemble

Outil CLI Python basé sur Selenium pour extraire des tweets par profil, hashtag ou requête, avec authentification flexible et export CSV.

Objectif

Construire un outil flexible et authentifié pour collecter des données Twitter/X à des fins d'analyse et de recherche.

Résultat

Un scraper opérationnel avec extraction multi-modes, limites configurables et sortie CSV structurée.

02. Stack technique

Python
Selenium
dotenv
argparse
CSV
CLI

03. Fonctionnalités clés

Extraction de tweets par profil, hashtag ou requête

Authentification flexible: arguments CLI, fichier .env ou prompt interactif

Limite de tweets configurable (50 par défaut ou illimitée)

Support des tris latest et top

Support des requêtes avancées compatibles recherche Twitter

Export CSV avec métadonnées optionnelles du compte auteur

04. Pipeline d'ingénierie

01

Configuration de Selenium avec ChromeDriver pour l'automatisation navigateur

02

Conception de l'interface CLI avec argparse et options d'authentification/extraction

03

Implémentation des modes d'extraction par profil, hashtag et requête

04

Ajout de l'export CSV avec champs étendus optionnels (followers/following)

05. Défis & exécution

Contrainte

Gérer de manière fiable le contenu Twitter dynamique rendu en JavaScript via Selenium

Exécution

Utilisation de Selenium WebDriver avec attentes explicites pour stabiliser le rendu dynamique.

Contrainte

Concevoir un système d'authentification flexible (variables d'environnement, args CLI, prompt interactif)

Exécution

Mise en place d'une authentification en cascade: arguments CLI, puis .env, puis prompt interactif.

Contrainte

Implémenter une extraction compatible avec les limites de fréquence sans bannissement

Exécution

Ajout de limites configurables et d'un mode sans limite pour les collectes volumineuses.

Retour à l'archive.

Emmanuel Adoum | Portfolio