datapyranhia : mon data package R pour arrêter de perdre du temps en formation
R package, Dataset, Formation R, Pédagogie, Data science
datapyranhia : mon data package R pour arrêter de perdre du temps en formation
Installation en une ligne, datasets prêts à l’emploi, zero friction technique. Voilà pourquoi j’ai créé mon propre datapackage.
Le problème
Télécharger des CSV, résoudre des problèmes d’encodage, chercher où on a mis le fichier, déboguer des chemins relatifs…
Le scénario classique : tout le monde arrive motivé, prêt à apprendre… et on passe 30 minutes à déboguer des problèmes d’import de fichiers. L’énergie du démarrage part en fumée.
Et puis il y a la question de la distribution : comment faire passer les données aux apprenants ? Un dossier partagé ? Un lien Dropbox ? Les mettre dans le repo Git ? Ça marche pour les petits fichiers, mais dès qu’on a des datasets volumineux, ça coince.
La solution
Un package qui regroupe tous mes datasets, prêts à l’emploi :
# install.packages("pak")
pak::pak("pyranhia/datapyranhia")
data(titanic)2 minutes chrono. Tout le monde a les mêmes données, propres, documentées. On peut démarrer.
Ça rejoint mon setup complet : Posit Cloud (zero installation), renv (packages contrôlés), repo GitHub (structure prête). L’objectif : éliminer toutes les frictions techniques possibles.
Contenu du package
7 datasets pour l’instant, que j’utilise principalement dans la formation Machine Learning avec R :
| Dataset | Description | Taille | Usage |
|---|---|---|---|
adult |
Revenus et caractéristiques démographiques | 32561 × 15 | Classification binaire |
ames |
Prix de l’immobilier à Ames, Iowa | 2930 × 74 | Régression |
housing |
Prix de l’immobilier en Californie | 20640 × 9 | Régression |
mnist |
Chiffres manuscrits 0-9 (images 28×28) | 70000 images | Classification 10 classes |
sportif |
Données de performances de sportifs (exemple pédagogique) | 500 × 3 | Démonstration ML |
titanic |
Survie des passagers du Titanic | 891 × 12 | Classification binaire |
wine |
Qualité des vins | 6497 × 12 | Régression/Classification |
Chaque dataset est documenté (?titanic affiche tout). Le package est évolutif : j’ajoute des datasets au fur et à mesure que je crée de nouvelles formations.
Pour MNIST, j’ai ajouté une fonction qui gère le preprocessing Keras :
datasets <- mnist_to_dataset(validation_split = 0.2, batch_size = 64)Une ligne, c’est prêt pour l’entraînement.
Pourquoi c’est utile
En formation : démarrage immédiat. Pas de “ah mince ça marche pas chez moi”, pas de debug collectif de chemins de fichiers.
Après la formation : les apprenants ont une collection de données pour continuer à pratiquer. Envie de refaire une régression ? data(ames). Tester une nouvelle librairie ? data(wine). Les données sont là, propres, prêtes.
La suite
Le package est accessible sur GitHub. J’ajouterai des datasets au fur et à mesure que je développe de nouvelles formations.
Si vous formez en R, servez-vous ou créez le vôtre. C’est vraiment pas compliqué et ça change tout.
Comment je l’ai fait
Je me suis inspirée du tutoriel R for the Rest of Us. Super ressource si vous voulez créer le vôtre.
Créer ce package m’a forcée à :