datapyranhia : mon data package R pour arrêter de perdre du temps en formation

Packages R
Pédagogie
Un datapackage pour que mes formations démarrent en 2 minutes au lieu de 30.
Auteur·rice

Thelma Panaïotis

Date de publication

11 février 2026

Mots clés

R package, Dataset, Formation R, Pédagogie, Data science

datapyranhia : mon data package R pour arrêter de perdre du temps en formation

Installation en une ligne, datasets prêts à l’emploi, zero friction technique. Voilà pourquoi j’ai créé mon propre datapackage.

Le problème

Télécharger des CSV, résoudre des problèmes d’encodage, chercher où on a mis le fichier, déboguer des chemins relatifs…

Le scénario classique : tout le monde arrive motivé, prêt à apprendre… et on passe 30 minutes à déboguer des problèmes d’import de fichiers. L’énergie du démarrage part en fumée.

Et puis il y a la question de la distribution : comment faire passer les données aux apprenants ? Un dossier partagé ? Un lien Dropbox ? Les mettre dans le repo Git ? Ça marche pour les petits fichiers, mais dès qu’on a des datasets volumineux, ça coince.

La solution

Un package qui regroupe tous mes datasets, prêts à l’emploi :

# install.packages("pak")
pak::pak("pyranhia/datapyranhia")
data(titanic)

2 minutes chrono. Tout le monde a les mêmes données, propres, documentées. On peut démarrer.

Ça rejoint mon setup complet : Posit Cloud (zero installation), renv (packages contrôlés), repo GitHub (structure prête). L’objectif : éliminer toutes les frictions techniques possibles.

Contenu du package

7 datasets pour l’instant, que j’utilise principalement dans la formation Machine Learning avec R :

Dataset Description Taille Usage
adult Revenus et caractéristiques démographiques 32561 × 15 Classification binaire
ames Prix de l’immobilier à Ames, Iowa 2930 × 74 Régression
housing Prix de l’immobilier en Californie 20640 × 9 Régression
mnist Chiffres manuscrits 0-9 (images 28×28) 70000 images Classification 10 classes
sportif Données de performances de sportifs (exemple pédagogique) 500 × 3 Démonstration ML
titanic Survie des passagers du Titanic 891 × 12 Classification binaire
wine Qualité des vins 6497 × 12 Régression/Classification

Chaque dataset est documenté (?titanic affiche tout). Le package est évolutif : j’ajoute des datasets au fur et à mesure que je crée de nouvelles formations.

Pour MNIST, j’ai ajouté une fonction qui gère le preprocessing Keras :

datasets <- mnist_to_dataset(validation_split = 0.2, batch_size = 64)

Une ligne, c’est prêt pour l’entraînement.

Pourquoi c’est utile

En formation : démarrage immédiat. Pas de “ah mince ça marche pas chez moi”, pas de debug collectif de chemins de fichiers.

Après la formation : les apprenants ont une collection de données pour continuer à pratiquer. Envie de refaire une régression ? data(ames). Tester une nouvelle librairie ? data(wine). Les données sont là, propres, prêtes.

Comment je l’ai fait

Je me suis inspirée du tutoriel R for the Rest of Us. Super ressource si vous voulez créer le vôtre.

Créer ce package m’a forcée à :

  • bien documenter (on écrit différemment quand d’autres vont lire) ;
  • comprendre les licences des datasets ;
  • mettre en place des tests et GitHub Actions 🚀

La suite

Le package est accessible sur GitHub. J’ajouterai des datasets au fur et à mesure que je développe de nouvelles formations.

Si vous formez en R, servez-vous ou créez le vôtre. C’est vraiment pas compliqué et ça change tout.