datapyranhia : mon data package R pour arrêter de perdre du temps en formation

Packages R

Pédagogie

Un datapackage pour que mes formations démarrent en 2 minutes au lieu de 30.

Auteur·rice

Thelma Panaïotis

Date de publication

11 février 2026

Mots clés

R package, Dataset, Formation R, Pédagogie, Data science

datapyranhia : mon data package R pour arrêter de perdre du temps en formation

Installation en une ligne, datasets prêts à l’emploi, zero friction technique. Voilà pourquoi j’ai créé mon propre datapackage.

Le problème

Télécharger des CSV, résoudre des problèmes d’encodage, chercher où on a mis le fichier, déboguer des chemins relatifs…

Le scénario classique : tout le monde arrive motivé, prêt à apprendre… et on passe 30 minutes à déboguer des problèmes d’import de fichiers. L’énergie du démarrage part en fumée.

Et puis il y a la question de la distribution : comment faire passer les données aux apprenants ? Un dossier partagé ? Un lien Dropbox ? Les mettre dans le repo Git ? Ça marche pour les petits fichiers, mais dès qu’on a des datasets volumineux, ça coince.

La solution

Un package qui regroupe tous mes datasets, prêts à l’emploi :

# install.packages("pak")
pak::pak("pyranhia/datapyranhia")
data(titanic)

2 minutes chrono. Tout le monde a les mêmes données, propres, documentées. On peut démarrer.

Ça rejoint mon setup complet : Posit Cloud (zero installation), renv (packages contrôlés), repo GitHub (structure prête). L’objectif : éliminer toutes les frictions techniques possibles.

Contenu du package

7 datasets pour l’instant, que j’utilise principalement dans la formation Machine Learning avec R :

Dataset	Description	Taille	Usage
`adult`	Revenus et caractéristiques démographiques	32561 × 15	Classification binaire
`ames`	Prix de l’immobilier à Ames, Iowa	2930 × 74	Régression
`housing`	Prix de l’immobilier en Californie	20640 × 9	Régression
`mnist`	Chiffres manuscrits 0-9 (images 28×28)	70000 images	Classification 10 classes
`sportif`	Données de performances de sportifs (exemple pédagogique)	500 × 3	Démonstration ML
`titanic`	Survie des passagers du Titanic	891 × 12	Classification binaire
`wine`	Qualité des vins	6497 × 12	Régression/Classification

Chaque dataset est documenté (?titanic affiche tout). Le package est évolutif : j’ajoute des datasets au fur et à mesure que je crée de nouvelles formations.

Pour MNIST, j’ai ajouté une fonction qui gère le preprocessing Keras :

datasets <- mnist_to_dataset(validation_split = 0.2, batch_size = 64)

Une ligne, c’est prêt pour l’entraînement.

Pourquoi c’est utile

En formation : démarrage immédiat. Pas de “ah mince ça marche pas chez moi”, pas de debug collectif de chemins de fichiers.

Après la formation : les apprenants ont une collection de données pour continuer à pratiquer. Envie de refaire une régression ? data(ames). Tester une nouvelle librairie ? data(wine). Les données sont là, propres, prêtes.

Comment je l’ai fait

Je me suis inspirée du tutoriel R for the Rest of Us. Super ressource si vous voulez créer le vôtre.

Créer ce package m’a forcée à :

bien documenter (on écrit différemment quand d’autres vont lire) ;
comprendre les licences des datasets ;
mettre en place des tests et GitHub Actions 🚀

La suite

Le package est accessible sur GitHub. J’ajouterai des datasets au fur et à mesure que je développe de nouvelles formations.

Si vous formez en R, servez-vous ou créez le vôtre. C’est vraiment pas compliqué et ça change tout.

Découvrir mes formations

Me contacter