Atelier fichiers parquet et PMSI au congrès Emois 2026

23 Avril 2026

EMOIS LibreDataHub

Le congrès EMOIS, dédié à l’information médicale de la production à l’exploitation, réunit chaque année les acteurs de la donnée de santé, de l’informatique médicale et de l’épidémiologie¹ autour de thèmes de fond et d’actualité, à la croisée des enjeux nationaux et internationaux.

L’édition 2026 s’est tenue à Saint-Malo du 11 au 13 mars.

Lors du congrès 2024, nous avions déjà présenté un un poster appelant à davantage de mutualisation des outils et des méthodes d’analyse des données de santé à différentes échelles territoriales. L’idée centrale était de favoriser le partage de pratiques et de compétences entre établissements de santé, agences et institutions publiques, confrontés à des problématiques similaires autour de l’exploitation de la donnée.

Deux ans plus tard, lors de l’édition 2026, des acteurs de la donnée de santé se sont réunis pour proposer un atelier pratique consacré au data management. Le thème choisi : la mise en format Parquet des données PMSI, en s’appuyant sur R, Python, DuckDB et S3, avec un focus particulier sur les apports de la plateforme LibreDataHub éditée par l’association InterHop.

Résumé de l’atelier

Deux sessions de 1h30 ont été organisées, réunissant au total une cinquantaine de participants. Elles ont été animées par des membres d’InterHop, du CHU de Brest et de l’ATIH.

Animateurs

InterHop : Adrien Parrot, Antoine Lamer
CHU de Brest : Guillaume Pressiat, Lucas Bourneuf
ATIH : Raphaël Simon, Vincent Biot

Données utilisées

Une base école PMSI de l’ATIH (années 2022 et 2023) a été utilisée. Celle-ci a été échantillonnée afin de produire des fichiers PMSI fictifs au format RSA.

Outils utilisés

LibreDataHub, Python, R, cloudbeaver, duckdb, S3

Déroulé et retours

L’atelier a débuté par une introduction au format Parquet et à son écosystème (Arrow, DuckDB, Polars, S3), avant de passer à une mise en pratique sur des données PMSI fictives.

Les participants ont pu successivement :

lire les données avec R (via pmeasyr) et Python (via pypmsi) ;
les convertir au format Parquet ;
interroger les données avec DuckDB ;
puis explorer les usages du stockage distant via S3.

Lors des deux sessions, de nombreuses personnes se sont trouvées intéressées par le parquet et l’évolution des outils, mais ont indiqué être parfois bloquées au niveau de leurs institutions ou de la méconnaissance des «nouvelles technologies de la data». Le fait que l’ATIH soit présente et utilis aussi le format parquet a motivé les participants·es à s’y intéresser , et à aborder le sujet à nouveau dans leurs établissements ou institutions. De nombreuses discussions ont eu lieu, y compris après les ateliers.

studieux

ici une photo de l’atelier où on voit plein de gens studieux et un intervenant (en cravate, évidemment)

Des notions plus techniques ont également été abordées au fil de l’atelier : formats binaires, compression, predicate pushdown ou encore stratégies de partitionnement.

Les supports de présentation sont accessibles ici.

Mise en œuvre technique

La plateforme LibreDataHub a été utilisée tout au long de l’atelier, avec plusieurs environnements accessibles aux participants :

Jupyter
RStudio
CloudBeaver
stockage S3 de l’association

L’accès a été simplifié grâce à une authentification Basic-Auth et à des comptes préconfigurés distribués sous forme de cartes individuelles plastifiées, permettant une prise en main immédiate sans phase d’installation.

petites cartes plastifiées de connexion à libredatahub

les petites cartes, distribuées à chaque participant·e pour l’accès à la plateforme

D’un point de vue technique, l’atelier s’est déroulé dans de très bonnes conditions. Le serveur a supporté la charge sans difficulté notable, et la grande majorité des participants ont pu réaliser l’ensemble des exercices. Quelques cas isolés de blocage réseau ont été observés, liés notamment aux VPN de leur organisme empêchant l’accès à la plateforme.

L’utilisation d’un environnement unifié, prêt à l’emploi, a été un facteur clé de réussite :

aucun problème d’installation ou de compatibilité logicielle ;
aucune contrainte de configuration locale ;
des données directement accessibles dans l’environnement ;
une authentification rapide et homogène.

Conclusion

Cet atelier a mis en évidence plusieurs éléments importants :

une forte dynamique de partage entre participants et animateurs ;
un besoin réel de formation et d’accompagnement sur les technologies modernes de la data en santé ;
l’intérêt croissant pour des outils comme Parquet, DuckDB ou les architectures de données distribuées ;
la possibilité concrète de construire des environnements communs pour faciliter la montée en compétence collective ;
l’enrichissement apporté par la diversité des profils et des institutions présentes.

Au-delà de l’aspect technique, ces deux sessions ont surtout montré l’intérêt de créer des espaces de travail partagés, propices aux échanges, à la pratique et à la montée en compétences commune.

Enfin, il est important de souligner que l’ensemble des technologies mobilisées lors de cet atelier est open source et à l’état de l’art. Elles s’inscrivent dans un écosystème moderne, robuste et en pleine évolution, déjà largement utilisé dans les communautés data engineering et data science, y compris à grande échelle.

Un grand merci à l’ensemble des organisateurs et participants, ainsi qu’à Mme Bannay et au comité d’organisation du congrès EMOIS pour leur accueil.

https://www.emois.org/ ↩

InterHop