Ce billet vise à présenter une liste préliminaire des sujets qui seront explorés lors du Datathon 2025, organisé par l’association InterHop les 11 et 12 septembre 2025.
Notre objectif est de réunir des professionnel·les de santé, des data scientists, des ingénieur·es et des designer·euses pour travailler ensemble sur des projets concrets dans le domaine de la santé numérique.
📅 Une réunion d’information en visioconférence aura lieu en visio le mardi 8 juillet à 13h, pour présenter le format du Datathon, les jeux de données, l’infrastructure, et répondre aux questions.
🔗 Plus d’infos sur l’événement : Page Datathon InterHop
🙏 Merci à l’Agence du Numérique en Santé, partenaire de l’événement !
🔍 Sources de données
- Base principale : MIMIC-III (Medical Information Mart for Intensive Care), adaptée au modèle OMOP CDM. L’ accès nécessite la création d’un compte sur physionet et la signature de l’accord sur l’utilisation des données (DUA).
- Possibilité de travailler avec des données synthétiques pour les projets sensibles ou expérimentaux (voir sujet “LLMs”).
🖥️ Infrastructure technique
- Accès à la plateforme LibreDataHub fournie par InterHop.
- Serveurs GPU fournis par notre prestataire HDS GPLExpert pour les projets nécessitant des capacités de calcul élevées (LLM, NLP, etc.).
- Apportez votre ordinateur portable !
💡 Sujets proposés
1. 🗺️ Cartographie de l’offre de soins
Compétences : Data Engineer · UX Design · Web
Objectif : Améliorer la plateforme carto.toobib.org, en enrichissant les données issues de FINESS avec celles d’OpenStreetMap (OSM), et en développant un export automatique vers data.gouv.fr.
Partenariat : Toobib.org, association militante pour un numérique en santé libre et éthique.
Sources utiles :
- RPPS
- CNAM - Annuaire santé
- FINESS
- Forum OSM - Offre de santé
- Alignements vers Base Adresse Nationale BAN et Référentiel National des Bâtiments RNB
2. 📊 Dashboard en anesthésie et réanimation
Compétences : Data Engineer · Data Science · UX Design · Web
Objectif : Concevoir des dashboards pour visualiser les indicateurs en anesthésie-réanimation à partir des extractions de logiciels métiers (Philips, Bow Medical), dans le modèle OMOP.
Partenaires : Philips, Bow Medical ainsi que des membres du groupe numérique de la SFAR (Société Française d’Anesthésie-Réanimation) seront présents pour nous aider.
Ressources :
- Development, implementation and preliminary evaluation of clinical dashboards
- The Development of a Clinical Dashboard for Monitoring of Key Performance Indicators in ICU
- How Do We Use Dashboards to Enhance Quality in Cardiac Anesthesia?
3. 🤖 LLM & Données Synthétiques
Compétences : Data Engineer · Data Science
Objectif : Générer un jeu de données synthétique (tabulaire, texte, voire image) au format OMOP à l’aide de LLMs open source.
Outils pressentis :
Ressources :
- OMOP CDM
- SynthMed - Synthetic Medical Images
- On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey
- Generating high-quality and diverse synthetic datasets with large language models: A survey
- A Text-to-tabular Approach to Generate Synthetic Patient Data using LLMs
4. 🏥 Maternité – Visualisation d’indicateurs
Compétences : Data Viz · Data Engineer · Data Science
Objectif : Dynamiser et visualiser les indicateurs d’activité des maternités françaises : césariennes, péridurales, transferts, etc.
Partenaires : Acteurs bretons de la périnatalité - Réseau Périnatalité Bretagne
Contexte : Suite du projet présenté en 2024
Ressources :
- Development of maternity dashboards across a UK health region; current practice, continuing problems.
- Identifying and Determining Effective Key Performance Indicators in the Development of Maternity Dashboard
- Quality indicator development and implementation in maternity units
5. 🧩 LinkR – Statistiques low-code
Compétences : R · Web · UX Design · Data Engineer
Objectif : Améliorer le module statistique de LinkR, outil low-code destiné aux pros de santé.
Fonctionnalités visées :
- Import automatisé des données
- Tests de qualité (données manquantes, valeurs extrêmes…)
- Statistiques automatiques selon les types de variables
- Génération de sections “Méthodologie” et “Résultats” pour la rédaction scientifique
6. 📄 Reconnaissance des ordonnances médicales (OCR & NLP)
Compétences : Data Engineer · NLP · OCR · Data Science
Objectif : Créer une pipeline d’analyse de documents médicaux PDF (ordonnances) pour extraire, structurer et normaliser les données (actes, médicaments, dispositifs).
Livrable souhaité : Une API open-source de reconnaissance et normalisation des ordonnances, compatible avec des ontologies de santé comme SNOMED CT ou CIM-10.
Ressources complémentaires :
- Deepparse (adresse et texte OCR)
- MedCAT – NLP médical
- OCRmyPDF
- Extraction of Medicine Names from Prescriptions Using Scanning Techniques
- Medical prescription classification: a NLP-based approach
💬 Vous avez une idée ?
Cette liste est ouverte et évolutive : les propositions spontanées sont encouragées ! Vous pouvez aussi rejoindre un sujet existant ou former une équipe autour de votre projet. L’important, c’est l’impact.
📩 Contactez-nous ou venez en discuter lors de la réunion d’information.