Ce billet de blog vise à renseigner une liste prélimitaire des sujets qui seront traités lors du hackathon sur données (Datathon) organisé par l’association InterHop en septembre 2024.

Cette liste de proposition est indicative et évoluera en fonction de l’envie des participants.

Pour plus d’informations voici en lien le billet de blog présentant les modalités pratiques de réalisation de ce Datathon.

Voici le replay de la réunion d’information sur les modalités pratiques de réalisation du datathon.

La principale source de données utilisée est MIMIC au format OMOP. Les participant.es doivent anticiper la création de leur compte sur physionet avec notamment la signature de l’accord sur l’utilisation des données (DUA).

Nous vous donnons rendez-vous le jeudi 8 août à 13h00 dans le cadre d’une réunion du groupe interCHU pour la constitution des équipes.

FINESS+

Thème principal

  • Data Engineer

Synopsis

La santé prend le virage des parcours coordonnés de soin. Cette ambition nécessite d’avoir des données concernant l’offre de soin qui soient à jour.

Il s’agit en particulier de tenir à jour les données géographiques élémentaires (géolocalisation des 100 000 établissements de soins recensés au FINESS) dans des systèmes ouverts comme OpenStreetMap (OSM) de sorte que ces informations restent exactes et interopérables (tags et iconographies documentés et à jour).

Ce maintien à jour pourra être fait (au moins en partie) au sein de l’association Toobib.org.

Sources de données

  • https://geo.api.gouv.fr
  • https://gateway.api.esante.gouv.fr/fhir
  • https://adresse.data.gouv.fr/api-doc/adresse
  • https://smt.esante.gouv.fr/fhir/CodeSystem/
  • https://rnb.beta.gouv.fr/
  • https://framagit.org/terminos/irene/-/tree/main

Indicateur Maternité

Thème principal

  • Data visualization

Synopsis

L’ensemble des maternités de France fournissent annuellement des indicateurs d’activité : nombre de sièges, de césariennes, transferts, nombre de péridurales…

Ce sujet concerne la visualisation des données puisqu’il s’agit de présenter ces indicateurs sous forme de graphiques et de façon dynamique.

Les jeux de données d’entrée devront être sous forme OMOP.

Pour ce projet nous aimerions utiliser l’outil de data science opensource LinkR.

Sources externes

https://digital.nhs.uk/data-and-information/data-collections-and-data-sets/data-sets/maternity-services-data-set/maternity-services-dashboard#maternity-dashboard

Qualité des données

Thème principal

  • Data cleaning / Pre-processing

Synopsis

Ce sujet concerne la production d’indicateurs de qualité pouvant être partagés et réutilisės.

Pour ce projet nous aimerions utiliser l’outil de data science opensource LinkR. Il sera basé sur le modèle de donné open source OMOP.

Sources de données

  • MIMIC OMOP : https://github.com/MIT-LCP/mimic-omop

Sources externes

  • https://ohdsi.github.io/TheBookOfOhdsi/DataQuality.html#dqdInPractice

Survie / prédiction de mortalité

Thème principal

  • Stats / data sciences

Synopsis

Ce sujet concerne la réalisation d’un sujet de data science facile à mettre en oeuvre d’un point de vue statistique. La difficulté consistera à rendre l’algorithme facilement réutilisable sur un autre jeu de données au format OMOP.

Nous entraînerons des modèles de prédiction (machine learning) afin de prédire la mortalité en réanimation, à partir des données d’admission.

A l’heure actuelle, la majorité des études comparent la mortalité de groupes de patient à l’aide de scores de gravité tels que l’IGS-2 (très ancien) et le SOFA (plus récent).

L’apport du machine learning permettrait d’avoir des modèles de prédiction de mortalité avec de meilleures performances.

Nous comparerons ces modèles aux scores SOFA et IGS-2.

Pour ce projet nous aimerions utiliser l’outil de data science open source LinkR, qui permet le partage et la réutilisation de projets de data science très facilement.

Ainsi, durant le Datathon, vous développerez vos modèles sur le set de données MIMIC-OMOP (base de données nord-américaine). Vous pourrez ensuite appliquer ce projet (avec l’ensemble des scripts le composant) à vos données locales, sans avoir à repartir de zéro.

Sources de données

  • MIMIC-OMOP : https://github.com/MIT-LCP/mimic-omop. Il s’agit d’une base de données nord-américaine (hôpital de Boston) sur une quizaine d’années, totalisant environ 50000 patients.

Aide au codage CIM-10

Thème principal

  • Data science / Large language models

Synopsis

L’apport des Large Language Models (tels que ChatGPT pour le plus connu) permet d’exploiter les données de façon plus optimale, notamment avec les ChatBot.

La base de données CIM-10 est complexe, et il est parfois difficile de trouver les diagnostics que nous recherchons. Les requêteurs “classiques” que nous trouvons sur internet utilisent des outils de recherche classique (à base de regex) non optimaux.

Les LLM, grâce au RAG (retrieval augmentated generation) permettent d’utiliser les LLM en les “nourrissant” de fichiers, tels qu’un fichier CSV contenant l’ensemble des diagnostics.

Ainsi, il est possible d’utiliser un LLM déjà entraîné, de lui fournir la base de données CIM-10 et de l’interroger directement pour nous donner les codes demandés.

L’approche par RAG a l’avantage de diminuer le risque d’hallucinations.

L’avantage de ce projet est une application immédiate ! Si vous êtes médecins, vous pourrez utiliser cel algorithme depuis votre PC perso pour aider au codage de vos patients.

Source de données

  • Base de données CIM-10 au format OMOP