Datalab libre
LibreDataHub est une plateforme complète, auto-hébergée, dédiée à la data science et à l’intelligence artificielle. Elle vise à rendre accessibles des outils modernes d’analyse de données aux petites et moyennes structures, tout en offrant un niveau de sécurité et de gouvernance comparable à celui des grandes organisations.
Développé par l’association InterHop, le projet rassemble un ensemble d’outils open source pour la gestion et l’analyse de données, les statistiques, le machine learning et le data warehousing, le tout déployable sur un serveur Linux standard.
LibreDataHub se déploye au sein d’hôpitaux et est testé dans des cursus universitaires de master en data science (Lille, Paris 8). Une version non-HDS est accessible en démonstration sans installation, tandis qu’une version HDS certifiée est disponible sur demande via les serveurs d’InterHop.
LibreDataHub se démarque par ses environnements préconfigurés et persistants, sa prise en charge native de workflows IA/ML, mais aussi par son modèle de sécurité centré sur les projets. Les accès aux bases de données sont harmonisées entre toutes les applications (Jupyter, RStudio, Code-server et CloudBeaver). Les notebooks peuvent être transformés en tableaux de bord via MyST, et les données sont protégées par des stratégies de sauvegarde robustes. Enfin, l’installation reste volontairement simple grâce à un déploiement via Docker Compose, sans dépendre d’outils d’orchestration complexes.

Les services principaux incluent Jupyter, RStudio, Code-server, CloudBeaver et MyST. La stack de monitoring fait appel à Grafana/Prometheus, Airflow est utilisé pour l’orchestration et Ollama pour l’exécution locale de LLM. Pour la couche de persistance des données nous utilisons PostgreSQL/Citus, le support DuckDB, ainsi qu’un espace externe compatible S3 pour les sauvegardes.
L’ensemble est guidé par quelques principes : efficacité sur serveur unique, isolation par projet, accès unifié aux bases de données et partage intelligent des ressources.
Le développement est actif et prévoit de nombreuses évolutions. L’interface utilisateur doit être enrichie (meilleure page d’accueil, gestion avancée des fichiers, tableaux de bord de projet). L’ajout de nouveaux outils est planifié : Marimo, Dash, OnlyOffice, Draw.io, Gitea/GitLab, Superset ou encore OpenWebUI. Le support de nouvelles bases de données (Solr, Neo4J) est envisagé, tout comme une gestion plus avancée des ressources, des sauvegardes chiffrées et une meilleure observabilité.
Des fonctionnalités spécifiques sont prévues pour l’enseignement (classes virtuelles, tests automatiques, workflows pédagogiques autour de Git) et pour la recherche (analyse de signaux, fédération entre instances LDH, gestion avancée de fichiers, tableaux de bord projet). L’intégration renforcé avec Goupile et Linkr.
Enfin, LibreDataHub est aligné avec les exigences du futur European Health Data Space (EHDS), et se positionne comme un candidat sérieux pour des analyses décentralisées voire fédérées.