LibreDataHub est une plateforme opensource de sciences de la données. Elle fournit une série d’outils libres pour le stockage de données, l’IA décentralisée, les statistiques et l’apprentissage machine.
La deuxième version de LibreDataHub LDH V2 permet l’intégration d’outils open-source et propose une gestion efficace des ressources serveurs afin de partager équitablement la capacité entre les utilisateurs.

LibreDataHub est une plateforme sécurisée d’analyse de données conçue pour être utilisée par de petites équipes de recherche jusqu’au institutions de plus grande taille, comme des hôpitaux.

Des nouveaux outils

Comme dans la première version1 les utilisateurs peuvent accéder à leurs applications (Jupyter, RStudio, LinkR, Grafana…) dans un espace projet collaboratif et sécurisé.

Cette deuxième version incorpore de nouveau outils par exemple Airflow ou encore MyST.

Airflow est une plateforme open-source utilisée pour orchestrer, planifier et automatiser des workflows de données. Elle permet de définir, de gérer et de superviser des tâches complexes sous forme de “DAGs” (Directed Acyclic Graphs), où chaque tâche représente une unité de travail.

MyST permet d’inclure des visualisations interactives directement dans les projets en utilisant les Notebooks Jupyter.

Installation simplifié

Le processus d’installation de LDH V2 sur GNU-linux est maintenant mieux automatisé et documenté2 en particulier pour Debian. La sécurité a été renforcée puisque l’outil fonctionne désormais avec la version dite “rootless” de docker.

Par rapport à une autre plateforme de science de la données nommé Onyxia3, LibreDataHub V2 est une plateforme plus simple puisqu’elle se déploie sur un unique serveur. A la différence d’Onyxia qui repose sur des technologies plus complexes comme Kubernetes.

La gestion des utilisateurs et des groupes dans LDH V2 est basée sur des règles spécifiques : un administrateur global peut gérer tous les projets, tandis que des utilisateurs avec des rôles spécifiques peuvent accéder aux données et applications des projets auxquels ils appartiennent. Chaque projet dispose de sa propre base de données PostgreSQL.. L’accès aux applications est cloisonné, avec des permissions réglementant les accès aux ressources. L’authentification à la plateforme est sécurisé via le SSO (Keycloak) de l’association InterHop. Keycloak est aussi utilisé pour administrer les équipes projets.

Déploiement en HDS

Enfin nous sommes fiers d’annoncer que LibreDataHub est maintenant installé sur les serveurs certifiés “Hébergeur de données de santé” HDS de l’association InterHop permettant de délivrer la plateforme facilement aux chercheurs et chercheuses via une simple URL. Pour les projets traitant des données de santé, nous avons décidé de renforcer la sécurité en mettant systématiquement en place la double authentification (2FA).

Conclusion

LDH V2 s’affirme comme une plateforme open-source polyvalente et sécurisée, dédiée aux sciences des données.

Accessible à tous, elle peut être installée par n’importe qui, offrant ainsi une solution flexible pour divers besoins en analyse de données. La plateforme a déjà prouvé son efficacité dans plusieurs contextes : elle a été utilisée pour organiser un datathon, a servi de support pour des cours d’informatique dans deux universités (Lille et Saint-Denis), et a été déployée dans le cadre de projets HDS (Hébergeur de Données de Santé) pour des projets de data science et de statistiques. De plus, LibreDataHub a permis à des stagiaires de se familiariser avec des outils avancés de gestion et d’analyse de données.

Avec ses nouvelles fonctionnalités et son processus d’installation simplifié, LibreDataHub V2 se positionne comme un outil incontournable pour les petites équipes de recherche comme pour les grandes institutions.