L’apprentissage fédéré, un champ dynamique et prometteur de recherche
Nouveau paradigme dans le champ des algorithmes, des bases de données et de l’apprentissage automatique (machine learning), l’apprentissage fédéré consiste à déployer des algorithmes de machine learning sur des données de plusieurs entités stockées localement. Ainsi, si les données sont décentralisées et restent la propriété de leurs entités hôtes, les résultats des apprentissages et de leur exploitation peuvent être mis en commun entre membres d’un même réseau.
En travaillant sur des volumes toujours plus importants de données, cette mécanique d’apprentissage fédéré permet d’obtenir des résultats significatifs et de développer des modèles prédictifs dans de nombreux champs. Mais elle soulève également de nouvelles questions telles que la confidentialité des données sous-jacentes, la consommation d’énergie des systèmes d’apprentissage, la personnalisation ou encore les effets des corrélations spatiales et temporelles. C’est pour répondre à ces questions qu’Inria a lancé le Défi FedMalin (Federated Machine Learning over the Internet), soutenu par la Fondation Inria et le mécénat du Groupe La Poste. D’une ampleur inédite, ce défi scientifique regroupe 10 équipes de recherche (COATI, COMETE, DYOGENE, EPIONE, MAGNET, MARACAS, NEO, SPIRALS, TRIBE, WIDE) et se structure autour de 6 work packages. La responsabilité scientifique est assurée par Aurélien Bellet et Giovanni Neglia (Inria).
6 work packages pour répondre aux défis de l’apprentissage fédéré :
- Privacy and Fairness : répondre aux questions spécifiques relatives à la protection des données dans un contexte d’apprentissage fédéré.
- Energy : quantifier les consommations énergétiques des algorithmes actuels et en développer de nouveaux, plus sobres.
- Personalization : explorer les possibilités théoriques et pratiques de personnalisation (recommandations, autocompletion de textes) à l’échelle de l’utilisateur grâce à des résultats issus d’un apprentissage fédéré.
- Location-dependent models : développer des modèles d’apprentissage fédéré basés sur des flux de données captés localement (capteurs sur un bâtiment, smart city…).
- Experimentation and software development : développer un environnement de logiciels et technologies à même de faciliter les expérimentations des autres work packages et plus globalement de la communauté scientifique.
- Concrete Use Case : développer des applications concrètes, notamment dans les champs de la médecine et de la « mesure de foules » (crowdsensing).
Des applications prometteuses, à condition de relever le défi de la protection des données
Les travaux du Défi FedMalin sont pour le moment essentiellement dédiés à des applications dans le monde hospitalier et de la santé. Il vise trois objectifs : analyser et garder les données localement, enrichir les modèles centraux avec les éléments appris localement et adapter les modèles locaux à leurs biais particuliers.
Dans le cadre de ce défi, des collaborations avec la Cnil et plusieurs institutions médicales telles qu’Unicancer Hospitals, le CHU de Lille et le Groupement de Coopération Sanitaire G4 (qui, depuis 2004, réunit les CHU d’Amiens, Caen, Lille et Rouen) sont prévues pour lancer différentes expérimentations d’apprentissage fédéré.
En déployant des algorithmes de machine learning sur les données médicales d’un nombre important de structures de santé (imagerie médicale, données cliniques et biologiques), il devient possible de construire des modèles statistiques prédictifs quant à l’évolution de l’état de santé des patients concernés.
Si les possibilités médicales ouvertes par l’apprentissage fédéré sont vastes, la sensibilité des données sous-jacentes (données de santé personnelles des patients) est importante. Le Défi FedMalin s’attache ainsi à développer ses expérimentations en garantissant la confidentialité de ces données et en réduisant les risques d’intrusions. Cela passe notamment par la mise en place de protocoles respectueux des règles de confidentialité des données locales, le renforcement de la sécurité des algorithmes, ou la préférence pour des solutions open source, transparentes pour les parties prenantes du système.
C’est cette articulation entre sécurité des données, mobilisation d’un système distribué et enrichissement de modèles centraux qui a notamment motivé le soutien du Groupe La Poste.
Une recherche décisive dans un environnement fortement compétitif
Le lancement de ce défi se fait dans un moment d’accélération des recherches en matière d’apprentissage fédéré. Toutefois, si la recherche progresse, les applications restent encore limitées. En mettant en place un programme de recherche de cette ampleur, Inria prend une position centrale sur cette thématique stratégique. Le développement de solutions open source, concurrentes des logiciels propriétaires existants, permettra des avancées à large échelle de la communauté et une contribution décisive des équipes Inria.
L’apprentissage fédéré fait ainsi figure d’alternative aux modèles centralisés de type cloud portés par les grandes firmes américaines : les données restent la propriété des parties prenantes, sont stockées localement, traitées par des logiciels open source, tout en ouvrant des possibilités de traitement de jeux de données à grande échelle.
Exploiter les potentiels d’innovation des données et du machine learning par des solutions décentralisées, transparentes et respectueuses des personnes et de l’environnement : il s’agit là d’un projet emblématique de l’enjeu de société numérique de confiance porté par la Fondation Inria avec le soutien décisif du Groupe La Poste.
Crédits photo : Inria / photo G. Scagnelli