Analyse topologique des données, quésaco ?
À l’ère du big data, l’humanité fait face à un flot constant de données de plus en plus complexes, volumineuses et complexes. Nouvelle matière première du 21e siècle, leur analyse et leur compréhension devient toujours plus difficile face au très grand nombre de variables qui les composent et au nombre gigantesque de possibilités que produisent leurs interactions. Face à cette malédiction de la dimension, phénomène bien connu en analyse de données, comment analyser quantitativement et qualitativement un jeu de données ? Comment comparer et organiser des jeux de données entre eux pour en extraire de nouvelles informations ?
Si les méthodes traditionnelles d’analyse de données, telles que le clustering, peinent à contourner cette problématique de la dimension, l’analyse topologique des données (TDA – topological data analysis) apporte un nouveau point de vue. Domaine de recherche récent qui connait un succès croissant depuis quelques années, la TDA propose une approche « géométrique » de l’analyse des données. Elle vise en effet à comprendre, analyser et exploiter la structure topologique et géométrique de données représentées sous forme de nuages de points dans des espaces euclidiens ou des espaces métriques plus généraux. En s’appuyant sur l’hypothèse que, bien que plongées dans des espaces de grandes dimensions, les données sont proches d’une structure plus petite, la méthode vise à calculer les propriétés géométriques et topologiques de cette structure pour mieux comprendre le système qui les a produites et en extraire l’information utile.
Outil puissant pour explorer les données complexes et comprendre les relations cachées entre les variables, la TDA est aujourd’hui utilisée dans un large éventail d’applications, notamment dans les domaines de la biologie, de la physique, de la finance et des sciences sociales.
Gudhi, une bibliothèque libre dédiée à la géométrie pour les espaces de grande dimension
C’est pour développer cette nouvelle approche pour l’analyse des données que Jean-Daniel Boissonnat, directeur de recherche chez Inria, a initié Gudhi (pour Geometry Understanding in Higher Dimensions) en 2014. Issu de ses précédents travaux en géométrie algorithmique, domaine de recherche qui a pour but de développer des structures de données et des algorithmes dans le domaine de la géométrie, le projet Gudhi a pour objet d’étendre ces techniques aux dimensions supérieures à 3 et de développer une approche géométrique et topologique pour l’analyse des données. Aujourd’hui principalement développé par l’équipe-projet DATASHAPE, avec le concours d’une communauté de contributeurs externes, le projet porte pour l’essentiel sur le développement d’une plateforme logicielle ouverte qui sert de support aux recherches et à la diffusion des résultats.
« Nous souhaitions trouver des méthodes adaptées à des problèmes de plus grande dimension, comme ceux issus de la physique (qui font intervenir l’espace et le temps), ou de l’analyse d’image (qui demandent le traitement d’un très grand nombre de données, typiquement de quelques millions à centaines de millions). Ce ‘défi de la dimensionnalité’ est l’un des enjeux actuels en science des données. »
Le soutien de Fujitsu : du partenariat de recherche au mécénat pour le bénéfice de la communauté IA
Après avoir bénéficié, au sein d’Inria, pour une phase initiale de 5 ans, d’une subvention du Conseil européen pour la recherche (ERC), Gudhi bénéficie depuis 2020 du généreux soutien de Fujitsu. Ce mécénat exemplaire s’inscrit dans la continuité d’un partenariat de recherche entre l’entreprise japonaise et l’équipe-projet DATASHAPE autour du développement d’outils d’intelligence artificielle s’appuyant sur l’analyse topologique des données. Avec des résultats d’ores et déjà très prometteurs, notamment dans le domaine de la santé.
« Il peut sembler inhabituel qu’une entreprise soutienne une initiative de cette nature mais nous voulons encourager un développement plus large de la TDA, et le fait de limiter l’accès aux connaissances que nous avons acquises à nos seuls ingénieurs n’aurait aucun bénéfice pour la communauté de l’IA à une échelle plus vaste. »
Et pourquoi pas vous ?
Tous les mécènes sont les bienvenus pour soutenir ce projet. Par un financement direct ou en mettant des ressources à disposition, vous contribuez à promouvoir le développement de logiciels libres, transparents et inclusifs, au bénéfice de la communauté IA tout entière.
Crédits photo : Pexels