Introduction
Aujourd’hui, les différents secteurs de l’économie voient apparaître des projets mettant en œuvre des technologies d’apprentissage automatique. Beaucoup d’entreprises les utilisent déjà depuis plusieurs années. Parmi elles, les entreprises technologiques qui sont en capacité de récolter une très grande quantité de données, dont la majeure partie est générée par l’utilisation massive de leurs produits par les utilisateurs du monde entier. Ces entreprises sont de grandes adeptes de l’utilisation des méthodes par apprentissage profond, un sous-domaine de l’apprentissage automatique. C’est donc naturellement que ces entreprises figurent parmi les plus gros investisseurs du domaine. Les avancées permises par l’apprentissage profond ont provoqué un vaste changement dans les domaines d’applications tels que la reconnaissance d’images ou le traitement du langage naturel, pour ne citer que ces deux exemples phares. Ces algorithmes sont mis en œuvre dans les différents pans de notre économie, dans le secteur de la santé ou encore celui de la finance, de la justice, du recrutement, de l’éducation ou encore dans le domaine de l’art. Par conséquent, il y a peu de chances pour qu’un individu ne soit pas concerné, de près ou de loin, par l’émergence de ces technologies, du moins dans les sociétés occidentalisées.
Les défis de la transparence
Il est légitime, compte tenu de leur impact, de se poser la question de la transparence, vis-à-vis des décisions fondées sur l’utilisation d’algorithmes. Pour beaucoup, cette question est accueillie comme une pure nécessité, car il est important d’éviter les déviances quant à l’utilisation de ces systèmes et plus particulièrement les discriminations. Pour d’autres, notamment les partisans de l’intelligence artificielle générale, réguler trop précocement, c’est-à-dire, sans avoir une vision claire des capacités réelles des modèles issus de l’apprentissage profond, reviendrait à nuire à leur bon développement.
L’argument principal en faveur de la transparence de ces systèmes est fondé sur le principe suivant (Zarsky 2013) : « Tout individu pouvant être affecté par des décisions issues d’un traitement algorithmique doit bénéficier du droit de comprendre pourquoi ». Pour certains, il s’agirait d’une atteinte à la dignité humaine. Il en émerge la problématique de l’explicabilité des modèles dont l’objectif est de rendre compréhensible leur fonctionnement interne et par conséquent leurs prédictions. En effet, les systèmes entraînés par apprentissage profond sont aujourd’hui associés à de véritables boites noires qu’il est impossible de sonder, y compris par les concepteurs eux-mêmes des systèmes. Au-delà des décisions qui sont prises par ces algorithmes, il faut souligner l’importance de la maîtrise et de la compréhension du fonctionnement du système. En effet, en amenant le concept de la transparence, il faut aussi considérer les éléments en lien avec la sécurité, plus particulièrement la vulnérabilité des systèmes. Aucun système n’est infaillible et il est d’autant plus difficile de garantir son bon fonctionnement qu’il repose sur un très grand nombre de paramètres interdépendants. Par exemple, l’exploitation, par des personnes mal intentionnées, d’une faille à travers la découverte d’un bug ou d’un biais cachés dans les modèles, peut avoir des conséquences graves dès lors que le traitement qu’effectuent les algorithmes influent, voire déterminent les décisions qui sont prises envers les individus.
Les données : terrain de bataille entre représentation et discrimination
Il a été montré que les systèmes de reconnaissance automatique généralisent mieux sur les nouveaux exemples provenant de concepts bien représentés dans les données. C’est-à-dire lorsqu’un système est confronté à des exemples issus d’une catégorie inconnue au moment de l’apprentissage, mais proche conceptuellement. Les performances du système sur ces nouveaux exemples sont d’autant meilleures que le concept auquel sont associées ces données est présent dans le corpus d’entraînement. En termes techniques, nous parlons généralement d’approches « zero-shot learning». Par conséquent, nous voyons qu’un problème se pose lorsqu’un traitement est effectué sur les données d’un individu provenant d’une population sous-représentées dans les données. Le système ayant été trop peu confronté aux données provenant de ce type d’individu, il ne dispose pas de suffisamment d’information pour être en mesure de réaliser une prédiction pertinente.
Au-delà de la question de la transparence, se dresse également un principe moral d’égalité. En effet, chacun doit se voir attribuer les mêmes capacités de prédictions par un système automatique. Autrement dit, un système doit fournir une mesure fiable quelque soit les données qui lui sont présentées et ne pas fournir un résultat fondé sur des informations parcellaires, ce qui constitueraient un problème.
De mon point de vue, il me semble difficile d’éviter que les biais contenus dans les données ne soient imités par les modèles. Chercher à identifier ces biais nécessite de déployer une méthodologie d’analyse rigoureuse du modèle, en tant qu’objet d’étude en lui-même, ce qui peut s’avérer être une tâche immense. Il est alors nécessaire de réaliser une analyse minutieuse à partir des informations disponibles sur les données. Malheureusement, les auteurs des modèles et plus précisément en ce qui concerne les grands modèles de langages, sont généralement assez avares quand il s’agit de décrire en détails les données qui ont été utilisées lors de l’apprentissage. Il faut rappeler que c’est en partie pour palier ce manque d’information à propos des traitements effectués avec les données des usagers par les algorithmes, que la Réglementation Générale sur la Protection des Données a été adoptée. Pourtant, il est jugé nécessaire d’adopter une législation spécifique à l’IA au niveau européen pour ajouter un ensemble de règles et d’exigences auxquelles les systèmes doivent se conformer, selon le niveau de risque qu’ils engendrent pour les individus concernés. Si pour certains la réglementation énoncée constitue un grand pas en avant, pour d’autres (Edwards2017) elle ne fait qu’effleurer le problème, voire pire elle rend possible l’idée fausse d’une transparence des systèmes automatiques.
Une évaluation limitée à la performance est-elle juste ?
Pour garantir les bonnes prédictions d’un modèle, il est nécessaire de procéder à son évaluation. En général, il s’agit de vérifier la validité des prédictions du modèle au moyen d’une métrique de performance. Celle-ci est calculée sur un ensemble de données isolées de celles utilisées pour l’apprentissage. Or, l’essor rapide de l’apprentissage profond a donné lieu à une large adoption de ces méthodes par les communautés d’ingénieurs et de développeurs de logiciels. Ces derniers n’ont pas nécessairement été formés aux méthodes d’évaluations propres à la recherche scientifique, ni été avertis à la disposition des algorithmes d’apprentissage automatique à la reproduction des biais sur les données. Par conséquent, la contamination des données d’évaluation, que ce soit par inadvertance ou par ignorance est tout à fait possible. Quand bien même, la validation du modèle serait faite selon toute bienveillance, nous observons qu’ils sont susceptibles d’être compromis facilement. De plus, rien ne nous permet d’affirmer avec certitude que la tâche utilisée comme prétexte pour l’évaluation du système correspond effectivement à ce que le modèle mesure.
La validation des modèles d’un point de vue moral et sociétal requiert obligatoirement une traduction, dans le langage commun des fonctions qu’ils réalisent. Ainsi, des recherches sont entreprises dans le but de rendre intelligibles les prédictions des modèles. Ingénieurs et chercheurs sont les mieux placés pour tenter de résoudre ce problème, mais paradoxalement, ils sont aussi les premiers à rendre les modèles de plus en plus complexes. En un laps de temps très court, les réseaux de neurones profonds ont évolués d’un enchevêtrement de couches relativement modeste vers des architectures bien plus profondes et sophistiquées. Il est pourtant assez rare de trouver les éléments justifiant l’utilisation d’une telle complexité dans les articles scientifiques. Il faut reconnaître que les études par ablation ne sont pas les plus excitantes à mener, mais elles ont au moins le mérite d’aider à déterminer l’influence des composants du système dans les performances globales. Or, ces études font défaut dans de trop nombreux cas et laissent la place à une série de comparaisons avec d’autres systèmes non moins compliqués. Cette sophistication est peut-être devenue une norme, une nécessité pour espérer voir son article accepté dans les revues et conférences scientifiques spécialisées dans le domaine de l’apprentissage automatique. Cela nous renvoie à la problématique évoquée dans un précédent article sur le processus de relecture des publications scientifiques. Malgré les efforts dont certains auteurs font preuve, en fournissant par exemple leur code, la crise de la reproductibilité nous heurte violemment.
Quand l’histoire nous met en garde
Pendant longtemps, les possibilités de modélisation ont été fortement restreintes par nos capacités de calculs. Aujourd’hui, grâce aux capacités de calculs décuplées par les ordinateurs, les chercheurs utilisent presque exclusivement des méthodes de modélisation, comme s’il n’était plus possible de faire de la science sans recourir à cette approche. Il ne faut cependant pas oublier que si l’on considère l’histoire des sciences dans son ensemble, l’émergence des méthodes de modélisation telles que nous les connaissons aujourd’hui, ne représentent qu’une période assez récente.
L’utilisation d’un formalisme abstrait, mathématique, a pendant longtemps servi pour décrire les phénomènes naturels. Ce formalisme se prêtant bien aux calculs et à la déduction, il est compréhensible qu’il ait régné en maître pour la prédiction des orbites des planètes, l’énergie issue de la fission de particules atomiques, etc. Or, nous sommes bien loin aujourd’hui des systèmes dynamiques développés par le passé, au XVII siècle notamment, et qui ont servit à décrire les questions de la mécanique céleste jusqu’à la thermodynamique des fluides. Les sciences de la physique ont néanmoins permis de développer le champ d’application des mathématiques et par extension, nos capacités de modélisation. L’utilisation de modèles a fini par s’ancrer dans tous les domaines de la science. Les sciences du vivant, la chimie, les sciences de l’ingénieur, jusqu’aux sciences humaines et de l’environnement, toutes ont recours à la modélisation, avec plus ou moins de succès. Ainsi, les modèles statistiques ont fini par convaincre la majorité des domaines des sciences (Rey 2016), mais c’est aussi peut-être lié au fait qu’aucun modèle déterministe, dont les équations différentielles permettent de suivre l’évolution des systèmes physiques, n’est capable de rendre compte de la complexité des phénomènes naturels lorsqu’ils opèrent à très grande échelle. Le remplacement progressif du terme « loi » au bénéfice de « modèle » dans les sciences physiques illustre bien ce propos (Schmidt-Lainé 2008).
Les modèles utilisés dans le domaine de l’apprentissage automatique sont des modèles statistiques, élaborés à partir d’un ensemble de données. Ils s’appuient sur la tâche qu’ils sont censés réaliser, pour définir les valeurs de leurs paramètres. Ce sont les observations, issues de la réalité, qui sont importantes et qui ont valeur de vérité. La confrontation entre les prédictions du modèle et la réalité observée permet de confirmer, ou non, la validité du modèle. Ainsi, il est possible par itérations successives, reliant modélisation et expérimentation, de questionner et d’améliorer les modèles. Un modèle étant défini par les données et pour une utilisation spécifique, il convient donc d’en préciser la nature (des données) et ses limites.
Bien que nous soyons capables d’évaluer la validité d’un modèle selon les données d’observation, la validité d’un point de vue de la sémantique ou de la morale n’est cependant que trop rarement questionnée. Ce n’est que récemment, suite à l’arrivée dans la sphère publique des modèles génératifs tels que les modèles de langue massifs, que ces enjeux sont mis en avant. Selon moi, bien que cette question soit prise au sérieux par des institutions telles que l’Union-européenne, leur réaction (législation) arrive tardivement et manque de force et de moyens, pour être en mesure de lutter efficacement contre une idéologie provenant du continent nord-américain et qui promeut une adoption massive de cette technologie dans tous les pans de la société. Toutefois, d’un point du vue historique, dans certains domaines tels que les sciences économiques, nous savons que l’utilisation des modèles établies jusqu’alors ont servi de référence pour la mise en place de politiques ultra-libérales, mettant l’efficience des marchés au premier plan et ignorant les hypothèses ayant été à la base de leur élaboration, comme la supposée rationalité des être humains (Schmidt-Lainé 2008) et que l’on sait aujourd’hui incomplète. Le problème vient vraisemblablement du fait que l’on a attribué à ces modèle un statut de vérité de référence et qu’ils ont été érigés en tant que représentants de la réalité. Essayons donc de ne pas réitérer cette erreur si nous ne voulons pas basculer dans un régime de la vérité algorithmique, comme l’annonce certains penseurs.
La vérité n’est pas quelque chose de facilement mesurable, comme c’est le cas d’une équation. Nous ne mesurons pas la vérité d’une prédiction d’un modèle, mais son exactitude. La nuance est importante à saisir. Pour ce faire, il nous faut développer le concept de généralisation d’un modèle, mais cela fera l’objet d’un prochain article.
Conclusion
Dans notre quête vers l’innovation technologique, il nous faut veiller à maintenir une distinction fondamentale. Un modèle, aussi performant soit-il, ne dit pas nécessairement la vérité. Le fait que sa performance ait été validée d’un point de vue technique ne signifie pas qu’il bénéficie d’une validation morale et que ces prédictions sont acceptables d’un point de vue sociétal. Les modèles ne sont que le reflet d’une réalité façonnée par leurs données d’entraînement. Selon moi, la course aveugle à la performance qui sous-tend toujours plus de sophistication et de complexité ne constitue pas un progrès, au contraire. Il est essentiel de définir les limites des modèles que nous développons pour être en capacité de les maîtriser et de les comprendre. C’est en cela que réside le véritable progrès pour l’humain.
Références :
- Zarsky T., Transparency in Data Mining: From Theory to Practice, 2013
- Edwards et al., Slave to the Algorithm? Why a ‘Right to an Explanation’ Is Probably Not the Remedy You Are Looking For, 2017
- Rey O., Quand le monde s’est fait nombre, 2016
- Schmidt-Lainé C. et Pavé A., La modélisation au cœur de la démarche scientifique et à la confluence des disciplines 2008