Le processus de relecture scientifique fait face à une crise

par

dans

Ces derniers temps, j’ai consacré une partie de mon temps libre à relire plusieurs articles scientifiques soumis dans des conférences internationales et pour lesquelles je me porte volontaire pour en être l’un des nombreux relecteurs, ou reviewers en anglais. Cela m’a donné l’idée d’écrire sur ce sujet, car selon moi le processus de relecture perd de sa crédibilité.

Avant toute chose, il faut savoir que le nombre d’articles soumis dans ces conférences scientifiques est en augmentation. Cela se vérifie pour ce qui touche à mon domaine de spécialité, à savoir le traitement automatique de la parole, mais aussi plus généralement pour tout ce qui se rapporte à l’apprentissage automatique. Face à cette augmentation, beaucoup de scientifiques autour de moi font un constat similaire. La qualité des reviews diminue, lorsqu’elles ne sont pas tout simplement bâclées. Bien que ce constat soit entièrement subjectif, il semble logique que face à une augmentation du volume d’articles soumis chaque année, si les effectifs de relecteurs n’augmentent pas proportionnellement, vient un moment où le travail qui pèse sur eux devient trop important. Il n’y a donc pas d’autre choix que de réduire le temps alloué à chaque article. Pour cause, le nombre de scientifiques qui se portent volontaires pour lire les articles et écrire une review, lui n’a pas connu cette même croissance.

Par ailleurs, les problèmes liés aux conflits d’intérêts et le rabaissement volontaire des travaux des confrères, bien qu’anonymisés, en vue de mieux faire valoir son propre travail par ailleurs, n’a de cesse de nuire à la science. Cela est d’autant plus regrettable que nous savons bien que ce n’est pas la stratégie la plus efficace à adopter dans l’intérêt général de la science. Cela nous laisse une occasion de constater, une fois de plus, que les objectifs en termes de publications scientifiques voulus par les administrations et fondés sur des critères quantitatifs, amènent parfois à des comportements égoïstes qui vont à l’encontre du bien commun, mais cela nous emmène vers un tout autre débat.

À ce constat peu enthousiasmant, viennent s’ajouter les conséquences d’une recherche incrémentale qui tente, par tous les moyens, de battre l’état-de-l’art. C’est-à-dire, de faire la proposition d’un système de plus en plus élaboré dans l’unique but d’obtenir un meilleur score de performances sur un corpus d’évaluation donné. Cela donne lieu assez fréquemment à des articles d’un moindre intérêt, où le manque d’originalité n’est que rarement compensé par la qualité et la rigueur du protocole expérimental.

De mon expérience personnelle, j’ai le sentiment que ce phénomène amène les reviewers à être de plus en plus exigeants envers tous les articles et pas seulement le type d’articles que nous venons d’évoquer. Je comprends qu’il est difficile de faire la part des choses. Il n’existe pas de règles pré-établies pour déterminer objectivement le caractère nouveau ou l’originalité d’un article scientifique. Ce critère est à l’entière appréciation du relecteur qui doit déterminer seul, sur une échelle de 1 à 5, l’originalité des travaux qu’il vient de lire. De plus, l’impression de déjà-vu est d’autant plus forte qu’un nombre gigantesque d’articles se trouvent déjà dans les journaux et conférences scientifiques. Cela nuira à l’appréciation du relecteur.

Si l’on devait décrire de manière caricaturale l’état d’avancement de la recherche scientifique en ce qui concerne l’apprentissage automatique aujourd’hui, je dirais qu’à chaque nouvelle avancée, aussi minime soit-elle, dans le domaine et plus particulièrement celui des réseaux de neurones profonds, il nous vient une foule d’articles qui proposent d’en faire une application à des tâches ou des données spécifiques et pour lesquelles nombre de travaux ont déjà été publiés avec les méthodes connues jusqu’alors. Ainsi, la part des articles ayant un réel intérêt et une vraie plus-value scientifique se retrouve noyé dans une masse d’articles présentant des travaux de recherche incrémentale. Notons toutefois, que le problème ne vient pas du fait qu’il s’agisse de recherches incrémentales en elle-même, mais plus qu’elle s’appuie sur la croissance du volume de données à traiter et sur l’accumulation de couches de neurones artificiels.

En ce qui me concerne, je pense qu’il est important de revenir à ce qui est essentiel dans tout travail de recherche scientifique. J’entends, la formulation d’une hypothèse et la proposition d’un protocole rigoureux donnant une réponse permettant de conclure positivement (ou négativement) à l’hypothèse formulée. Cette dernière peut tout à fait considérer le modèle ainsi entraîné comme étant l’objet d’étude en question qu’il serait alors possible de confronter à une évaluation faite à la lumière des données. Or, généralement, l’obtention de nouvelles données sert à l’apprentissage d’un nouveau modèle, conduisant les versions antérieures à devenir tout simplement obsolètes.

La première chose que je m’efforce de mettre en lumière et d’évaluer dans tout article scientifique concerne donc la question posée. L’hypothèse sur laquelle s’appuie l’article est censée être introduite au début de l’article. Une fois les bases contextuelles du domaine et la problématique énoncées par les auteurs, doit s’ensuivre une définition claire et précise de la question qui se pose en l’état des connaissances actuelles. Quitte à utiliser une formulation très scolaire, cela est préférable à l’absence de tout questionnement scientifique selon moi.

Aussi, la valeur ajoutée du travail de relecteur provient principalement de la confrontation des idées et des points de vue face à un même constat. Premièrement, vis-à-vis de l’état du consensus scientifique, s’il existe, ou dans le cas contraire sur le manque de consensus, c’est-à-dire le partage d’un intérêt commun pour la question posée. Deuxièmement, l’émission d’une critique par rapport à la proposition qui est faite par les auteurs. En d’autres termes, juger la pertinence et l’adéquation de l’approche proposée, au regard des connaissances que possède le relecteur sur le domaine. Ainsi, la question de l’évaluation des critères de performances qui est le moteur d’une grande partie des publications aujourd’hui, bien qu’elle soit essentielle et qu’elle nécessite une attention particulière, est reléguée au second plan du fait qu’elle ne nécessite pas, outre quelques notions élémentaires de statistiques, de connaissances particulières.

Pour conclure, nous pouvons assez légitimement penser que la recherche dans le domaine de l’apprentissage automatique est en quelques sortes victime de son propre succès. Pour faire face à la baisse de la qualité des reviews, les auteurs n’ont pas beaucoup d’options à leur disposition. La quête vers la notoriété que confère la publication d’un article dans ces revues ou conférences scientifiques les empêche de s’en détourner, au profit de revues de moindre notoriété, mais plus consciencieuses dans leur processus de sélection du comité de relecture. Nous faudra-t-il atteindre un niveau de saturation en termes de publication scientifique pour que nous constations que le processus de relecture tel qu’il est aujourd’hui ne suffit plus et que les « lois du marché » jouent leur rôle de régulation ?