En préparation de l’atelier du 27 octobre « le numérique à la rencontre de la nature », Nigel Gilles Yoccoz, biostatisticien et président du CREA Mont-Blanc, nous fait part de ses réflexions sur la façon dont le numérique, et la donnée en particulier, transforme le monde de la recherche, l’éducation et plus généralement nos sociétés.
Notre capacité à collecter et analyser des données massives – ce que beaucoup appellent le « Big Data » – transforme la recherche dans les sciences naturelles et sociales, mais elle transforme aussi les relations entre citoyens et recherche. Les avancées du numérique et d’autres techniques, par exemple moléculaires, permettent aux scientifiques d’acquérir des volumes de données inespérées il y a encore quelques années. Elles permettent aussi aux citoyens de collecter leurs propres données, d’interagir avec les scientifiques quant à leurs analyses et interprétations, et ainsi de participer non seulement au recueil d’informations mais aussi à toute la démarche scientifique. Cela n’est pas nouveau sur le principe – la science au XIXème siècle par exemple s’est développée avec de fortes interactions entre « amateurs » et « scientifiques » – mais l’ampleur aujourd’hui est sans commune mesure, aussi bien quant à la quantité et diversité des données, que de la communauté scientifique et des citoyens impliqués.
Des progrès techniques précieux pour la recherche
Certains aspects de cette transformation peuvent être considérés comme techniques, dans le sens où il s’agit d’abord de développer de nouveaux et meilleurs outils. Il existe par exemple aujourd’hui plusieurs centaines de milliers de caméras automatiques à travers le monde prenant des photos de la faune – le CREA Mont-Blanc en a plusieurs dans la vallée de Chamonix. Ces caméras produisent plusieurs millions, et même maintenant milliards de photos, qu’il est difficile de stocker et analyser manuellement. Des outils numériques de stockage et de reconnaissance des espèces sont essentiels si l’on veut sauvegarder et utiliser cette information de manière performante. Ces développements sont essentiels et permettent entre autres d’avoir accès à des processus qui étaient restés très mal connus – par exemple en mettant des caméras dans des tunnels sous la neige, nous commençons à étudier les interactions entre petits mammifères et leurs prédateurs en hiver, ce qui était resté une boîte noire, alors que l’hiver et la neige sont presque par définition un des aspects essentiels des écosystèmes alpins ou arctiques.
De l’importance de l’hypothèse scientifique derrière les données
D’autres développements vont plus loin, dans la mesure où ils peuvent interagir avec la démarche scientifique elle-même et pas seulement avec les données disponibles. La démarche scientifique, et peut-être de manière un peu caricaturale, a mis en avant l’hypothèse – voir par exemple le livre « La Science et l’Hypothèse » écrit par le grand mathématicien et physicien Henri Poincaré en 1902. Le philosophe des sciences Karl Popper faisait référence aux conjectures dérivées de théories et à la possibilité de les falsifier comme un critère de démarcation entre science et pseudoscience. À l’autre extrême, et de manière encore plus caricaturale, certains adeptes du Big Data ont pu écrire « La fin de la théorie : le déluge des données rend la méthode scientifique obsolète » (“The end of theory: the data deluge makes the scientific method obsolete,”, Anderson 2008). En statistiques, certains (Breiman 2001) ont pu parler de deux cultures, l’une étant basée sur des outils numériques et les données massives, l’autre sur des modèles destinés à tester des prédictions dérivées de théories. En tant que citoyens, nous sommes confrontés presque tous les jours aux promesses concernant l’utilisation des diverses « omiques » – « genomique », « proteomique », « metabolomique », etc., qui utilisent nos séquences d’ADN ou les produits du métabolisme pour prédire quelles maladies nous pourrions par exemple développer – omiques qui nous conduiraient à une médecine personnalisée et beaucoup plus performante. Mais s’agit-il de promesses qui n’engagent que ceux qui les écoutent ? S’agit-il de véritables révolutions ou d’effets de mode ?
Explorer et tester pour comprendre
En pratique, et parce que le monde qui nous entoure est très complexe et n’arrête pas de nous surprendre, il s’agit de marier ces cultures – vive la diversité en d’autres termes. L’accès aux données massives, aussi bien en termes de quantité que de variété des informations disponibles, invite à des analyses exploratoires, cherchant à identifier de nouvelles associations ou à développer des outils de prédictions. Mais il nous faut aussi comprendre et tester, c’est-à-dire avoir des hypothèses sur les mécanismes et confronter de manière rigoureuse prédictions et observations. Dans le cadre de la médecine personnalisée par exemple, nous n’avons fait pratiquement aucun progrès, sauf pour une petite fraction de la population concernée par quelques rares variantes génétiques. En écologie, nous commençons à peine à réaliser la diversité des réponses des écosystèmes aux changements qui nous entourent, ces derniers n’ayant pas la bonne habitude de faire ce que l’on attendait d’eux.
Clairement, le développement du numérique et des données massives permettra de mieux décrire cette variabilité des réponses, mais il nous faut aussi de la théorie pour mettre de l’ordre dans cette variabilité, entre autres pour savoir ce qu’il nous faut mesurer pour comprendre ce qui influence les réponses observés, et pouvoir les prédire sur le long terme, si cela est possible.
Replacer la démarche scientifique – à la base de la réflexion
Personnellement, j’aimerais que les développements du numérique permettent non seulement de considérablement développer notre base empirique, les données, mais aussi de rendre plus transparente la démarche scientifique, dans toute sa diversité. Il y a rarement des questions idiotes, et les arguments d’autorité peuvent cacher des points faibles dans le raisonnement. Si nous voulons que la société soit plus sensible à l’importance des données, depuis leur collection jusqu’à leur interprétation, il faut ouvrir la boîte noire, qu’elle soit théorique – les hypothèses, les mécanismes – ou numérique – des algorithmes, des validations. Cela constitue un défi considérable, surtout à une époque où l’évidence scientifique semble jouer un rôle moins important dans le débat public, même si le discours officiel donne l’impression inverse. J’espère que cette table ronde permettra d’avoir un débat fructueux sur ces trois sujets passionnants que sont Données et Intelligence Artificielle, Cognitif et Monde des objets, et Interface Utilisateur.
Rédaction : Nigel Gilles Yoccoz
Sources
Anderson, C. 2008. The end of theory: the data deluge makes the Scientific Method obsolete. Wired.
Breiman, L. 2001. Statistical modeling: The two cultures. Statistical Science 16:199-215.
Laisser un commentaire