Les données de sciences participatives sont-elles fiables ?

Classé dans : Sciences participatives | 0

Les données scientifiques collectées par les citoyens sont indispensables à la recherche scientifique en écologie. Mais sont-elles aussi fiables que les données collectées par les chercheurs ? Quelles-sont les méthodes pour localiser les erreurs ? Marjorie Bison a passé au crible les données d’observation du CREA Mont-Blanc pour répondre à ces questions.

Collecte de données de végétation avec des volontaires © CREA Mont-Blanc
Collecte de données de végétation avec des volontaires © CREA Mont-Blanc

 

Dans un article de février sur les Sciences participatives : histoire et avenir des données nous évoquions le questionnement sur la qualité et la fiabilité des données. La problématique a le vent en poupe dans la communauté scientifique et de plus en plus d’équipes de recherche s’y intéressent. Les citoyens bénévoles, parfois amateurs éclairés, n’ont pas forcément de formation scientifique ou d’expérience dans la réalisation de protocoles. Pourtant, leurs données sont primordiales pour la science et de nombreuses études scientifiques pointues reposent sur leur rigueur.

Qu’est-ce qu’une donnée de bonne qualité ?

Des données de bonne qualité sont des données qui ont été échantillonnées de la même façon par tous les participants, qui sont réparties de manière hétérogène sur le territoire, qui sont en quantité suffisante et qui sont non biaisées, précises et exactes.

Biais, précision et exactitude

Représentation du biais, de la précision et de l'exactitude. Les croix correspondent aux données estimées alors que Θ correspond à la vraie valeur du paramètre étudié. (a) Données précises et biaisées. (b) Données non précises et non biaisées. (c) Données non précises et biaisées. (d) Données précises et non biaisées.

Représentation du biais, de la précision et de l’exactitude. Les croix correspondent aux données estimées alors que Θ correspond à la vraie valeur du paramètre étudié. (a) Données précises et biaisées. (b) Données non précises et non biaisées. (c) Données non précises et biaisées. (d) Données précises et non biaisées.

Le biais correspond à une erreur systématique, c’est-à-dire une erreur qui est faite à chaque fois de la même façon. Par exemple, cela pourrait être que les scolaires échantillonnent la date de débourrement toujours plus tardivement que la « vraie » date car ils ont besoin d’être sûr de l’observation du stade.

La précision, c’est la tendance d’observations répétées à être dispersées. Par exemple, les données des professionnels, étant donné leur expérience, devraient être moins dispersées et donc plus précises que les scolaires et particuliers. Des observations répétées peu précises seront très dispersées (Fig. 3).

 

Représentation de la précision dans notre cas de figure. A gauche, une tendance d’avancement des dates de débourrement peu précise (points très dispersés). A droite, une tendance très précise.

Représentation de la précision dans notre cas de figure. A gauche, une tendance d’avancement des dates de débourrement peu précise (points très dispersés). A droite, une tendance très précise.

L’exactitude, c’est la combinaison du biais et de la précision. Ainsi, des données exactes sont des données non biaisées et précises.

Les données du CREA Mont-Blanc

Plusieurs études internationales ont montré que les volontaires, malgré des différences de compétences, étaient capables d’apporter des données comparables à celles de professionnels lorsque les protocoles étaient relativement simples. Cependant, chaque programme a ses propres caractéristiques. Le type de protocole et de données, le nombre de données échantillonnées, la répartition géographique et spatiale des données varient et peuvent fortement influencer les comparaisons entre observateurs.

Au CREA Mont-Blanc nous avons donc exploré les données issues de Phénoclim, notre programme qui surveille l’impact du changement climatique sur les cycles saisonniers de différentes espèces. Près de 35 000 données d’observation d’évènements phénologiques ont été relevées.

La précision des données de sciences participatives

Étudier le biais et l’exactitude aurait nécessité de connaître la « vraie » valeur du paramètre étudié entre les différents groupes de participants (professionnels, scolaires et particuliers). Dans le cas de Phénoclim, nous ne considérons pas les professionnels comme la référence donnant la vraie valeur. Ils ne sont pas à l’abri d’erreurs et leurs observations varient aussi selon l’observateur. Nous nous sommes donc intéressés à la comparaison de la précision pour une observation en particulier : la date d’apparition des bourgeons des arbres au printemps.

Nos données sont-elles fiables et de bonne qualité ?

Oui ! Notre étude apporte une conclusion positive sur les projets de sciences citoyennes mais fait aussi part de l’importance de collecter des données de manière attentive, à la fois de la part des professionnels et des volontaires. Le taux de rétention dans le programme, c’est-à-dire la « fidélité » des bénévoles, et le nombre de sites suivis ont une forte influence sur la précision. Pour aboutir à des conclusions scientifiques robustes, nous devons donc trouver des méthodes – non pas seulement scientifique mais aussi pédagogiques – pour impliquer plus longuement nos bénévoles dans nos programmes ou encore augmenter le nombre de sites suivis.

Voir les détails de l’étude dans l’article Fiabilité des données Phénoclim

 

Rédaction : Marjorie Bison

Suivez-nous sur les réseaux :

Laissez un commentaire