9.12.07

117 - Dark data

L'expression dark data a été introduite par Thomas Goetz dans un article pour Wired du 25/9/2007. (1) L'exemple qu'il donne pour expliquer l'idée est une étude parue en 1981 sur le cancer du pancreas : ses auteurs avaient cherché des liens avec l'alimentation, imaginant trouver une corrélation avec la consommation de tabac et/ou d'alcool. Or, la seule corrélation finalement découverte (et donc publiée) concernait la consommation de café.

20 ans plus tard, il s'est avéré que ce résultat était faux. Mais là n'est pas le problème. Le problème, c'est que la véritable info de l'histoire est un résultat négatif : c'est l'absence de lien entre alcool, tabac et cancer du pancreas. Or, cette information n'aurait sans doute jamais été publiée sans l'existence du faux (mais positif) résultat sur le café. Les millions d'études et d'expériences scientifiques qui n'aboutissent qu'à un résultat négatif, à un résultet par défaut, ne sont presque jamais publiées. Et, pour Thomas Goetz, c'est ça qu'il faut changer :
For the past couple of years, there's been much talk about open access, the idea that more scientific publications should be freely available — not locked behind firewalls and subscriptions. (...) Liberating dark data takes this ethos one step further. It also makes many scientists deeply uncomfortable, because it calls for them to reveal their "failures." But in this data-intensive age, those apparent dead ends could be more important than the breakthroughs.
Si l'exemple cité plus haut se raconte en quelques mots, ce n'est évidemment pas le cas dans l'immense majorité des cas : la forme standard d'un "résultat négatif" doit plutôt ressembler à une pile de bottins bourrés de données brutes qui n'ont décidemment pas voulu ressembler à ce que leurs chercheurs avaient imaginé.

Rendre les publications scientifiques libres d'accès est déjà un gros chantier, auquel se sont attelés les promoteurs de la Public Library of Science (2). Etendre le système à la somme colossale des résultats "négatifs" suppose une grosse mise à jour des infrastructures informationelles (comme on dit), notamment en termes de capacités de stockage en ligne : par les temps qui courent, le moindre projet scientifique a vite fait de générer quelques teraoctets de données. Ou ranger des petaoctets de dark data qui ne serviront peut-être jamais à rien ? Comment y accéder ? That is the question. D'ailleurs, Google serait déjà sur le coup. (3)

Mais tous ces problèmes de cables et de quncaillerie ne sont rien, remarque fort justement Thomas Goetz, à côté du véritable bouleversement que constituerait un tel système dans les habitudes de travail et de pensée des chercheurs... Et de leurs employeurs !
(1) Wired : Freeing the Dark Data of Failed Scientific Experiments
(2) Public Library of Science
(3) PIMM : Google’s Palimpsest project

4 commentaires:

Benjamin a dit…

Il existe un "journal of negative results" dont la raison d'être est de publier des résultats comme "le gène XXX n'est pas associé au cancer YYY". Car tu as raison, bien que négatifs, ce sont des résultats.

http://www.jnrbm.com/

C'est online, peer-reviewed et en accès libre; le problème, c'est qu'au bout d'une thèse on peut en remplir plusieurs volumes...

Tom Roud a dit…

Peut-être l'une des raisons est qu'il est aussi difficile de démontrer avec certitude un résultat négatif. Comme dirait l'autre, "absence of evidence is not evidence of absence" ...

Fabrice a dit…

D'autant plus que, si on en croit certains statisticiens, l'effet nul (la corrélation de .00, ou encore la taille d'effet nulle) n'existe pas dans l'absolu (cf. Cohen, 1994). D'ailleurs, comme Tukey (1991) le disait déjà : " It is foolish to ask 'Are the effects of A and B different?' They are always different--for some decimal place."

De façon plus pragmatique, comment accorder du crédit à l'absence de lien entre la consommation d'alcool et/ou de tabac et le cancer du pancreas, alors que la seule corrélation significative trouvée dans cette étude (établissant un lien entre la consommation de café et le cancer du pancréas) s'avère fausse. Il est difficile par conséquent de considérer "l'absence de la preuve" trouvée dans cette étude comme le début "d'une preuve de l'absence" (comme le dit Tom).

dvanw a dit…

Bon j'ai du mal expliquer cette affaire. "Résultats négatifs" est peut-être un terme ambigu ? Il ne s'agit pas de résultats qui prouveraient définitivement un fait s'exprimant négativement (A n'implique pas B), mais bien de résultats qui n'arrivent pas à prouver que A implique B.
Il s'agit bien d'absence of evidence, ce qui est moins qu'une evidence of absence, certes, mais mieux que pas de résultat du tout : par exemple, ça montre que "en utilisant le même protocole que XXX, on n'arrive pas à montrer que A implique B"...
Ce sont des résultats parcellaires, ambigus, des collections de données plus que de véritables "résultats". Enfin c'est comme ça que je comrends la chose...