23.12.07

119 - Facteur d'impact

Le facteur d'impact, c'est le PageRank des journaux scientifiques. Ca existait bien avant Google, et le principe -récursif- en est tout à fait similaire : le PageRank d'une page x dépend du nombre des autres pages où figure un lien vers la page x, et du PageRank de ces pages. Le facteur d'impact d'un journal y, c'est la même chose : il est fonction du nombre d'articles, parus dans d'autres journaux, qui citent les articles parus dans y, et du facteur d'impact de ces autres journaux. Le chiffre est calculé par la société Thomson Scientific, sur la base d'un dépouillement exhaustif de la presse scientifique.

Pour un site qui vit de la publicité, le PageRank est une affaire très très sérieuse, puisque la position sur les pages Google (et donc, une part conséquente du trafic) en dépend. Pour un chercheur c'est pareil : sa carrière dépend de ses articles, et du facteur d'impact des revues qui les publient...

Dans les deux cas, la méthode (pour PageRank : l'algorithme) est public. Mais dans les deux cas, ce sont des sociétés privées qui font le calcul (qui font leur cuisine, diront les sceptiques), et l'impartialité du résultat obtenu ne dépend que de leur bonne volonté. D'où les interminables discussions autour de la validité de PageRank et de l'arôme qui se dégage des cuisines de Google... Chez les chercheurs, tout le monde râle contre le "publish or perish" et les effets pervers de l'évaluation via les facteurs d'impact.

La semaine dernière, les responsables de 3 journaux édités par The Rockefeller University Press ont tout bêtement essayé de vérifier le calcul fait par Thomson Scientific,et le moins qu'on puisse dire, est que ça ne semble pas limpide. En résumé, la base de données, qui n'est pas en libre accès mais qui peut être achetée à Thomson Scientific, ne correspondait pas aux résultats publiés. Après réclamation, Thomson Scientific leur en a fourni une autre qui, selon eux, ressemblait à un bricolage ad'hoc, et qui ne correspondait toujours pas aux résultats publiés... D'où leur conclusion radicale : quand un scientifique est incapable de fournir les données censées soutenir un résultat, le résultat est invalidé.
It became clear that Thomson Scientific could not or (for some as yet unexplained reason) would not sell us the data used to calculate their published impact factor. If an author is unable to produce original data to verify a figure in one of our papers, we revoke the acceptance of the paper. We hope this account will convince some scientists and funding organizations to revoke their acceptance of impact factors as an accurate representation of the quality—or impact—of a paper published in a given journal. (1)
Bref, il serait peut-être temps d'instiller un peu de transparence dans le système. Comme dit Enro :
Que cette déficience de Thomson Scientific soit temporaire ou permanente, la question des données n'en reste pas moins cruciale. (...) Alors oui, un audit des données de Thomson Scientific ne serait pas de trop, voire une vraie tentative de construction d'une base et d'un indicateur concurrents. (2)
Au fait, quelqu'un connaît l'algorithme qu'utilise Médiamétrie pour calculer les parts de marché des chaînes de télévision ?


(1) The Journal of Cell Biology : Show me the data
(2) Enro : Facteur d'impact, des données en question

16.12.07

118 - Paradoxe de Goodman

Le paradoxe de Goodman appartient à la grande famille des paradoxes autour du raisonnement inductif. Oui, vous savez, le raisonnement inductif, celui qui dit : « tous les corbeaux que j'ai observés jusqu'ici sont noirs, donc tous les corbeaux doivent être noirs. » Ou encore : « chaque fois que la température de l'eau descend en dessous de 0°, elle gèle. Donc l'eau doit geler à 0°... »

Si ce type de raisonnement n'a pas l'évidence mathématique de la déduction, il est quand même bien utile pour pratiquer - justement - l'ensemble des autres sciences, genre physique, biologie and co. Pratique, donc, mais problématique. David Hume est -paraît-il - l'un des premiers à avoir remis en question la validité logique de l'induction en soulignant qu'elle nécessitait un certain nombre de corollaires implicites pour fonctionner, en particulier un principe d'uniformité de la Nature dont l'évidence est assez discutable.

Bref. Même si Hume a finalement essayé de sauver philosophiquement le raisonnement inductif (en l'encadrant de précautions cognitives), la mode de dénigrer cette bonne vieille induction au moyens de vicieux paradoxes était lancée. On peut citer par exemple le paradoxe de Hempel, ou paradoxe de l'ornithologie en chambre, qui s'énonce comme ça : pour déterminer la couleur du corbeau de manière inductive, on peut bien sûr observer des corbeaux, mais on peut aussi remarquer que la proposition « Tous les corbeaux sont noirs » est logiquement équivalente à « Tous les objets non-noirs sont des non-corbeaux ». Dès lors, plus besoin de courir les champs : il suffit de rester chez soi et d'observer un maximum d'objets non-noirs, ce qui est moins fatiguant et tout aussi valable logiquement.

Comment se fait-il alors que si peu d'ornithologues soient disposés à adopter la méthode de Hempel ?

Nelson Goodman, philosophe américain (1906 - 1998), a proposé dans la même ligne un paradoxe particulièrement perturbant. D'abord, il ne s'agit plus de corbeaux mais d'émeraudes. Ensuite, le paradoxe oblige à définir deux nouvelles couleurs : le vleu et le bert (grue & bleen).
The word grue is defined relative to an arbitrary but fixed time t as follows: An object X satisfies the proposition "X is grue" if X is green and was examined before time t, or blue and was not examined before t. The word bleen has a complementary definition: An object X is bleen if X is blue and was examined before time t, or green and was not examined before t. (1)
La version vulgarisée du paradoxe définit plus simplement vleu comme : « vert jusqu'à une certaine date t et bleu ensuite ». (2) L'observation d'une émeraude verte, remarque ensuite Goodman, étaye sans doute, par induction, la proposition : « toutes les émeraudes sont vertes », mais elle étaye tout autant la proposition : « toutes les émeraudes sont vleues », proposition qui, à partir du temps t, ne dit signifie plus du tout la même chose quant à la couleur de l'émeraude. Choisir d'accepter une proposition plutôt que l'autre, affirme Goodman, est une pure question d'habitude.

Alors, bon, on peut tenter de nier : dire que les définitions de vleu et de bert sont secondaires, en ce sens qu'elles sont définies par dessus les concepts de vert et de bleu, et qu'elles font en plus intervenir un élément temporel qui ne figure pas dans les notions de vert et de bleu... Seulement, observe Goodman, l'argument se retourne totalement : si on considère les notions de vleu et de bert comme primaires, celles de bleu et de vert sont secondaires, et ne se définissent qu'en y ajoutant un élément temporel :
If we take grue and bleen as primitive, we can define green as "grue if first observed before t and bleen otherwise", and likewise for blue. (1)
Et si tout ça vous fait mal au crâne, il vous reste à prendre une bonne aspirine avant de dormir. Quoique prouver l'efficacité de l'aspirine sans raisonnement inductif ?

(1) - Wikipedia : Grue and Bleen
(2) - Wikipedia : Le paradoxe de Goodman

9.12.07

117 - Dark data

L'expression dark data a été introduite par Thomas Goetz dans un article pour Wired du 25/9/2007. (1) L'exemple qu'il donne pour expliquer l'idée est une étude parue en 1981 sur le cancer du pancreas : ses auteurs avaient cherché des liens avec l'alimentation, imaginant trouver une corrélation avec la consommation de tabac et/ou d'alcool. Or, la seule corrélation finalement découverte (et donc publiée) concernait la consommation de café.

20 ans plus tard, il s'est avéré que ce résultat était faux. Mais là n'est pas le problème. Le problème, c'est que la véritable info de l'histoire est un résultat négatif : c'est l'absence de lien entre alcool, tabac et cancer du pancreas. Or, cette information n'aurait sans doute jamais été publiée sans l'existence du faux (mais positif) résultat sur le café. Les millions d'études et d'expériences scientifiques qui n'aboutissent qu'à un résultat négatif, à un résultet par défaut, ne sont presque jamais publiées. Et, pour Thomas Goetz, c'est ça qu'il faut changer :
For the past couple of years, there's been much talk about open access, the idea that more scientific publications should be freely available — not locked behind firewalls and subscriptions. (...) Liberating dark data takes this ethos one step further. It also makes many scientists deeply uncomfortable, because it calls for them to reveal their "failures." But in this data-intensive age, those apparent dead ends could be more important than the breakthroughs.
Si l'exemple cité plus haut se raconte en quelques mots, ce n'est évidemment pas le cas dans l'immense majorité des cas : la forme standard d'un "résultat négatif" doit plutôt ressembler à une pile de bottins bourrés de données brutes qui n'ont décidemment pas voulu ressembler à ce que leurs chercheurs avaient imaginé.

Rendre les publications scientifiques libres d'accès est déjà un gros chantier, auquel se sont attelés les promoteurs de la Public Library of Science (2). Etendre le système à la somme colossale des résultats "négatifs" suppose une grosse mise à jour des infrastructures informationelles (comme on dit), notamment en termes de capacités de stockage en ligne : par les temps qui courent, le moindre projet scientifique a vite fait de générer quelques teraoctets de données. Ou ranger des petaoctets de dark data qui ne serviront peut-être jamais à rien ? Comment y accéder ? That is the question. D'ailleurs, Google serait déjà sur le coup. (3)

Mais tous ces problèmes de cables et de quncaillerie ne sont rien, remarque fort justement Thomas Goetz, à côté du véritable bouleversement que constituerait un tel système dans les habitudes de travail et de pensée des chercheurs... Et de leurs employeurs !
(1) Wired : Freeing the Dark Data of Failed Scientific Experiments
(2) Public Library of Science
(3) PIMM : Google’s Palimpsest project