23.12.07

119 - Facteur d'impact

Le facteur d'impact, c'est le PageRank des journaux scientifiques. Ca existait bien avant Google, et le principe -récursif- en est tout à fait similaire : le PageRank d'une page x dépend du nombre des autres pages où figure un lien vers la page x, et du PageRank de ces pages. Le facteur d'impact d'un journal y, c'est la même chose : il est fonction du nombre d'articles, parus dans d'autres journaux, qui citent les articles parus dans y, et du facteur d'impact de ces autres journaux. Le chiffre est calculé par la société Thomson Scientific, sur la base d'un dépouillement exhaustif de la presse scientifique.

Pour un site qui vit de la publicité, le PageRank est une affaire très très sérieuse, puisque la position sur les pages Google (et donc, une part conséquente du trafic) en dépend. Pour un chercheur c'est pareil : sa carrière dépend de ses articles, et du facteur d'impact des revues qui les publient...

Dans les deux cas, la méthode (pour PageRank : l'algorithme) est public. Mais dans les deux cas, ce sont des sociétés privées qui font le calcul (qui font leur cuisine, diront les sceptiques), et l'impartialité du résultat obtenu ne dépend que de leur bonne volonté. D'où les interminables discussions autour de la validité de PageRank et de l'arôme qui se dégage des cuisines de Google... Chez les chercheurs, tout le monde râle contre le "publish or perish" et les effets pervers de l'évaluation via les facteurs d'impact.

La semaine dernière, les responsables de 3 journaux édités par The Rockefeller University Press ont tout bêtement essayé de vérifier le calcul fait par Thomson Scientific,et le moins qu'on puisse dire, est que ça ne semble pas limpide. En résumé, la base de données, qui n'est pas en libre accès mais qui peut être achetée à Thomson Scientific, ne correspondait pas aux résultats publiés. Après réclamation, Thomson Scientific leur en a fourni une autre qui, selon eux, ressemblait à un bricolage ad'hoc, et qui ne correspondait toujours pas aux résultats publiés... D'où leur conclusion radicale : quand un scientifique est incapable de fournir les données censées soutenir un résultat, le résultat est invalidé.
It became clear that Thomson Scientific could not or (for some as yet unexplained reason) would not sell us the data used to calculate their published impact factor. If an author is unable to produce original data to verify a figure in one of our papers, we revoke the acceptance of the paper. We hope this account will convince some scientists and funding organizations to revoke their acceptance of impact factors as an accurate representation of the quality—or impact—of a paper published in a given journal. (1)
Bref, il serait peut-être temps d'instiller un peu de transparence dans le système. Comme dit Enro :
Que cette déficience de Thomson Scientific soit temporaire ou permanente, la question des données n'en reste pas moins cruciale. (...) Alors oui, un audit des données de Thomson Scientific ne serait pas de trop, voire une vraie tentative de construction d'une base et d'un indicateur concurrents. (2)
Au fait, quelqu'un connaît l'algorithme qu'utilise Médiamétrie pour calculer les parts de marché des chaînes de télévision ?


(1) The Journal of Cell Biology : Show me the data
(2) Enro : Facteur d'impact, des données en question

3 commentaires:

Anonyme a dit…

heu, non, non, le facteur d'impact ne tient pas compte des facteurs d'impacts des journaux citant

mais il existe un pagerank des journaux et un eigenfactor
http://en.wikipedia.org/wiki/Impact_factor

Jean Véronis a dit…

Deux petites remarques en passant (bravo pour votre blog !) :

1) l'aspect récursif du PageRank n'est peut-être pas nécessaire : certaines études semblent montrer que le simple compte des liens entrants est supérieur au PR. Voir ce billet, les refs citées et les commentaires.

2) Si vous voulez mon avis, Google et Mediametrie, c'est aussi un gros bricolage (l'opacité aide!)

dvanw a dit…

Merci à blop pour le correctif. Mea culpa. Bizarrement, j'avais soigneusement vérifié commet ça marchait pour le ParRank, mais je m'étais fié à ma mémoire pour le facteur d'impact. A tort !

Merci à Jean (dont j'apprécie beaucoup le blog moizaussi). Je ne me risquerai pas à la discussion technique sur PageRank dont je ne connais pas assez les détails. L'avantage est que -au moins en principe- le processus est connu. Ce qui n'est pas le cas pour les méthodes de redressement de Médiamétrie.

D'une façon générale, il me semble clair qu'un remplaçant open-source à PageRank serait le bienvenu. Cette histoire d'autorité devient trop sérieuse pour rester entre les mains de quelques uns.