Utilidad del índice h de Hirsch para evaluar la investigación en España

Juan Imperial 1,2 y Alonso Rodríguez-Navarro 1

1Departamento de Biotecnología y Centro de Investigación en Biotecnología y Genómica de Plantas. Universidad Politécnica de Madrid. 2Consejo Superior de Investigaciones Científicas. Noviembre 2005.

(Aquí puede descargar el texto completo como PDF)

Resumen

Hemos estudiado la aplicación del índice h de Hirsch (Proc. Natl. Acad. Sci. USA 102: 16569) para evaluar la investigación en España. Para poder aplicar el índice de forma general, corrigiendo las diferencias debidas al área de trabajo, hemos desarrollado una ecuación que estima el h máximo en cada área, que se utiliza como referencia. Para compensar la falta de actividad investigadora en el pasado en nuestro país, aplicamos el parámetro m de Hirsch a los 10-20 últimos años. También se introduce una corrección por el número de autores. El conjunto de índices reflejan de forma excepcional el éxito de un investigador y la evolución de su trabajo, lo que sugiere que el método de Hirsch será un hito que marque un antes y un después en materia de evaluación científica. La aplicación de este método de evaluación en universidades y OPIS sería una revolución incluso de mayor importancia que la que ocasionaron las evaluaciones de la CNEAI.

Antecedentes

El establecimiento de un parámetro sencillo para evaluar la calidad de la investigación ha sido un ideal perseguido por todos los órganos de investigación en España y en muchos otros países (Seglen, 1997; y citas en este trabajo). El dogma central de la evaluación es que nada puede igualar a la evaluación por pares, si se hace bien, pero que hacerlo bien es difícil (Mulligan, 2004). El Reino Unido es un ejemplo a seguir (http://www.rae.ac.uk/), pero España está aún lejos de poder seguir ese camino: por la escasa financiación del sistema de I+D y por el escaso tamaño de la población científica.

En estas circunstancias, muchas instituciones de evaluación en España han elegido el uso de los factores de impacto de las revistas en los que los investigadores publican para evaluar la calidad del trabajo: bien directamente o por la posición de la revista en los listados del Journal of Citation Reports (Thomson Scientific), aunque la inapropiado de esta práctica está demostrada por un buen número de publicaciones científicas (Seglen, 1997; Hecht y otros, 1998; Amin & Mabe, 2000) [1]. La observación crucial a este respecto es que, dentro de un rango de variación bastante grande del factor de impacto de las revistas de una especialidad, no existe correlación entre el valor de este factor y el número de citas recibidas por cada uno de los artículos publicados por ella [2].

La CNEAI, paradigma de las evaluaciones formales

La Comisión Nacional Evaluadora de Actividad Investigadora (CNEAI) fue probablemente la primera institución española en establecer de forma generalizada una evaluación formal, sin utilizar pares. El éxito de la CNEAI (Jímenez-Contreras y otros, 2003) promovió la extensión de la evaluación formal por comisiones a evaluaciones para otros fines, en los que no es aplicable. Dos aspectos son cruciales en las evaluaciones de la CNEAI: que los evaluados no compiten entre ellos y que el procedimiento se ideó con el único fin de distinguir entre dos poblaciones bastante diferentes, una integrada por los investigadores competitivos y otra ajena o casi ajena a una actividad investigadora productiva. Formalmente, las dos poblaciones se distinguen porque la distribución de la frecuencia de las citas recibidas en cada una de ellas son completamente diferentes, una distribución de Poisson para la primera y una distribución normal para la segunda (Rodríguez-Navarro, 1994). Los métodos formales de la CNEAI sirven para distinguir estas dos poblaciones y para los fines de la CNEAI, pero no para otros fines, y su uso en otras instituciones ha creado numerosos problemas e injusticias.

El índice h

Muy recientemente, la sección News  de la revista Nature  incluía un extenso comentario sobre un trabajo de Jorge Hirsch, un físico de la Universidad de California en San Diego, en el que se propone un ingenioso método para evaluar la investigación (Ball, 2005). El trabajo completo ha sido publicado aún más  recientemente en la revista Proceedings of the National Academy of Sciences USA (Hirsch, 2005). El método define el índice h como el número aplicado a un investigador que tiene h trabajos que han sido citados al menos h veces. Por ejemplo, h = 10 significa que hay diez artículos que tienen 10 o más citas, pero no hay 11 que tengan 11 o más citas. La reciente introducción de los nuevos métodos de análisis del Thomson ISI Web of Knowledge permite que el cálculo del número h sea casi inmediato (en el Apéndice 2 se describe el procedimiento), lo que contribuye a que su uso sea enormemente atractivo. Además, como discute Hirsch, el índice h es un indicador de mejor calidad que los que se tabulan tradicionalmente: (i) número de trabajos, (ii) número total de citas, (iii) número de citas medias por trabajo, (iv) número de trabajos “significativos” o (v) número de citas de los trabajos más citados. Por estas razones, la propuesta del índice h ha llamado la atención de muchos y hay numerosos comentarios sobre su uso, que pueden encontrarse con cualquier buscador de Internet.

El trabajo de Hirsch, que es formalmente intachable, establece incluso criterios de progreso en la carrera científica basados en el índice h, y demuestra que h puede “rescatar” a algunos científicos poco reconocidos en los medios pero que han tenido un papel relevante en el desarrollo científico. No obstante, la aplicación general del índice h tiene dos problemas que Hirsch discute, pero no resuelve: el peso del tamaño del grupo investigador (número de autores por trabajo) y su aplicación a áreas o subáreas científicas con poblaciones de diferentes tamaños (lo que repercute en el número de citas). En lo que sigue, tratamos estos dos problemas.

El índice hR

El trabajo de Hirsch pone de manifiesto que los índices h son diferentes en áreas científicas diferentes. En general, los trabajos aplicados reciben menos citas que los básicos en las disciplinas más dinámicas y, en consecuencia, los científicos que trabajan en disciplinas aplicadas tienen índices h mucho más bajos. La diferencias están causadas por la dependencia de h del tamaño de la población que potencialmente puede citar el trabajo: si son muchos los investigadores trabajando en una materia, las citas pueden ser mayores que en una comunidad científica pequeña. Para investigadores poco activos con un h pequeño, las diferencias entre áreas prácticamente no existen, pero cuando h crece, el valor máximo queda limitado por el tamaño de la población de investigadores que trabajan en el campo. El trabajo de Hirsch lo pone de manifiesto al comparar la Física con la Biología. No obstante, debido a la complejidad de la variación de h, no existe un coeficiente corrector para normalizar h en poblaciones distintas, pero por un procedimiento empírico hemos encontrado que el valor de h de los investigadores más citados en cada área se correlaciona con el factor de impacto de las revistas de cada área y que el cálculo de este valor de h es sencillo

                h = 16 + 11f                                                                    [1]

donde f es el factor de impacto de las revistas “mejores” que caracterizan el área o subárea científica en consideración (Apéndice 1). Esta fórmula, que no está exenta de problemas, como se discute en el Apéndice 1, permite establecer el índice h de referencia de ese área, hR (dicho de otra manera, hR es el valor máximo de h que se puede esperar para los investigadores del área en consideración). Conviene advertir que la determinación de f es un trabajo meticuloso que tienen que hacer pares del evaluado. El sistema español se caracteriza por publicar muchos datos y poca ciencia, y sería un error determinar un coeficiente corrector bajo, sólo porque el investigador no aborda temas importantes y siempre utiliza revistas poco relevantes. El caso contrario sería caracterizar el campo con revistas de carácter general en los que los investigadores de un campo aplicado pueden publicar sólo como un hecho excepcional. Todos los físicos puede publicar en Physical Review Letters y todos los que trabajan en plantas pueden hacerlo en Plant Cell, pero éstas no son las revistas que deben usarse para caracterizar los campos de trabajo de la mayor parte de los físicos o de los investigadores en plantas.

Finalmente, el h de cada investigador hay que compararlo con el hR correspondiente, pero el cociente h/hR no es un parámetro que determine de forma universal la posición de un científico en  cualquier campo [3]. En términos muy simples, se puede decir que en los campos con una hR baja es algo más fácil llegar a una h/hR de 0,5, por ejemplo, que en los campos con una hR muy alta.

El índice hI

La idea de que los grupos grandes se benefician de índices h más altos porque los mismos autores participan en más trabajos es incuestionable, pero la corrección de este problema es algo muy complicado, porque la multiautoría se produce por fenómenos complejos y porque no todos los autores son responsables del abuso que se produce cuando figuran autores indebidamente. Investigadores de la Universidad de Sao Paulo en Brasil han abordado el problema de la multiautoría estudiando el índice h de todos los investigadores brasileños después de darse a conocer este índice y creando el índice hI, que se obtiene dividiendo h por el número medio de autores en los h trabajos (Batista y otros, 2005). En la idea ya avanzada, la lógica de este índice es grande y los resultados fueron buenos, pero el índice es inaplicable cuando aparecen trabajos que corresponden a grandes colaboraciones, como en secuenciación genómica o en física de partículas. En estos casos, la media estaría dominada por la excepción, lo que no sería aceptable. La investigación médica también puede requerir de la colaboración de clínicos y biólogos moleculares formando grupos grandes en los que el mayor peso experimental lo llevan pocos, pero en la que todos son necesarios.

En el otro platillo de la balanza están las ventajas del uso del índice hI en España, ya que la aplicación de este índice rescataría a muchos científicos que han trabajado aislados en las universidades creadas en los últimos años y actuaría como corrector del abuso en la inclusión de autores. La multiautoría indebida se da en casi todos los países, pero en España es muy notoria, y además hay diferencias entre Comunidades Autónomas, lo que hace suponer que, efectivamente, la política científica no es ajena a la situación. No cabe duda de que el exceso de evaluaciones formales con un peso alto del número de trabajos publicados induce esta respuesta de la comunidad científica. Por ello, si la política científica ha exagerado el problema, la política científica debe de corregirlo. No obstante, aplicar la corrección a los más jóvenes sería un error porque a muchos becarios  se les puede haber obligado a compartir autoría con personas que no han tenido ninguna participación en el trabajo publicado y sería injusto que ahora fueran perjudicados por algo que no estaban en condiciones de evitar.

Una solución alternativa al índice hI, aplicable en muchos campos, sería tabular los trabajos en los que el científico evaluado aparezca como primer o último autor. Este es un índice de notable interés, al que llamamos hK.

El parámetro m.

Una característica del índice h es que depende del número de años de actividad del investigador, en un modelo simple que describe Hirsch la dependencia es lineal, y aunque en muchos casos reales la dependencia es compleja, la aproximación de Hirsch es excelente. Para comparar la productividad de investigadores de diferentes edades Hirsch describe el parámetro m.

                  h ~ mn                                                                  [2]

en la que n es el número de años de actividad investigadora. La aplicación de este parámetro en España es absolutamente necesaria si se quieren estudiar las productividad en la universidad, pero no aplicándolo a la edad sino a lo producido en los últimos 10-20 años. Esto es así porque en los años 60-70 la investigación en la universidad era casi nula [4] y en los años 80 las diferencias entre las universidades antiguas y las de nueva creación eran todavía enormes. Por ello, los índices h de los que desarrollaron (y aún desarrollan) la investigación en las universidades periféricas está muy perjudicado. Para la física, Hirsch da un valor de m ≈ 1 para un investigador con éxito, m ≈ 2 para un investigador extraordinario y m ≈ 3 para un investigador excepcional. En la universidad española hay profesores que en los últimos 10-20 años superan el nivel de éxito de Hirsch, pero esto es casi imposible si el período investigador se extiende a los años 60 o 70.

Como se deduce de la fórmula [2], el parámetro m varía entre disciplinas y debe de referirse al índice hR. La ecuación [1] se ha obtenido con científicos de EEUU que tienen su primer trabajo en la década de los 70 y, con 30-35 años de actividad. Por ello, los parámetros m asociados a los índices hR se pueden obtener dividiendo estos índices por 30-35.


Los “pros y los contras” del índice
h y derivados.

Como ya hemos explicado, al contrario que el factor de impacto de las revistas, que debe de ser completamente desterrado de las evaluaciones, el índice h y sus derivados hI, hK y m se han diseñado para evaluar a científicos y se han probado evaluando a científicos, lo que les concede una validez excepcional. No obstante, no son una solución definitiva para que las evaluaciones formales puedan sustituir completamente a las realizadas por pares. Incluso en la determinación de los valores de referencia por campo, hR, tienen que intervenir los pares, como ya hemos dicho.

La ventaja de la aplicación de estos índices es que quizás en un 90% de las evaluaciones en ciencia y tecnología, los índices reflejan razonablemente lo que dirían los pares, teniendo en cuenta que no hay ningún procedimiento enteramente cuantitativo. Una aproximación que nos ha resultado útil en nuestro estudio ha sido crear una tabla con los índices h, hI, hK, el parámetro m de los 10-20 últimos años (si es necesario) y la referencia hR. El estudio conjunto de estos índices es mucho más informativo que el uso aislado de uno de ellos, porque las condiciones en las que se desenvuelve cada investigador son muy variables. Por ejemplo, el establecimiento de muchas colaboraciones aumenta h, pero disminuye hK o hI.

Conviene tener en cuenta dos aspectos en la aplicación de h. El primero es que no siempre las citas reflejan la calidad de un trabajo, ya que algunos trabajos aplicados pueden ser muy útiles y no tener muchas citas. El segundo es que la productividad de un investigador español está muy condicionada por el medio, y no siempre el m de los 10-20 últimos años corrige este problema, porque son  problemas estructurales que aún no están resueltos. Por ello, h puede no reflejar el potencial productivo de un investigador español. Lo hace en EEUU y quizás en los investigadores que han hecho su carrera en algún instituto español de élite, pero no en los casos más generales. No hay comparación posible entre un centro de investigación medio español y la universidad de Harvard o Cambridge. Además, en las áreas con mayor dependencia experimental, la financiación de los proyectos en España es insuficiente para competir en la vanguardia del conocimiento. Por ello, es de esperar que los índices h de los científicos españoles en las disciplinas menos experimentales, matemáticas, por ejemplo, se parezcan más a los hR que en las disciplinas más experimentales.


La aplicación de h y la política científica.

Por circunstancias diversas las evaluaciones de la CNEAI constituyen referencia casi exclusiva de la actividad investigadora en España, otorgándoles una función que va más allá de la función que inspiró la creación de la CNEAI: distinguir a quien investiga de quien no lo hace. Sorprende que aunque España tiene acceso a la base de datos Thonsom Web of Knowledge desde noviembre de 2003, al menos en la red Rebiun, en los CV que exigen las diversas administraciones para financiar proyectos o pagar complementos, no se pidan parámetros como el número total de citas o el número de citas por trabajo (descontadas autocitas). Si no se ponen los medios, nunca se corregirá el hecho de que la publicación en sí misma sea la única finalidad de muchos investigadores españoles, con independencia de valor científico o técnico del trabajo.

El índice h es excelente para una evaluación formal de la calidad y debe de usarse, pero hay algunas observaciones sobre su uso en política científica que deben de tenerse presente. La primera quizás es que h depende del tamaño de la población de los científicos que trabajan en un determinado tema, como ya se ha dicho, y como en los temas hay modas que atraen a muchos investigadores en un momento determinado, los que investigan en esos temas tienen más probabilidad de alcanzar índices h altos. En estas circunstancias, si el sistema presiona indiscriminadamente hacia índices h  altos, la respuesta de los investigadores será concentrarse en esas áreas y dejar abandonadas las de h bajos, lo que en un sistema científico y técnico tan pequeño como el español sería un desastre. Por ello, la referencia de los valores individuales de h al índice hR es imprescindible. No obstante, esto no es necesario cuando se comparan instituciones similares, por ejemplo: facultades de químicas o de medicina; en estos casos es suficiente comparar las distribuciones de las frecuencias de h en cada centro.

 

Hirsch sugiere, con cautelas, los valores de h que, de forma automática, deberían de conducir a obtener una plaza permanente en la universidad y a progresar en la carrera científica, incluido el nombramiento de miembro de la National Academy of Sciences. Aplicar un criterio formal similar en España, en universidades y OPIS, incluyendo los índices que hemos discutido, sería el mayor avance para nuestro sistema de I+D que podría lograrse después de la creación de la CNEAI. Este sistema, lamentablemente, no es aplicable, salvo alguna excepción, a las ciencias sociales y a las humanidades, porque estas áreas carecen de bases de datos de revistas suficientemente extensas y por el gran peso que en estas áreas tiene la publicación de libros, que escapan por el momento al análisis sistemático de citas.

 

Trabajos citados.

 

Amin M, Mabe M. 2000. Impact factors: use and abuse. Perspectives in publishing No. 1. Elsevier Science (http://www.elsevier.com/)

Ball P. 2005. Index aims for ranking scientists. Nature 436:900.

Batista PD, Campitelli MG, Kinouchi O, Martinez AS. 2005. Universal behaviour of a research productivity index. http://xxx.sf.nchc.gov.tw/pdf/physics/0510142

Hecht F, Hecht BK, Sandberg AA. 1998. The journal “impact factor”: a misnamed, misleading, misused measure. Cancer Genetics and Cytogenetics 104: 77-81.

Hirsch JE. 2005. An index to quantify an individual’s scientific research output. Proceedings of the National Academy of Sciences USA 102: 16569-16572

Jiménez-Contreras E, de Moya Anegón F, Delgado López-Cozar E. 2003. The evolution of research activity in Spain. The impact of the National Commission for the evaluation of research activity (CNEAI). Research Policy 32: 123-142.

Mulligan A. 2004. Is peer review in crisis?. Perspectives in publishing No. 2. Elsevier Science (http://www.elsevier.com/).

Rodríguez-Navarro A. 1994. La reforma de la Universidad española. Boletín de la Institución Libre de Enseñanza 20: 7-32.

Seglen PO. 1997. Why the impact factor of journals should not be use for evaluating research. British Medical Journal 314:497-507.


APENDICE 1

 

El índice h depende, al menos, del tamaño de la población de investigadores que trabajan en una determinada área o subárea, por lo que la generalización de su uso requeriría poder normalizar su valor en diferentes áreas. Aunque el estudio matemático que aporta Hirsch indica que un coeficiente normalizador no existe, los datos que presenta para física y biología sugieren que podría haber una relación sencilla entre los h máximos que se dan en estas áreas, lo que hemos llamado hR en este trabajo, y los factores de impacto de las revistas características para estos campos. En física, con h = 80, los factores de impacto que caracterizan el campo pueden oscilar entre 7 de Physical Review Letters y el 5 de Physical Review D; mientras que para biología básica, h = 150, los factores de impacto de las revistas en neurociencias, inmunología o biología celular varían entre 9 y 15. En ambos casos, multiplicando los factores de impacto por 12 se obtienen los valores de h. Obviamente, esta relación lineal no puede extenderse a valores más bajos, porque incluso en los campos  con poblaciones pequeñas y revistas con factores de impacto bajos, un valor de h bajo, por ejemplo, cinco trabajos con 5 citas, es una meta fácil de alcanzar.

 

Para resolver empíricamente el problema, hemos computado el índice h de científicos altamente citados dentro de varios campos, hR, encontrando que los índices hR dependen mucho más de los factores de impacto de las revistas que caracterizan el área que de las pautas de publicación. Por ejemplo, ciencias de los alimentos y ciencias de los materiales tienen pautas de publicación muy diferentes: investigadores con menos trabajos y con muchas más citas por trabajo en el primero que en el segundo. A pesar de ello, en ambos casos, los índices h  más altos se sitúan entre 35 y 40, y los factores de impacto de las revistas en torno a 2. En producción agrícola, los índices h más altos de quienes publican en Crop Science, con un factor de impacto de 0,96, están alrededor de 30. Éstos  y otros datos nos han permitido determinar la ecuación que relaciona los h de los investigadores más citados en cada campo con el factor de impacto f de las revistas características de cada área

 

    hR = 11f + 16                                                                            [1]

 

para la que se da un coeficiente de correlación muy alto.

 

Siendo lineal la relación entre hR y f, el hR de los científicos que trabajan en varias áreas es posible computarlo como una media. Por ejemplo, un investigador de microbiología de alimentos, que hace simultáneamente trabajos de microbiología y trabajos de alimentos, tendría una hR que sería la media entre alimentos y microbiología, alrededor de 50 (en alimentos, f = 2, hR = 38; en microbiología, f = 4, hR = 60).


APÉNDICE 2

 

Las instrucciones que siguen permiten calcular fácilmente el índice h, y para seguirlas sólo hace falta estar mínimamente familiarizado con la base de datos de Thomson Web of Knowledge. No obstante, debido a problemas de identificación por apellidos comunes o compuestos, en evaluaciones, cada interesado debería de comprobar su h.

 

1. Entrar en ISI Web of Knowledge, luego en la “Web of Science” y después en “General Search”.

2. En la ventana “Author” se escribe el nombre del investigador, en la forma: gonzalez jm, sin acentos y con las iniciales juntas. Si el apellido es compuesto, p.e. perez-gomez, conviene escribir perez$gomez, ya que en la base de datos puede venir simultáneamente como perez-gomez, perez gomez o perezgomez. Si el apellido compuesto es muy largo conviene truncarlo, p.e. rodriguez$vidau* por rodriguez-vidaurreta.

3. En muchos casos, el mismo nombre corresponde a varios investigadores, p.e. a un físico, a un cirujano y a un bioquímico. En estos casos, para individualizarlos es necesario utilizar la ventana de “Topic”. Con un CV a la vista se pueden individualizar los temas de trabajo en esta ventana y conseguir independizar los resultados de la búsqueda. P.e. un bioquímico que trabaja en ATPasas, en la ventana de “Topic” se podría escribir: ATPase* OR pump OR potassium OR calcium OR sodium OR ph OR ouabain OR omeprazol OR ratitidine. Hay que tener en cuenta que es más fácil eliminar uno o varios trabajos de la lista final que recuperar uno que no responde a ninguno de los términos utilizados en los tópicos. La ventana de “Address” también puede ser de gran utilidad para individualizar, pero hay que conocer todos los lugares donde ha trabajado el investigador, si es así, se podría poner: Barcelona OR Cambridge OR Yale (para trabajos anteriores a 1975, el uso de la ventana “Address” no es conveniente porque puede conducir a la pérdida de trabajos). Una vez cumplimentadas las ventanas, activar “Search”.

4. Cuando la página de resultados aparezca, se ofrecerán, por defecto, 10 trabajos por página, lo que suelen ser pocos. Para cambiar, activar la ventana “Show 50 per page”. Cuando el cambio haya aparecido, en la ventana de la derecha activar “Sort by times cited” y obtendremos todos los trabajos en orden descendente del número de citas. Ahora, basta con moverse hasta encontrar el último trabajo cuyo número de orden sea igual o menor al número de citas. Ese es el índice h.

5. Se puede importar la lista para analizarla posteriormente, p.e. para tener todos los autores (en la página descrita aparecen un máximo de tres autores) o para eliminar algún trabajo que es de otro investigador. Para ello, en el cuadro de la derecha, marcar los registros que se quieren importar, p.e. del 1 al 35, y activar “Add to marked list”. Después activar “35 articles marked”, que estará en azul, y seguir las instrucciones de los cuadros diálogo que aparecen.

6. Para calcular el parámetro h de los 10-20 últimos años, antes de terminar lo descrito en el punto 2, activar “change settings” y fijar la fecha de inicio del período, p.e. 1985.