Contasti1938: enero 2010

1. Estos comentarios fueron escritos originalmente con el titulo “Calidad y Originalidad de los Artículos Científicos”, y en principio estaban dirigidos a investigadores, científicos, árbitros, jurados y editores. Al revisarlo y corregir algunas erratas decidí --con gran esfuerzo y mucha dificultad de mi parte, ya que tengo más de veinte años sin dictar la materia-- aclarar, extender y redactar mejor los aspectos conceptuales de carácter estadístico, para que también fuesen útiles a los estudiantes de postgrado que deben preparar sus tesis de grado. Adicionalmente al final hemos agregado referencias concretas sobre varias investigaciones que sobre el tema han sido publicadas en el país.
2. Inicialmente, estos comentarios fueron escritos y redactados de una manera libre, que en ensayos anteriores he denominado al mejor estilo desarticulado de Wittgenstein. En esta oportunidad he profundizado en aspectos conceptuales y he ordenado mejor la exposición y la redacción del texto.
3. La semana pasada leí el número de Noviembre de la revista Interciencia. Encontré en el editorial y en un artículo, el tema de La Evaluación de La Calidad de los Investigadores y de las Revistas Científicas. Partiendo de un índice de impacto --calculado sobre el número de citas que reciben los distintos trabajos publicados-- y estimar un puntaje para cada artículo, se puede agregar y promediar índices para los investigadores y para las revistas. Los autores coinciden en la no pertinencia de este índice para evaluar a investigadores y revistas de países en vías de desarrollo, que publican en idiomas nativos artículos importantes, pero que no están en la corriente principal de la ciencia occidental que es cultivada en países desarrollados.
4. Como consecuencia de estas lecturas, reflexione un tanto divergentemente sobre el tema. Posteriormente me oriente hacia una reflexión menos analítica pero más descriptiva del concepto de calidad, haciéndolo vía el concepto de originalidad, que en cierta manera es más primigenio y elusivo --difícil de medir-- que el concepto más usual de calidad ya medido por el índice de impacto.
5. Semánticamente, el término de originalidad, dentro del ámbito científico, artístico y literario se utiliza con dos significados (a) Un primer significado de carácter dicotómico, mediante el cual un trabajo es original es decir que no es una copia, o que el trabajo no es original, porque el autor se ha plagiado de otros precedentes. (b) Un segundo significado de carácter métrico, múltiple y/o continuo, a partir del cual se puede construir un indicador que como variable tendría un valor mínimo de cero, en el caso de una copia y un valor máximo a determinar según la escala que se construya. Con este segundo significado, los trabajos pueden presentar y ser puntuados con grados variables de originalidad.
6. Podemos identificar dentro de la Investigación Científica diversos tipos de trabajo, que responden a diferentes niveles de originalidad. Para una aproximación al concepto, utilizaremos como soporte y/o indicador para el análisis, la figura estadístico/matemático que en la Investigación Científica se conoce como la Variable Dependiente. Si en una investigación --exploratoria o experimental-- se crea o se construye, por vez primera, una nueva variable dependiente, este trabajo en general presentará un mayor grado de originalidad que aquellos otros que utilizando la misma variable dependiente o algunas variaciones de la misma se aplican sobre un colectivo o universo paralelo y/o solo cambian las variables independientes. En la mayoría de los casos con el uso de estas nuevas variables independientes no se logran resultados relevantes y/o empíricamente significativos. En el mundo académico este fenómeno es muy conocido y se denomina Tesis Seriadas. Es más frecuente en las áreas disciplinarias de Medicina, Psicología y Educación y menos frecuente en Biología, Ecología y Geografía. Con la facilidad que representa el uso de las aplicaciones electrónicas, estos procedimientos se han potencializado e incrementado al máximo. Especialmente con el uso de la prueba ANOVA (Análisis de las varianzas para calcular un estadístico denominado F, asumo que en honor a Fisher).
6b. El uso de la prueba ANOVA se ha hecho muy común en Medicina, Ecología Psicología, Geografía y Educación y es menos usual en Física, Ingeniería, Química y Biología. Cuando he leído, muy superficialmente, este tipo de artículo, encuentro que ya no se nombra e identifica de manera clara y explícita cual es la variable dependiente, aunque por la lectura del texto se puede inferir cual es y como se ha medido. De la misma manera ya no se nombran e identifican de manera clara y explícita cuales son las variables independientes y no se describen sus respectivos valores nominales.
7. Entre 1960 y 1972 adquirí un conocimiento conceptual acabado y tradicional sobre Inferencia Estadística, pero desde 1980 cuando veo, leo y trato de analizar la salida numérica extensa y abundante de los programas electrónicos, debo confesar que me pierdo y me confundo. Pero al mismo tiempo que encuentro esas grandes catedrales de cifras y de números, encuentro también simultáneamente que en los artículos se deslizan afirmaciones como estas: “Las muestras (?) se compararon empleando un ANOVA con un nivel de significación de 95% (???)”. (Para el análisis estadístico de los datos se utiliza el programa estadístico Statgraphics Plus versión 1.4). Aunque se trata de una trivialidad fácilmente interpretable y traducible al lenguaje correcto, estos detalles, que podrían pasar --pero que no lo son-- como una falta de rigurosidad y precisión en la manera de expresarse, en mi opinión conducen a intuir y/a sospechar del fenómeno que voy a llamar “Uso Automático” de los programas estadísticos electrónicos, es decir sin conocer y/o dominar conceptualmente lo que se esta haciendo. Asumo que ese “Uso Automático” se desarrolla bajo dos opciones/alternativa: (a) En universidades y grandes centros de investigación, un estadístico o matemático asesora y recomienda aplicar una determinada versión ANOVA, luego un técnico en computación procesa y posteriormente los investigadores reciben los resultados. (b) En otros grupos de investigación y para ciertas disciplinas, existen problemas típicos que pueden dar lugar a variaciones con la misma variable dependiente, que se repiten serialmente haciendo cotidiano y rutinario el manejo y uso mecánico de un determinado programa electrónico por parte de los propios investigadores.
8. Hace muchos años --más de cuarenta-- cuando era estudiante de un Postgrado en Estadística Matemática (MIT), el planteamiento de una investigación, que implicase procedimientos muéstrales, se iniciaba a partir de sus objetivos con la determinación de cuales serian las variables dependientes e independientes, y de cómo estas serían medidas y/o caracterizadas. De alguna manera se marcaba un protocolo, que a continuación describo de manera resumida, sin ofrecer en principio una mayor aclaratoria conceptual, que presentaremos posteriormente: (a) Dependiendo de las condiciones del problema se determinaba el estadístico y/o tipo de contraste a utilizar, generalmente z, t, F. A mi poco me simpatizaba la Chi Cuadrado, y al estadístico de Poisson prácticamente lo ignoraba, solo lo estudiaba para los exámenes. (b) Según fuese la Hipótesis de Nulidad, se establecen las condiciones de unilateralidad o bilateralidad del contraste, (c) Se determinaba a priori el Nivel de Significación del contraste (0.01, 0.05, 0.10). (Probabilidad y/o riesgo de cometer Error del Primer Tipo, si se hubiese rechazado la Hipótesis de Nulidad). (d) Para ese valor del Nivel de Significación, se localizaba en una tabla un valor teórico correspondiente del estadístico. (Valor Crítico). (e) La tabla representaba una versión digitalizada de la función probabilística de densidad del estadístico (z, t, F). (f) Para el caso de F, existía una complicación adicional por la consideración de los grados de libertad: totales, intragrupos e intergrupos. (g) Con los datos numéricos obtenidos en las variables dependientes e independientes, se calcula en la muestra, el valor observado del estadístico. (h) Se compara el valor observado con el valor crítico, y según fuese el signo de la diferencia, se toma la decisión de rechazar o no la Hipótesis de Nulidad.
9. Con los programas electrónicos no solamente se ha cambiado este protocolo, sino que el programa decide predeterminadamente y casi automáticamente cuales son las condiciones y restricciones que se deben utilizar, usando las opciones electrónicas por omisión sin que el usuario en muchas oportunidades se entere. La forma como proceden los programas actuales es distinta. Utilizando directamente la ecuación de la función de densidad, el programa introduce el valor observado y/o calculado en la muestra del estadístico (z, t, F) y se determinan los valores correspondientes de probabilidad (p). Ello se logra mediante la suma/integración de las áreas pertinentes y limitadas la curva/función, que numéricamente representaría un Nivel de Significación. Ahora no se fijan a priori los valores del Nivel de Significación (0.01, 0.05, 0.10) sino que se calcula directamente un valor de probabilidad (p), que nadie se interesa en interpretar o que no sabe como hacerlo. Este valor de probabilidad se refiere a un Nivel de Significación Mínimo, es decir a la mínima probabilidad y/o riesgo de Error del Primer Tipo, que se podría cometer si se rechaza la Hipótesis de Nulidad, usualmente calculada entre Medias Aritméticas.
10. Conceptualmente, la Hipótesis de Nulidad implica que dos poblaciones estadísticas definidas por una cierta variable --variable dependiente-- tienen por ejemplo igual Media Aritmética, por tanto las diferencia entre ellas será nula, de allí el nombre de Hipótesis de Nulidad o Hipótesis Nula. Para contrastar empíricamente la verosimilitud o verdad de esta hipótesis, se obtienen muestras aleatorias. En el caso más general, una para cada universo o colectivo --valores nominales de la variable independiente-- donde se ha medido la variable dependiente que define estadísticamente a las poblaciones consideradas. Para evaluar la magnitud o significación de esta diferencia --si es relativamente grande o si es relativamente pequeña-- se calcula en la muestra a partir de los valores que ofrecen las variable dependiente y las variables independientes, el valor observado del estadístico correspondiente (z, t, F) y se determina bajo el supuesto teórico de un muestreo aleatorio, y que matemáticamente genera la función probabilística de densidad del estadístico, cual seria la probabilidad mínima (Nivel de Significación) para que al rechazar esa Hipótesis de Nulidad, se pudiese estar cometiendo el Error de Primer Tipo. Si al rechazar la Hipótesis de Nulidad se esta en efecto cometiendo un error, ello implicaría que se estaría rechazando una hipótesis que en verdad es cierta, o equivalentemente que en efecto según la distribución de esa variable, para ambos universos y/o colectivos, se trataría de una misma población estadística (Idéntica forma de la distribución), expresándolo con mayor precisión y de manera más restringida, diremos que podrían tratarse de dos poblaciones estadísticas diferentes, pero que presentan en común la misma Media Aritmética (Si se asume que las Varianzas Poblacionales son diferentes, este tipo de contraste es conceptual y procedimentalmente más complejo). Existe también un riesgo de cometer un Error de Segundo Tipo, que se puede generar cuando la decisión sea no rechazar la Hipótesis de Nulidad. El procedimiento de cálculo del correspondiente valor de probabilidad es más complejo, ya que será necesario en cada caso tomar un valor particular del Parámetro Poblacional como referencia. Conceptualmente la interpretación también se dificulta.
11. Como un indicio empírico y documental de la existencia de una confusión conceptual, nótese que al mantener dentro de la redacción del corpus/texto del artículo, la referencia explicita a los viejos y conocidos Niveles de Significación (0.01, 0.05, 0.10), pero al mismo tiempo presentar al pie de las tablas de resultados, ciertos valores de probabilidad, por ejemplo p=0.03 correspondiente al valor mínimo del Nivel de Significación, se estaría cometiendo lo que simbólicamente podría denominarse como un “Sincretismo Estadístico”, que sin duda refleja esa confusión conceptual. Nótese adicionalmente que bajo un cierto Nivel de Significación se puede rechazar la Hipótesis de Nulidad, estar en lo correcto, pero si la muestra es suficientemente grande, por ejemplo n=120, una diferencia significativa entre las Medias Aritméticas Poblacionales, podría ser considerada pequeña, juzgada por un criterio empírico sustantivo que son propios y convencionales dentro de una determinada área disciplinaria. Un ejemplo muy claro lo tenemos con el Coeficiente de Correlación de Pearson. Se puede rechazar correctamente la correspondiente Hipótesis de Nulidad, estar en lo cierto, pero sin embargo el Parámetro Poblacional con un valor de por ejemplo 0.01 ó 0.02 tendría poca relevancia empírica, ya que la varianza de la variable dependiente explicada por las variaciones de la variable independiente, estará entre 0.0001 y 0.0004.

12. Mi conclusión se orienta a pensar que en ese vértigo por publicar, las revistas arbitradas están saturadas de trabajos, que por una parte utilizan las mismas variables dependientes o pequeñas variaciones de ellas que ya se encuentran reseñadas en otros artículos publicados, y que por otra parte utilizan de manera automática la prueba ANOVA. En mi opinión, dentro del concepto de originalidad que hemos desarrollado, es más importante un estudio de carácter descriptivo y/o exploratorio donde se construya y se mida con altos niveles de confiabilidad y validez una nueva variable dependiente, que la utilización masiva y automática de pruebas estadísticas de significación, generalmente sobre variaciones de una variable dependiente en la mayoría de los casos apresuradamente y deficientemente medidas, utilizando posteriormente la prueba ANOVA que aumenta artificialmente la impresión de un nivel de complejidad mayor para un trabajo científico, y adicionalmente que es más difícil de interpretar, ya que las variables independientes, en general, no son de carácter monotónicas y en la mayoría de los análisis, los autores pasan por encima de este hecho. En aquellos casos de variables independientes con un carácter ordinal y/o monotonico, resultara superior --por utilizar al máximo y de manera óptima la información disponible-- el análisis y/o contraste mediante un Coeficiente de Correlación, especialmente recomiendo el Coeficiente de Correlación Intraclase.
13. Ayer leí un borrador de un Informe Técnico del Profesor Orlando Albornoz (Seminario sobre la producción de conocimientos científicos) que recoge los resultados de un estudio de opinión sobre una muestra de Investigadores y Profesores Universitarios. En muchas partes de su ensayo se refiere conceptualmente a la calidad de los trabajos científicos, publicados en el país, especialmente en Ciencias Sociales. Me resultó muy interesante su lectura, en especial me surgen numerosas hipótesis que pudiesen ser comprobadas empíricamente, utilizando los datos numéricos del programa PPI. Productividad y Calidad son dos conceptos diferentes, que deben ser medidos de manera distinta. De manera concreta, y como punto de partida operacional para cualquier estudio y/o análisis de esta importante problemática, es de mi interés una comparación de los niveles de calidad entre el Sector de Ciencias Básicas y Tecnológicas y el Sector de Educación y Ciencias Sociales. En relación a este tópico, en un artículo publicado en la revista Interciencia, utilizando como universo a los Investigadores del Programa PPI (niveles I II III) encontré --según fuese el número de artículos publicados comparándolos con el número de investigadores existentes en cada sector-- que la productividad científica en el Sector de Ciencias Básicas y Tecnológicas era tres veces superior a la del Sector de Educación y Ciencias Sociales. Por otra parte, en un artículo publicado en la revista Agenda Académica, encontré que el número de coautores por artículo era aproximadamente tres veces mayor en el Sector de Ciencias Básicas y Tecnológicas en comparación con el Sector de Educación y Ciencias Sociales. Este último hecho, según el artículo que recientemente he leído en la revista Interciencia, aumenta de manera artificial el índice de impacto, ya que los múltiples coautores, en otros diferentes artículos tienden a citarse entre sí.
14. Como un indicador de calidad entre áreas académicas y de investigación a nivel de pregrado, haremos referencia a una Tesis Doctoral que presenta una comparación entre la formación académica de tres tipos de carreras universitarias de pregrado: Ingeniería y Afines, Economía y Afines, Ciencias Sociales y Afines. Se trata de uno de los pocos trabajos realizados en el país que ofrece resultados numéricos concretos. La investigación (Romero Yépez) se desarrolla en el Centro de Estudios del Desarrollo (Cendes). Sobre el universo de las diez primeras cohortes del Cendes, se compara el rendimiento académico que en ese postgrado interdisciplinario lograron los distintos profesionales universitarios participantes, que a su vez se habían graduado diferentes carreras de pregrado. Utilizando la técnica descriptiva del Análisis Factorial, se encontró que en las asignaturas de ese postgrado, los egresados de las múltiples carreras de Ingeniería alcanzaron los primeros lugares, tanto en las asignaturas que integraban el Factor Matemático, como también --inexplicablemente-- en las asignaturas que integraban el Factor Económico y el Factor Social. En contraste, los egresados de las carreras de Economía y Afines y de Sociología y Afines, solo lograron situarse en lugares intermedios y/o promedios en esos tres Factores.

Contasti1938

jueves, 28 de enero de 2010

Caso Conatel Vs. Radio Caracas Internacional

sábado, 23 de enero de 2010

Sueños Seriados. Insertos y Fantasmagóricos

ORIGINALIDAD CIENTÍFICA. ANOVA. PRODUCTIVIDAD Y CALIDAD CIENTÍFICA DE LOS INVESTIGADORES PPI.

Seguidores

Archivo del blog

Datos personales

Buscar este blog