9788418892943. Browner_Diseño de investigaciones clínicas_5e

243

Capítulo 13 • Diseño de estudios de pruebas médicas

Peligros del sobreajuste Las pruebas se desarrollan a través de estudios de investigación que son en sí imperfectos. El sobreajuste se produce cuando la inevitable variabilidad aleatoria y la variación producto de los errores de muestreo o medición son sobreinterpretados por los desarrolladores de las pruebas e incorporados al algoritmo de estas. El sobreajuste hace que una prueba tenga un rendimiento más deficiente en la realidad que en los estudios usados para desarrollarla y es una razón importante para validar el rendimiento de una prueba en una población distinta. Por ejemplo, considere un estudio de 5 mujeres con cáncer de ovario y 95 sin él en el que se utilizaron análisis de sangre para medir las concentraciones de 500 metabolitos diferentes presentes en el suero. Muchos de los metabolitos serán un poco más altos en las mujeres con cáncer de ovario por mera casua lidad, y es casi seguro que será posible identificar un patrón muy específico de esos 500 metabolitos que estarían presentes en las 5 mujeres y no en alguna de las del grupo control. No obstante, esa pauta sería probablemente inútil como prueba de detección, ya que es el resultado de una variabilidad aleatoria. Aun que los procedimientos estadísticos son útiles para evaluar el papel del azar, los contrastes de hipótesis disciplinados a menudo no pueden seguir el ritmo del proceso iterativo de desarrollo de las pruebas ni superar los graves problemas de los contrastes de hipótesis múltiples. El sobreajuste suele producirse cuando se emplean modelos de variables múltiples para combinar varios tipos de mediciones primarias en un algoritmo de prueba, como en el ejemplo mencionado antes. El sobre ajuste también puede producirse en pruebas sencillas, como decidir un valor de corte concreto para una prueba (como una concentración de ferritina sérica) que tiene resultados continuos. Cuando se utiliza una prueba de este tipo, puede ser tentador para un investigador mirar todos los resultados en quienes presentan la variable de valoración (digamos, anemia ferropénica) y quienes no (con otros tipos de anemia), y luego seleccionar el mejor valor de corte aparente para definir una prueba positiva. Sin embargo, esto es un tipo de sobreajuste. Los mejores abordajes son basar el valor de corte en el conocimiento clínico o biológico de otros estudios o dividir las pruebas continuas en intervalos y luego calcular los cocientes de verosimilitudes para cada uno ( véase más adelante). Para reducir al mínimo el sobreajuste, los valores de corte para definir los intervalos deben especificarse de antemano o ser números redondos razonables. Los estudios de valida ción de modelos, diseñados para evaluar el rendimiento independientemente del desarrollo del modelo, se analizan más adelante en este capítulo en la sección dedicada a los modelos de predicción clínica. ■ ESTUDIOS DE LA REPRODUCIBILIDAD DE LAS PRUEBAS Las pruebas tienen reproducibilidad si (en ausencia de un cambio real en los fenómenos que se miden) sus resultados no varían en función de cuándo o dónde se hicieron o de quién las haya realizado. La reproducibilidad intraobservador describe la coherencia de los resultados cuando el mismo individuo o laboratorio realiza la prueba en la misma muestra en diferentes momentos. Por ejemplo, si a un radiólogo se le muestra la misma radiografía de tórax en dos ocasiones, ¿qué porcentaje de veces coincidirá con él mismo en la interpretación, suponiendo que no conozca la anterior? La reproducibilidad interobservador describe la coherencia entre dos o más observadores: si se muestra a otro radiólogo la misma imagen, ¿qué probabilidad hay de que coincida con el primero en su interpretación? A menudo, el grado de reproducibilidad (o su ausencia) es la principal hipótesis de trabajo. En otros casos, la reproducibilidad se estudia con el objetivo de mejorar la calidad, ya sea de la atención clínica o de un estudio de investigación. Cuando la reproducibilidad es escasa (porque la variabilidad intra- o interob servador es grande), es poco probable que una medición sea útil, y puede ser necesario mejorarla o aban donarla. Por supuesto, todos los observadores pueden estar de acuerdo entre sí y, no obstante, equivocados. Diseños El diseño básico para evaluar la reproducibilidad de las pruebas consiste en comparar los resultados de más de un observador o que se obtuvieron en más de una ocasión. En el caso de las pruebas que implican varios pasos, cuyas diferencias en cualquiera de ellos podrían afectar la reproducibilidad, el investigador tendrá que decidir la amplitud del abordaje del estudio. Por ejemplo, la medición de la concordancia entre obser vadores de los patólogos en un conjunto de frotis de citología del cuello uterino en un solo laboratorio SAMPLE

Made with FlippingBook Annual report maker