9788418892943. Browner_Diseño de investigaciones clínicas_5e

Esta publicación interactiva se ha creado con FlippingBook, un servicio de streaming de archivos PDF en línea. Sin descargas ni esperas. ¡Solo necesita abrirlo y empezar a leer!

SAMPLE

Diseño de investigaciones clínicas

5 . a E D I C I Ó N

Warren S. Browner, MD, MPH Chief Executive Officer, Sutter Health California Pacific Medical Center Clinical Professor of Epidemiology & Biostatistics University of California, San Francisco Thomas B. Newman, MD, MPH Professor Emeritus of Epidemiology & Biostatistics, and Pediatrics University of California, San Francisco Steven R. Cummings, MD Executive Director, San Francisco Coordinating Center California Pacific Medical Center Research Institute Professor Emeritus of Medicine, and Epidemiology & Biostatistics University of California, San Francisco Deborah G. Grady, MD, MPH Deputy Editor, JAMA Internal Medicine Professor Emeritus of Medicine, and Epidemiology & Biostatistics University of California, San Francisco Alison J. Huang, MD, MAS Professor of Medicine, Urology, and Epidemiology & Biostatistics University of California, San Francisco Alka M. Kanaya, MD Professor of Medicine, and Epidemiology & Biostatistics University of California, San Francisco Mark J. Pletcher, MD, MPH Professor of Epidemiology & Biostatistics, and Medicine University of California, San Francisco SAMPLE

Av. Carrilet, 3, 9. a planta, Edificio D - Ciutat de la Justícia 08902 L’Hospitalet de Llobregat, Barcelona (España) Tel.: 93 344 47 18 Fax: 93 344 47 16 e-mail: consultas@wolterskluwer.com

Revisión científica José Luis Maldonado García

Maestro en Ciencias. Laboratorio de Psicoinmunología, Instituto Nacional de Psiquiatría “Ramón de la Fuente Muñiz”. Coordinaciones de Enseñanza y Evaluación de Inmunología, Departamento de Bioquímica, Facultad de Medicina, Universidad Nacional Autónoma de México, México.

Traducción: Wolters Kluwer Dirección editorial: Carlos Mendoza

Editora de desarrollo: María Teresa Zapata Gerente de mercadotecnia: Simon Kears Cuidado de la edición: Doctores de Palabras Diseño de portada: Zasa Design Impresión: Quad / Impreso en México

Se han adoptado las medidas oportunas para confirmar la exactitud de la información presentada y des cribir la práctica más aceptada. No obstante, los autores, los redactores y el editor no son responsables de los errores u omisiones del texto ni de las consecuencias que se deriven de la aplicación de la información que incluye, y no dan ninguna garantía, explícita o implícita, sobre la actualidad, integridad o exactitud del contenido de la publicación. Esta publicación contiene información general relacionada con tratamientos y asistencia médica que no debería utilizarse en pacientes individuales sin antes contar con el consejo de un profesional médico, ya que los tratamientos clínicos que se describen no pueden considerarse recomendacio nes absolutas y universales. El editor ha hecho todo lo posible para confirmar y respetar la procedencia del material que se reproduce en este libro y su copyright. En caso de error u omisión, se enmendará en cuanto sea posible. Algunos fármacos y productos sanitarios que se presentan en esta publicación solo tienen la aprobación de la Food and Drug Administration (FDA) para uso limitado al ámbito experimental. Compete al profesional sanitario averiguar la situación de cada fármaco o producto sanitario que pretenda utilizar en su práctica clínica, por lo que aconsejamos consultar con las autoridades sanitarias competentes. Derecho a la propiedad intelectual (C. P. Art. 270) Se considera delito reproducir, plagiar, distribuir o comunicar públicamente, en todo o en parte, con ánimo de lucro y en perjuicio de terceros, una obra literaria, artística o científica, o su transformación, interpreta ción o ejecución artística fijada en cualquier tipo de soporte o comunicada a través de cualquier medio, sin la autorización de los titulares de los correspondientes derechos de propiedad intelectual o de sus cesionarios. Reservados todos los derechos. Copyright de la edición en español © 2023 Wolters Kluwer ISBN de la edición en español: 978-84-18892-94-3 Depósito legal: M-22486-2022 Edición en español de la obra original en lengua inglesa Designing Clinical Research , 5. a edición, editada por Warren S. Browner y Thomas B. Newman, publicada por Wolters Kluwer Copyright © 2022 Wolters Kluwer Two Commerce Square 2001 Market Street Philadelphia, PA 19103 ISBN de la edición original: 978-1-975174-40-8 SAMPLE

A Stephen Hulley, MD, MPH, quien concibió, entregó y dirigió las cuatro ediciones anteriores de este libro, creando un palimpsesto que aún brilla. A nuestras familias, por tolerar nuestras obsesiones con los conceptos arcanos y los plazos apremiantes. Y a nuestros profesores, colegas y alumnos, por inspirarnos a profundizar y explicar mejor las cosas. SAMPLE

Contenido

Colaboradores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi Agradecimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii SECCIÓN I Ingredientes básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 Fundamentos: anatomía y fisiología de la investigación clínica . . . . . . . . . 2 Warren S . Browner, Thomas B . Newman y Mark J . Pletcher 2 Concepción de la hipótesis de trabajo y desarrollo del plan del estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Steven R . Cummings y Alka M . Kanaya 3 Elección de los participantes en el estudio: especificación, muestreo y reclutamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Warren S . Browner, Thomas B . Newman y Mark J . Pletcher 4 Planificación de las mediciones: precisión, exactitud y validez . . . . . . . . . 39 Steven R . Cummings, Thomas B . Newman y Alison J . Huang 5 Preparación para estimar el tamaño de la muestra: hipótesis y principios subyacentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 Warren S . Browner, Thomas B . Newman y Mark J . Pletcher 6 Estimación del tamaño de la muestra: aplicaciones y ejemplos . . . . . . . . 65 Warren S . Browner, Thomas B . Newman y Mark J . Pletcher 7 Abordaje de los temas éticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Bernard Lo y Deborah G . Grady SECCIÓN II Diseños de estudios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 8 Diseño de estudios transversales y de cohortes . . . . . . . . . . . . . . . . . . . . 116 Thomas B . Newman, Warren S . Browner y Steven R . Cummings 9 Diseño de estudios de casos y controles . . . . . . . . . . . . . . . . . . . . . . . . . . 138 Thomas B . Newman y Warren S . Browner 10 Estimación de los efectos causales mediante estudios observacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Thomas B . Newman y Warren S . Browner SAMPLE

vii

viii

Contenido

11 Diseño de ensayos ciegos (con ocultación) aleatorizados . . . . . . . . . . . . 196 Steven R . Cummings, Deborah G . Grady y Alison J . Huang 12 Diseños alternativos de estudios de intervención . . . . . . . . . . . . . . . . . . . 221 Deborah G . Grady, Steven R . Cummings y Alison J . Huang 13 Diseño de estudios de pruebas médicas . . . . . . . . . . . . . . . . . . . . . . . . . . 240 Thomas B . Newman, Michael A . Kohn, Warren S . Browner y Mark J . Pletcher 14 Abordajes cualitativos en la investigación clínica . . . . . . . . . . . . . . . . . . . 263 Daniel Dohan SECCIÓN III Abordajes e implementación . . . . . . . . . . . . . . . . . . . . . . . . . . 281 15 Investigación con participación de la comunidad . . . . . . . . . . . . . . . . . . . 282 Alka M . Kanaya 16 Investigación con datos o muestras existentes . . . . . . . . . . . . . . . . . . . . . 291 Mark J . Pletcher, Deborah G . Grady y Steven R . Cummings 17 Diseño, selección y administración de medidas autoinformadas . . . . . . 307 Alison J . Huang, Steven R . Cummings y Michael A . Kohn 18 Implementación y control de calidad del estudio . . . . . . . . . . . . . . . . . . . 323 Deborah G . Grady y Alison J . Huang 19 Gestión de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 Michael A . Kohn y Thomas B . Newman 20 Redacción de una propuesta para financiar un estudio de investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353 Steven R . Cummings, Deborah G . Grady y Alka M . Kanaya Respuestas a los ejercicios al final de los capítulos . . . . . . . . . . . . . . . . . . . . . . . . . .369 Glosario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .395 Índice alfabético de materias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .437 SAMPLE

Colaboradores

Daniel Dohan, PhD Professor, Philip R . Lee Institute for Health Policy Studies University of California, San Francisco Michael A. Kohn, MD, MPP Professor Emeritus of Epidemiology & Biostatistics University of California, San Francisco

Bernard Lo, MD Professor Emeritus of Medicine Director Emeritus, Program in Medical Ethics University of California, San Francisco

SAMPLE

ix

Introducción

E sta 5. a edición de Diseño de investigaciones clínicas (DIC) marca el 35. o aniversario de la publi cación del libro (y la primera edición cuya preparación no ha sido dirigida por nuestro intrépido mentor, Steve Hulley, de quien hablaremos más adelante). Lo que comenzó como una colección de folletos para un pequeño seminario se ha convertido en el libro de texto más utilizado en su campo, con más de 150000 ejemplares vendidos. Desde su creación, DIC se ha dirigido a los investigadores clínicos que se encuentran en el inicio de su carrera, quienes pueden haber recibido una clase de epidemiología en algún momento de su formación y recordar algunos de los conceptos pero lo más probable es que no lo hagan. De hecho, muchos de nosotros (SRC, WSB, TBN y DGG) comenzamos nuestras propias carreras académicas hace cuatro décadas en una posición similar: nos interesaba la investigación clínica y habíamos asis tido a clubes de revistas que analizaban (y criticaban) artículos publicados durante nuestra forma ción, pero no teníamos ni idea de cómo diseñar un estudio. En ese momento, la mayoría de los centros de salud universitarios no tenían mucho que ofrecer. Afortunadamente, Steve Hulley reconoció que, aunque la epidemiología era la ciencia básica de la investigación clínica, muchos estudios eran diseñados y dirigidos por investigadores cuya formación y conocimientos epidemiológicos eran escasos. En aquella época, los becarios de subespecialidades interesados en la investigación básica recibían formación en técnicas de laboratorio antes de iniciar un proyecto en una mesa de laboratorio, mientras que los interesados en la investigación clínica casi siempre se quedaban solos o incluso se les aconsejaba que eligieran una carrera más tradicio nal. Steve llenó ese vacío desarrollando e impartiendo un curso sobre cómo diseñar estudios de investigación clínica, luego dirigiendo un programa de becas patrocinado por la Fundación Andrew W. Mellon para formar a una cohorte de «epidemiólogos clínicos» (con nuestros nombres en chapas de latón para nuestra recién estrenada especialidad) y, por último, aconsejando a sus protegidos recién formados cuando nos pusimos en marcha. Todo esto tuvo lugar en la Universidad de Califor nia en San Francisco (UCSF), Estados Unidos, un campus de ciencias de la salud que entonces era, y sigue siendo, más conocido por su profundo compromiso con, y éxito en, la investigación básica. Desde el principio, DIC ha representado la siguiente fase de la visión de Steve, es decir, la difusión más allá de la zona de la bahía de San Francisco. Muchos lectores son ahora estudiantes y profesio nales de las ciencias de la salud de todo el mundo (DIC se ha traducido al árabe, chino, japonés, coreano, español y portugués) que comienzan su carrera en la investigación clínica (o al menos se lo plantean). Han llegado a apreciar cómo los principios epidemiológicos pueden guiar los muchos juicios implicados en el diseño de estudios que guían la práctica clínica basada en la evidencia. Aunque se mantiene fiel a su misión original de ser un manual, no una enciclopedia, la 5. a edi ción de DIC ha modernizado (algunos dirán «¡Por fin!») nuestra manera de comprender los efectos causales. Para reflejar los avances en la forma de pensar de los epidemiólogos, ahora incluimos una introducción a los modelos contrafácticos y a los gráficos acíclicos dirigidos. Nos resistimos a hacer este cambio durante muchos años: el material, situado en el corazón del libro, es un reto intelectual. Esperamos que a los lectores les parezca que el clavado (una comprensión más profunda de cómo los epidemiólogos estiman los efectos causales) valió la caminata por un largo muelle. Hemos añadido nuevos capítulos sobre investigación con participación de la comunidad y sobre estudios cualitativos para reflejar la creciente importancia de estos abordajes en la investigación clí nica. Hemos trasladado los ejercicios al final de los capítulos, con la esperanza de que allí se noten más, mientras que dejamos las respuestas al final del libro. Hemos utilizado letra roja para destacar SAMPLE

xi

xii

Introducción

los conceptos definidos en el glosario, el cual se ha ampliado. Casi todas las figuras se han redise ñado, con el uso sistemático de colores para representar varias características del diseño del estudio (p. ej., añil para las intervenciones, púrpura para los factores predictivos y ocre para los resultados). Más importante aún, hemos contratado a tres autores «sin experiencia», todos ellos más veteranos que el resto de nosotros cuando empezamos a trabajar en la primera edición del libro. En parte, esto refleja el enorme crecimiento de la investigación clínica desde 1988: hay muchos más investigadores clínicos bien formados y estos han ascendido a través de las filas del mundo académico. Esperamos que las siguientes ediciones reciban una actualización similar. La 5. a edición viene acompañada del sitio web de DIC disponible en https://dcr-5.net, el cual con tiene materiales para la enseñanza de DIC, incluidos enlaces a un programa detallado de los talleres de DIC de 4 y 7 semanas que presentamos a los alumnos cada año en la UCSF. Además, hay herra mientas útiles para los investigadores, incluida una excelente calculadora interactiva del tamaño de la muestra disponible en www.sample-size.net. Muchas cosas del libro no han cambiado. Tal y como pretendía Steve Hulley, la 5. a edición de DIC sigue estando dirigida directamente a los investigadores clínicos que se encuentran al inicio de su carrera. Evitamos en lo posible la jerga y los términos técnicos. Nos centramos en las cosas impor tantes, como la búsqueda de una buena hipótesis alternativa y el desarrollo de un diseño de estudio eficiente, eficaz y ético. Por ejemplo, los capítulos sobre la estimación del tamaño de la muestra per miten a los lectores sin formación en estadística hacer estos cálculos por sí mismos, sin necesidad de pelearse con las fórmulas. El material sobre el razonamiento causal usa ejemplos y gráficos sencillos para explicar un tema complejo. Seguimos empleando pronombres femeninos en la primera parte del libro y masculinos en la segunda, y ahora utilizamos pronombres plurales en la última, para empode rar a todas las personas que se dedican a la investigación clínica. Sin embargo, DIC todavía no aborda las importantes áreas de cómo analizar, presentar y publicar los hallazgos de la investigación clínica, temas que nuestros lectores pueden seguir en otros libros (1-4). Por último, presentamos algunos consejos. Una carrera como investigador clínico independiente requiere superar el doble obstáculo de convertirse en el primer autor de un artículo importante y en el investigador principal de una subvención con revisión científica externa. Este libro puede ayudarle a alcanzar estos objetivos, especialmente cuando se combina con otro ingrediente esencial: un men tor de investigación que se preocupe por usted y por su carrera. Le sugerimos encarecidamente que, después de comprar (o tomar prestado) este libro, busque a un colega más experimentado que pueda apoyarle en los entresijos del diseño y la ejecución de un proyecto de investigación clínica. A medida que el acceso a la formación ha mejorado, la competencia se ha hecho más fuerte y el «tiempo para independizarse» más largo. La perseverancia es tan importante como la creatividad. Todos hemos recibido innumerables cartas de rechazo de revistas y agencias de financiamiento. Puede ser desalentador leer que su trabajo y sus ideas tienen mérito, pero no lo suficiente o no lo suficiente mente pronto. Aunque a veces pueda parecer que muchas de las preguntas más interesantes han sido respondidas, eso es una ilusión. Las enfermedades prevenibles siguen siendo frecuentes, mientras que la forma de evitar otras sigue sin conocerse. Cada día se desarrollan tratamientos potenciales y pruebas de diagnóstico innovadoras. Grandes proporciones de personas (y sus preocupaciones rela cionadas con la salud) han sido subrepresentadas sistemáticamente en la investigación. Con tantas oportunidades, la búsqueda de la verdad y la justicia puede ser una vocación de por vida. REFERENCIAS 1. Vittinghoff E, Glidden DV, Shiboski SC, et al. Regression Methods in Biostatistics: Linear, Logistic, Survival, and Repeated Measures Models . 2nd ed. Springer-Verlag; 2012. 2. Katz MH. Multivariable Analysis: A Practical Guide for Clinicians and Public Health Researchers. 3rd ed. Cambridge University Press; 2011. 3. Newman TB, Kohn MA. Evidence-Based Diagnosis: An Introduction to Clinical Epidemiology. 2nd ed. Cambridge University Press; 2020. 4. Browner WS. Publishing and Presenting Clinical Research. 3rd ed. Lippincott Williams & Wilkins; 2012. SAMPLE

Agradecimientos

A gradecemos a la Universidad de California en San Francisco, Estados Unidos, especialmente al Departamento de Epidemiología y Bioestadística, por habernos proporcionado un hogar propicio durante los últimos 40 años; a nuestros colegas de la investigación clínica en la UCSF, en el California Pacific Medical Center Research Institute y en todo el mundo; y al equipo de Wolters Kluwer por ayudarnos a formar esta nueva edición. Damos un agradecimiento especial a Anita Stewart por su apoyo con las mediciones autoinformadas, a Frank Harrell por inspirarnos para incluir los abordajes bayesianos y a John Boscardin y Martina Steurer por su ayuda con algunas de las figuras. También estamos agradecidos con nuestros colegas que trabajan para mejorar el mundo; como agradecimiento, parte de los derechos de autor de este libro se donarán a organizaciones que traba jan para promover la salud a nivel regional o mundial, como Physicians for Social Responsibility (www psr.org), Americares (www.americares.org) y el Institute on Aging (ioaging.org).

SAMPLE

xiii

C A P Í T U L O 13

Diseño de estudios de pruebas médicas Thomas B. Newman, Michael A. Kohn, Warren S. Browner y Mark J. Pletcher

L os estudios de pruebas médicas, como los realizados para detectar un factor de riesgo, diagnosticar una enfermedad o estimar el pronóstico de un paciente, son un aspecto importante de la investigación clí nica. En las pruebas se incluyen puntuaciones de riesgo compuestas por múltiples mediciones primarias. Los diseños de los estudios que se describen en este capítulo pueden usarse cuando se indaga si se debe realizar una prueba determinada y en quién. La mayoría de los diseños de estudios de pruebas médicas se parecen a los diseños observacionales de los capítulos 8 y 9, con algunas diferencias notables. Lo más importante es que el objetivo de la mayoría de los estudios observacionales es identificar asociaciones estadísticamente significativas que representen efectos causales. Por el contrario, demostrar que el resultado de una prueba tiene una asociación estadísti camente significativa con una afección particular no establece si sería útil clínicamente, y para la mayoría de los estudios de pruebas médicas la causalidad es irrelevante. Así, las medidas de asociación, la signi ficación estadística y el control de la confusión son consideraciones secundarias para estos estudios, los cuales se centran en cambio en parámetros descriptivos , como la sensibilidad , la especificidad , las curvas de rendimiento diagnóstico (ROC, receiver operating characteristic ) y los cocientes de verosimilitudes (LR, likelihood ratios ), junto con sus intervalos de confianza (IC) asociados. Por último, los estudios de pruebas médicas se realizan casi siempre en pacientes , término que se utilizará en este capítulo. ■ DETERMINACIÓN DE LA UTILIDAD DE UNA PRUEBA Para que una prueba sea útil, debe superar una serie de interrogantes cada vez más difíciles que incluyen su reproducibilidad , exactitud , viabilidad y, lo que es más importante, sus efectos en las decisiones clínicas y los desenlaces clínicos (tabla 13-1). Las respuestas favorables a todas estas interrogantes son necesarias para tener la seguridad de que vale la pena hacer una prueba. Al fin y al cabo, si una prueba da resultados muy diferentes según quién la realice o dónde se lleve a cabo, es poco probable que sea útil. Si la prueba rara vez aporta información nueva, es poco probable que modifique las decisiones clínicas. Incluso si lo hace, cuando tales decisiones no mejoran el desenlace clínico de los pacientes que se sometieron a la prueba con un riesgo y un costo razonables, la prueba puede seguir siendo inútil. Si el uso de una prueba mejora las variables de valoración de los pacientes examinados, se pueden infe rir respuestas favorables a las otras interrogantes. Sin embargo, los estudios sobre si la realización de una prueba mejora las variables de valoración de los pacientes son los más difíciles de llevar a cabo. En cambio, los efectos potenciales de una nueva prueba en las variables de valoración suelen inferirse comparando la exactitud, la seguridad o los costos con los de las pruebas existentes. A la hora de desarrollar una nueva prueba diagnóstica o pronóstica, es útil tener en cuenta qué decisiones se pretende orientar y qué aspectos de la práctica actual son los que necesitan más una mejora. Por ejemplo, ¿las prueba actuales son poco fiables, inexactas, costosas, peligrosas o difíciles de realizar? Cuestiones generales para los estudios de pruebas médicas Antes de tratar las cuestiones específicas de los diferentes diseños de estudios descritos en la tabla 13-1, es útil analizar varias cuestiones que se aplican en general al estudio de las pruebas médicas. SAMPLE

240

241

Capítulo 13 • Diseño de estudios de pruebas médicas

TABLA 13-1 PREGUNTAS PARA DETERMINAR LA UTILIDAD DE UNA PRUEBA MÉDICA, POSIBLES DISEÑOS PARA RESPONDERLAS Y ESTADÍSTICAS PARA NOTIFICAR LOS RESULTADOS

ESTADÍSTICAS PARA LOS RESULTADOS a

PREGUNTA

POSIBLES DISEÑOS

¿Qué grado de re producibilidad tiene la prueba?

Estudios de variabilidad intra- e interobser vador e intra- e interlaboratorios

Concordancia proporcional, coefi ciente κ , coeficiente de variación, media y distribución de las diferen cias, gráficos de Bland-Altman (evi tar el coeficiente de correlación) Sensibilidad, especificidad, valores predictivos positivo y negativo, curvas de rendimiento diagnóstico (ROC) y cocientes de verosimilitudes Cocientes de riesgos, cocientes de riesgos instantáneos, riesgos absolu tos, curvas ROC, gráficos de calibra ción y cálculos del beneficio neto Costos medios, proporciones que experimentan efectos adversos, pro porciones dispuestas a someterse a la prueba Proporción de resultados anómalos, pruebas complementarias realizadas en quienes tienen resultados positi vos, proporción de pruebas que dan lugar a cambios en las decisiones clí nicas, costo por resultado anómalo o por cambio de decisión Cocientes de riesgos, cocientes de po sibilidades, cocientes de riesgos ins tantáneos, riesgos absolutos, número que es necesario tratar, tasas y co cientes de variables de valoración de seables e indeseables, como el costo o los efectos adversos por variable de valoración perjudicial prevenida

¿Cuál es la exacti tud de la prueba para diagnosticar la enfermedad? ¿Cuál es la exactitud de la prueba o del modelo de predic ción para predecir una variable de valoración?

Diseños transversales, de casos y controles o de muestreo basado en los resultados de las pruebas, en los que el resultado de la prueba se compara con un método de referencia Diseños de cohortes en los que los resulta dos de las pruebas se utilizan para estimar la probabilidad de desarrollar una variable de valoración

¿Qué tan viable y asequible es la prueba?

Estudios prospectivos o retrospectivos que comparen la prueba con el estándar de atención actual

¿Con qué frecuencia los resultados de las pruebas afectan las decisiones clínicas?

Estudios de rendimiento diagnóstico, estu dios de toma de decisiones clínicas antes y después de la prueba

¿La realización de la prueba mejora el desenlace clínico o tiene efectos adversos?

Ensayos aleatorizados, estudios de cohortes o de casos y controles, o análisis de decisión o de rentabilidad en los que la variable de predicción es la recepción de la prueba y las variables de valoración incluyen la morbili dad, la mortalidad o los costos relacionados con la enfermedad o con su tratamiento

Espectro de gravedad de la enfermedad y de los resultados de las pruebas Dado que el objetivo de la mayoría de los estudios de pruebas médicas es hacer inferencias sobre poblacio nes mediante mediciones en muestras, la forma en la que se seleccionan estas tiene un efecto importante en la validez de las inferencias. El sesgo del espectro se produce cuando el sesgo de la enfermedad (o de su ausencia) en la muestra difiere del de los pacientes de la población clínica a la que está destinada la prueba. Al principio del desarrollo de una prueba, puede ser razonable investigar si permite distinguir entre los pacientes con una enfermedad clara y en fase avanzada y los controles sanos; si la respuesta es negativa, el investigador puede volver al laboratorio para trabajar en una modificación o en una prueba diferente. Sin embargo, más adelante, cuando la hipótesis de trabajo aborde la utilidad clínica de la prueba, los espectros de la enfermedad y de su ausencia deben ser representativos de los pacientes en los que se empleará la prueba. Por ejemplo, una prueba desarrollada al comparar pacientes con cáncer de páncreas conocido con controles sanos podría evaluarse posteriormente en una muestra más difícil pero clínicamente realista, como pacientes consecutivos con dolor abdominal o pérdida de peso inexplicables. El sesgo del espectro también puede producirse por un espectro inadecuado de los resultados de las pruebas. Por ejemplo, considere un estudio sobre la concordancia entre observadores entre radiólogos a La mayoría de las estadísticas de esta tabla se presentan con intervalos de confianza. SAMPLE

242

Sección II • Diseños de estudios

que interpretan mamografías. Si se les pide que clasifiquen las imágenes como normales o anómalas, su concordancia será mucho mayor si el investigador selecciona imágenes «positivas» que sean claramente anómalas y «negativas» que estén libres de toda anomalía sospechosa. Importancia del cegamiento Aunque muchas pruebas, como las que se realizan en los analizadores químicos automatizados, son obje tivas, otras, como las exploraciones físicas y las radiografías, implican una interpretación subjetiva. Siem pre que sea posible, los investigadores deben cegar a quienes interpretan las pruebas subjetivas de otra información sobre el paciente a quien se aplican. En un estudio sobre la contribución de la ecografía al diagnóstico de la apendicitis, por ejemplo, quienes la interpretan no deben conocer los resultados de la anamnesis y la exploración física. 1 Del mismo modo, aunque algunos métodos de referencia (con los que se comparan los resultados de las pruebas) son objetivos (como la muerte), otros son subjetivos, como la determinación por parte del patólogo de quién tuvo o no apendicitis. Cuando el método de referencia es subjetivo, quienes lo aplican no deben conocer los resultados de la prueba que se evalúa. El cegamiento de quienes hacen las pruebas evita que los sesgos, las ideas preconcebidas y la información de otras fuentes afecten el resultado; el cegamiento de quienes aplican el método de referencia evita que el resultado de la prueba afecte la decisión sobre quién presentó la variable de valoración y quién no. Fuentes de variabilidad Para algunas hipótesis de trabajo, las diferencias entre los pacientes son la principal fuente de variación de los resultados de una prueba. Por ejemplo, no se espera que la proporción de niños con apendicitis que tienen recuentos elevados de leucocitos varíe mucho según el laboratorio que realice los recuentos. Por otra parte, muchos resultados de las pruebas dependen de la persona que las realiza o del entorno en el que se llevan a cabo. Por ejemplo, la sensibilidad, la especificidad y la fiabilidad entre evaluadores de la ecografía para diagnosticar la apendicitis dependen de la habilidad de la persona que realiza la exploración, de la habilidad y la experiencia de quienes la interpretan y de la calidad del equipo. Cuando la exactitud puede variar de un intérprete a otro o de una institución a otra, es útil estudiar a diferentes intérpretes e instituciones para evaluar la coherencia de los resultados. Imperfecciones en el método de referencia Algunas enfermedades tienen un método de referencia generalmente aceptado para indicar la presencia o ausencia de la enfermedad diana, como el estudio histopatológico del apéndice para la apendicitis. Otras afecciones tienen métodos de referencia que se definen de forma arbitraria, como la arteriopa tía coronaria como una obstrucción de al menos el 50% de una o más arterias coronarias principales observada con una angiografía. Otras, como muchas enfermedades reumáticas, requieren que el paciente presente un número determinado de signos, síntomas o anomalías en las pruebas de laboratorio. Por supuesto, si un signo, síntoma o prueba de laboratorio forma parte del método de referencia, será una buena variable de predicción de quien presenta la enfermedad. Esto se llama sesgo de incorporación por que la prueba que se estudia (a menudo denominada prueba índice ) se incorpora al método de referencia. El sesgo de incorporación puede evitarse utilizando un método de referencia que no incorpore la prueba índice; si esto no es posible, en lugar de investigar lo bien que la prueba índice predice el método de refe rencia, el investigador puede determinar lo bien que los resultados de la prueba predicen el pronóstico o la respuesta al tratamiento. También es importante considerar si el método de referencia es realmente de referencia. Si el método de referencia es imperfecto, puede hacer que una prueba parezca peor de lo que realmente es (si en realidad la prueba índice supera al método de referencia) (1) o mejor de lo que realmente es (si la prueba índice incluye los mismos errores que el método de referencia) (2). 1 Alternativamente, la exactitud de la anamnesis y la exploración física aisladas podría compararse con la exactitud de la anamnesis y la exploración física más la ecografía. SAMPLE

243

Capítulo 13 • Diseño de estudios de pruebas médicas

Peligros del sobreajuste Las pruebas se desarrollan a través de estudios de investigación que son en sí imperfectos. El sobreajuste se produce cuando la inevitable variabilidad aleatoria y la variación producto de los errores de muestreo o medición son sobreinterpretados por los desarrolladores de las pruebas e incorporados al algoritmo de estas. El sobreajuste hace que una prueba tenga un rendimiento más deficiente en la realidad que en los estudios usados para desarrollarla y es una razón importante para validar el rendimiento de una prueba en una población distinta. Por ejemplo, considere un estudio de 5 mujeres con cáncer de ovario y 95 sin él en el que se utilizaron análisis de sangre para medir las concentraciones de 500 metabolitos diferentes presentes en el suero. Muchos de los metabolitos serán un poco más altos en las mujeres con cáncer de ovario por mera casua lidad, y es casi seguro que será posible identificar un patrón muy específico de esos 500 metabolitos que estarían presentes en las 5 mujeres y no en alguna de las del grupo control. No obstante, esa pauta sería probablemente inútil como prueba de detección, ya que es el resultado de una variabilidad aleatoria. Aun que los procedimientos estadísticos son útiles para evaluar el papel del azar, los contrastes de hipótesis disciplinados a menudo no pueden seguir el ritmo del proceso iterativo de desarrollo de las pruebas ni superar los graves problemas de los contrastes de hipótesis múltiples. El sobreajuste suele producirse cuando se emplean modelos de variables múltiples para combinar varios tipos de mediciones primarias en un algoritmo de prueba, como en el ejemplo mencionado antes. El sobre ajuste también puede producirse en pruebas sencillas, como decidir un valor de corte concreto para una prueba (como una concentración de ferritina sérica) que tiene resultados continuos. Cuando se utiliza una prueba de este tipo, puede ser tentador para un investigador mirar todos los resultados en quienes presentan la variable de valoración (digamos, anemia ferropénica) y quienes no (con otros tipos de anemia), y luego seleccionar el mejor valor de corte aparente para definir una prueba positiva. Sin embargo, esto es un tipo de sobreajuste. Los mejores abordajes son basar el valor de corte en el conocimiento clínico o biológico de otros estudios o dividir las pruebas continuas en intervalos y luego calcular los cocientes de verosimilitudes para cada uno ( véase más adelante). Para reducir al mínimo el sobreajuste, los valores de corte para definir los intervalos deben especificarse de antemano o ser números redondos razonables. Los estudios de valida ción de modelos, diseñados para evaluar el rendimiento independientemente del desarrollo del modelo, se analizan más adelante en este capítulo en la sección dedicada a los modelos de predicción clínica. ■ ESTUDIOS DE LA REPRODUCIBILIDAD DE LAS PRUEBAS Las pruebas tienen reproducibilidad si (en ausencia de un cambio real en los fenómenos que se miden) sus resultados no varían en función de cuándo o dónde se hicieron o de quién las haya realizado. La reproducibilidad intraobservador describe la coherencia de los resultados cuando el mismo individuo o laboratorio realiza la prueba en la misma muestra en diferentes momentos. Por ejemplo, si a un radiólogo se le muestra la misma radiografía de tórax en dos ocasiones, ¿qué porcentaje de veces coincidirá con él mismo en la interpretación, suponiendo que no conozca la anterior? La reproducibilidad interobservador describe la coherencia entre dos o más observadores: si se muestra a otro radiólogo la misma imagen, ¿qué probabilidad hay de que coincida con el primero en su interpretación? A menudo, el grado de reproducibilidad (o su ausencia) es la principal hipótesis de trabajo. En otros casos, la reproducibilidad se estudia con el objetivo de mejorar la calidad, ya sea de la atención clínica o de un estudio de investigación. Cuando la reproducibilidad es escasa (porque la variabilidad intra- o interob servador es grande), es poco probable que una medición sea útil, y puede ser necesario mejorarla o aban donarla. Por supuesto, todos los observadores pueden estar de acuerdo entre sí y, no obstante, equivocados. Diseños El diseño básico para evaluar la reproducibilidad de las pruebas consiste en comparar los resultados de más de un observador o que se obtuvieron en más de una ocasión. En el caso de las pruebas que implican varios pasos, cuyas diferencias en cualquiera de ellos podrían afectar la reproducibilidad, el investigador tendrá que decidir la amplitud del abordaje del estudio. Por ejemplo, la medición de la concordancia entre obser vadores de los patólogos en un conjunto de frotis de citología del cuello uterino en un solo laboratorio SAMPLE

244

Sección II • Diseños de estudios

puede sobreestimar su reproducibilidad general debido a que no se capta la variabilidad en la forma de obtener la muestra y de preparar el portaobjetos. El grado de necesidad de un investigador de aislar los pasos que pueden conducir a una discordancia entre observadores depende en parte de los objetivos de su estudio. En la mayoría de los estudios se debe estimar la reproducibilidad de todo el proceso de la prueba, porque esto es lo que determina si vale la pena utilizarla. Dicho esto, un investigador que esté desarrollando o mejorando una prueba puede querer centrarse en los pasos específicos que son problemáticos. En cualquiera de los dos casos, el investigador debe exponer el proceso exacto para obtener el resultado de la prueba en el manual de operaciones ( véase cap. 18) y luego describirlo en la sección de métodos al informar los resultados del estudio. La medida más sencilla de la concordancia entre observadores es el porcentaje de observaciones en las que los observadores coinciden exactamente. Sin embargo, cuando las observaciones no se distribuyen de manera uniforme entre las categorías (p. ej., cuando la proporción que es «anómala» en una prueba dicotómica no se acerca al 50%), el porcentaje de concordancia puede ser difícil de interpretar, porque no tiene en cuenta la concordancia que podría resultar simplemente de que ambos observadores tengan algún conocimiento sobre la prevalencia de la anomalía. Por ejemplo, si el 95% de las pruebas son normales, dos observadores que elijan aleatoriamente cuál 5% de ellas van a calificar como «anómalas» estarán de acuerdo con que los resultados son «normales» casi en el 90% de las veces. El porcentaje de concordancia también es una medida subóptima cuando una prueba tiene más de dos resultados posibles que están intrínsecamente ordenados (p. ej., normal, en el límite de la normalidad, anómalo), porque cuenta la discordancia parcial (p. ej., normal o en el límite de la normalidad) igual que la discordancia completa (normal o anómalo). Una mejor medida de la concordancia entre observadores, denominada coeficiente κ ( véase apén dice 13A), mide el grado de concordancia más allá de lo que cabría esperar de las estimaciones de los observadores sobre la prevalencia de la anomalía 2 y puede dar crédito a la concordancia parcial. El coefi ciente κ oscila entre 21 (discordancia perfecta) y 1 (concordancia perfecta). Un coeficiente κ de 0 indica que no hay más concordancia de la que cabría esperar de las estimaciones de los observadores sobre la prevalencia de cada grado de anomalía. Los valores del coeficiente κ superiores a 0.8 se consideran gene ralmente muy buenos; los de 0.6-0.8 son buenos. Variables continuas Cuando en un estudio se mide la concordancia entre dos aparatos, dispositivos o métodos (p. ej., tempera turas emparejadas en una serie de pacientes obtenidas con dos termómetros diferentes), una forma sencilla de describir los datos es calcular la diferencia entre las dos mediciones (realizadas casi al mismo tiempo en la misma persona) y describir simplemente esas diferencias (p. ej., calculando la diferencia media y su desviación estándar). Estas diferencias también pueden representarse en función de la media de las dos mediciones, lo que se denomina gráfico de Bland-Altman , el cual proporciona información sobre cómo la reproducibilidad (o su falta) puede ser diferente en rangos diferentes de la medición (3). De forma alter nativa, los investigadores pueden informar la frecuencia con la que la diferencia entre las dos mediciones supera un umbral clínicamente relevante. Por ejemplo, si una diferencia clínicamente importante en la temperatura corporal es de 0.3 °C, en un estudio donde se comparen las temperaturas de los termómetros infrarrojos sin contacto y los axilares electrónicos se podría calcular tanto la media como la desviación estándar de la diferencia entre las dos técnicas e informar la frecuencia con la que las dos mediciones difieren en más de 0.3 °C. 3 3 Aunque se utiliza habitualmente, es mejor evitar el coeficiente de correlación en los estudios de fiabilidad de las prue bas de laboratorio, ya que tiene gran influencia de los valores atípicos y no permite a los lectores determinar con qué frecuencia las diferencias entre las dos mediciones son clínicamente importantes. También deben evitarse los IC para la diferencia media, porque su dependencia del tamaño de la muestra los hace potencialmente engañosos. Un IC estrecho para la diferencia media entre las dos mediciones no implica que, en general, coincidan estrechamente, sino que la SAMPLE Análisis Variables cualitativas (categóricas) 2 A menudo, se describe el coeficiente κ como el grado de concordancia más allá de lo esperado por el azar, pero su esti mación se hace a partir de la prevalencia de la anomalía asignada por cada observador, como si fuera fija y conocida por ellos, lo que generalmente no ocurre.

245

Capítulo 13 • Diseño de estudios de pruebas médicas

A menudo, la variabilidad de una medición aumenta a medida que lo hace su valor. Por ejemplo, la pre sión arterial puede variar en ± 4 mm Hg cuando es de aproximadamente 120/80 mm Hg y en ± 6 mm Hg cuando es de 180/120 mm Hg. Esta relación puede verse con claridad en un gráfico de Bland-Altman. En este caso, los resultados se resumen empleando el coeficiente de variación (CV), el cual es la desviación estándar de todos los resultados obtenidos de una sola muestra dividida entre el valor medio ( véase cap. 4). Esta medida de la reproducibilidad se usa a menudo para analizar la variabilidad de las pruebas entre ensayos, entre observadores o entre instrumentos en un gran grupo de técnicos, laboratorios o aparatos diferentes. Con frecuencia, se comparan los CV de dos o más ensayos o instrumentos diferentes; el que tiene el menor CV es el más preciso (aunque puede no ser el más exacto). ■ ESTUDIOS DE LA EXACTITUD DE LAS PRUEBAS Los estudios de esta sección abordan la siguiente pregunta: «¿Con qué frecuencia la prueba da la respuesta correcta?». Esto supone, por supuesto, que se dispone de un método de referencia para revelar cuál es la respuesta correcta. Diseños Los diseños de los estudios de exactitud de las pruebas dependen de si la prueba es diagnóstica (destinada a definir una enfermedad ya presente, es decir, una prevalente) o pronóstica (destinada a predecir una varia ble de valoración que aún no se desarrolla, es decir, una incidente) . 4 Un estudio de prueba diagnóstica tiene un marco temporal transversal y mide lo bien que la prueba permite identificar una enfermedad diana según lo determinado por un método de referencia independiente. Una prueba pronóstica tiene un marco temporal longitudinal y permite medir tanto lo bien que la prueba separa a quienes desarrollan la variable de valoración de quienes no ( discriminación ) como la exactitud con la que predice el riesgo en grupos de pacientes ( calibración ). Muestreo La mayoría de los estudios de la exactitud de las pruebas diagnósticas tienen diseños análogos a los de los estudios de casos y controles o transversales . En el diseño de casos y controles de un estudio de pruebas diagnósticas, se toman muestras de personas con y sin la enfermedad por separado y se comparan los resultados de las pruebas de los dos grupos. Como se ha señalado, el muestreo de casos y controles puede ser adecuado al principio del desarrollo de una prueba diagnóstica, cuando la hipótesis de trabajo es si la prueba justifica más estudios, en espe cial si la enfermedad es inusual. Más adelante, cuando la hipótesis de trabajo se refiera a la utilidad clínica de la prueba, los espectros de enfermedad y ausencia de enfermedad deben parecerse a los de las personas a quienes se aplicará clínicamente, es decir, aquellas en las que aún no se conoce el diagnóstico. Esto es más difícil de conseguir con el muestreo de casos y controles, porque los casos ya habrán sido diagnosticados, y puede ser difícil encontrar controles en los que se consideró el diagnóstico pero luego se descartó. Los estudios de pruebas que utilizan el muestreo de casos y controles también están sujetos a un sesgo en la medición o en el informe del resultado de la prueba, porque quienes realizan o interpretan la prueba pue den conocer ya el diagnóstico (un motivo para el cegamiento). Como se describe en el capítulo 3, el muestreo consecutivo es un buen abordaje para desarrollar una muestra representativa. Una muestra consecutiva de pacientes que se evalúan para un diagnóstico particu lar proporcionará generalmente espectros representativos tanto de participantes enfermos como sanos. Por ejemplo, Tokuda y cols. (5) descubrieron que el grado de escalofríos (p. ej., sensación de frío en compara ción con el temblor de todo el cuerpo bajo una manta gruesa) era una sólida variable de predicción de la bacteriemia en adultos febriles en un servicio de urgencias (SU). Dado que los pacientes se inscribie ron antes de que se supiera si presentaban bacteriemia, deberían ser razonablemente representativos de aquellos similares que acuden a los SU con fiebre. 4 Otra distinción que se suele hacer de los tipos de pruebas es entre las de diagnóstico y las de detección sistemática (cri bado); estas últimas se utilizan en personas que no presentan signos o síntomas conocidos de la enfermedad que se está analizando. Para simplificar este tema, nuestro uso del término pruebas diagnósticas incluirá generalmente las de cribado. SAMPLE diferencia media entre ellas se mide con precisión. Véase Bland y Altman (3) o Newman y Kohn (4) para una descripción adicional de estos puntos.

246

Sección II • Diseños de estudios

Como se comenta más adelante ( véase la sección «Sesgo de verificación diferencial»), la aplicación de un método de referencia invasivo a personas cuya prueba índice es negativa puede no ser ética o viable. No obstante, incluso cuando el método de referencia no es invasivo, puede ser ineficiente aplicarlo a todos los participantes en el estudio si los resultados negativos de las pruebas son habituales. En esa situa ción, de manera análoga al diseño de cohortes dobles presentado en el capítulo 8, quienes tienen resultados positivos y negativos en las pruebas pueden ser muestreados por separado, lo que se denomina muestreo basado en los resultados de las pruebas . Por ejemplo, los investigadores podrían aplicar el método de refe rencia a todos los pacientes que den positivo, pero solo a una muestra aleatoria de los que den negativo. A continuación, se puede utilizar el álgebra simple para estimar la sensibilidad, la especificidad y los cocien tes de verosimilitudes de la prueba. Para comparar dos pruebas (presumiblemente imperfectas) entre sí, a veces se utiliza un esquema de muestreo relativamente eficiente que denominamos prueba en tándem . Las dos pruebas se realizan en una muestra representativa de pacientes y el método de referencia se aplica de forma selectiva a aquellos con resultados positivos en una o ambas. El método de referencia también debe aplicarse a una muestra alea toria de pacientes con resultados negativos concordantes para asegurarse de que realmente no presentan la enfermedad. Este diseño, que permite al investigador determinar qué prueba es más exacta sin el gasto de hacer la prueba del método de referencia en todos aquellos con resultados negativos, se ha usado en los estudios que comparan diferentes métodos de citología del cuello uterino (6). Los estudios de la exactitud de las pruebas pronósticas requieren diseños de cohortes. En un diseño prospectivo, la prueba se realiza en el período inicial y se lleva a cabo un seguimiento de la cohorte para ver quién desarrolla la variable de valoración de interés. Se puede emplear un diseño de cohortes retrospectivo o de casos y controles anidado cuando se disponga de una nueva prueba, como las concentraciones séricas de polipéptidos de la cadena ligera de los neurofilamentos (NfL, neurofilament light chain ) como signo pre coz de la esclerosis múltiple (7), si se dispone de una cohorte previamente definida con muestras de sangre conservada. A continuación, se puede medir la concentración sérica de NfL en la sangre almacenada para ver si permite predecir la aparición de la esclerosis múltiple. El diseño de casos y controles anidado ( véase cap. 9) es especialmente atractivo si la variable de valoración de interés es inusual y la prueba es costosa. Variable de predicción: el resultado de la prueba Aunque lo más sencillo es pensar que los resultados de una prueba diagnóstica son positivos o negativos, muchas pruebas muestran resultados cualitativos, ordinales o continuos. Con el fin de aprovechar toda la información disponible en la prueba, los investigadores deben, por lo general, informar los resultados de las pruebas como ordinales o continuos en lugar de dicotomizarlos como «normales o anómalos» La mayoría de las pruebas son más indicativas de enfermedad si son muy anómalas que si lo son ligeramente y tienen un rango limítrofe en el que no aportan mucha información. Variable de valoración: la enfermedad (o su desenlace) La variable de valoración en un estudio de prueba diagnóstica es la presencia o ausencia de enfermedad, lo que se determina mejor con un método de referencia. Siempre que sea posible, la evaluación de la variable de valoración no debe verse influida por los resultados de la prueba diagnóstica que se estudia. La mejor manera de conseguirlo es cegar a quienes aplican el método de referencia para que no conozcan los resultados de la prueba en estudio. A veces, sobre todo en el caso de las pruebas de cribado, la aplicación uniforme del método de referen cia no es ética ni viable. Por ejemplo, Smith-Bindman y cols. (8) estudiaron la exactitud de la mamografía. Las mujeres con mamografías positivas se derivaron para más pruebas, con la evaluación patológica a la larga de una biopsia como método de referencia para distinguir las mamografías verdaderas positivas de aquellas con resultados falsos positivos . No obstante, no es razonable realizar biopsias de mama en mujeres con mamografías negativas. Por lo tanto, para determinar si estas mujeres tenían mamografías con resultados falsos negativos o verdaderos negativos, los autores vincularon los resultados de las mamogra fías con los sistemas de registro locales de tumores para determinar si se diagnosticó cáncer de mama en el año siguiente a la mamografía. Esta solución suponía que todos los cánceres de mama existentes en el momento de la mamografía se diagnosticarían en el plazo de 1 año y que todos los diagnosticados en ese lapso estaban presentes en el momento de la mamografía. Medir el método de referencia de forma diferente según el resultado de la prueba crea un potencial de sesgo, el cual se analiza con más detalle al final del capítulo; sin embargo, a veces es la única opción viable. SAMPLE

Made with FlippingBook Annual report maker