No puede interpretar los resultados de una prueba sin conocer la probabilidad de la prueba previa.
Estoy seguro de que todos hemos escuchado la misma conferencia sobre las pruebas de detección. Estoy seguro de que a todos nos han sorprendido los números extraños que resultan de la aplicación de pruebas aparentemente excelentes en poblaciones de bajo riesgo. Estoy seguro de que todos sabemos que no debemos usar pruebas de embarazo en hombres.
Pero esos ejemplos en el aula se olvidan con demasiada facilidad cuando se trabaja en turnos de emergencia ocupados. Pedimos cientos de pruebas cada hora (si considera cada prueba de laboratorio por separado), y simplemente no tenemos tiempo para luchar con la fórmula de Bayes con cada prueba.
La mayoría de las veces nos las arreglamos. Las matemáticas funcionan sin ser reconocidas, o ignoramos los resultados de las pruebas (como los recuentos erróneos de glóbulos blancos) sin reconocer formalmente la explicación bayesiana para que estén equivocados. Pero a veces nos equivocamos. A veces esto lastima a nuestros pacientes.
Por lo tanto, es importante que se le recuerde: no puede interpretar los resultados de la prueba sin conocer la probabilidad de la prueba previa.
Un ejemplo: Pruebas de detección
Los resultados más sorprendentes de este principio provienen de la detección. Usaré un ejemplo teórico extraído del excelente libro de texto» Errores Cognitivos y Errores de Diagnóstico » de Jonathan Howard: (Howard 2019)
Imagine una nueva tomografía computarizada que nunca pase por alto un caso de cáncer de mama (es 100% sensible), pero da como resultado una lectura positiva falsa en el 5% de las mujeres sanas (es 95% específica). Es una prueba fantástica, más precisa que la mayoría de las que usamos. Nos gustaría usarlo para detectar el cáncer de mama a tiempo, como parte de un protocolo de detección. En las mujeres menores de 50 años, la tasa de cáncer de mama es de 1 en 1000. Si Robin, una mujer de 45 años, da positivo en la prueba, ¿cuál es la probabilidad de que tenga cáncer? (Pruébate a ti mismo – haz una suposición ahora).
Parece que Robin tiene una probabilidad bastante alta de padecer cáncer. Después de todo, una prueba muy precisa dice que tiene cáncer. Pero hagamos las cuentas. En una muestra de 1000 mujeres, esperamos que 1 tenga cáncer. La tomografía es perfecta e identifica a la única mujer con cáncer. Sin embargo, la tasa de falsos positivos del 5% significa que de este grupo de mil mujeres, 50 obtendrán resultados falsos positivos. Hay 51 pruebas positivas y solo 1 caso real de cáncer. Por lo tanto, la probabilidad de Robin de tener cáncer, a pesar de la TC positiva, es de 1/51, o aproximadamente 2%.
Un resultado positivo en una prueba muy precisa, y todavía hay solo un 2% de probabilidades de que el paciente tenga la enfermedad?!
Los resultados de las pruebas, especialmente los de pruebas de alta tecnología como CTs y MRIs, se tratan con demasiada frecuencia como perfectos. Simplemente aceptamos los resultados como «el diagnóstico», pero el caso de Robin es un excelente recordatorio de la falibilidad de nuestras pruebas. Incluso si la TC fuera específica al 99%, la probabilidad posterior a la prueba seguiría siendo solo del 10%. Eso es sorprendente. No esperamos que las pruebas precisas sean incorrectas más a menudo de lo que son correctas.
Se podría argumentar que 1 de cada 1.000 es una probabilidad de prueba previa muy baja. En medicina de emergencia, atendemos a pacientes sintomáticos con una incidencia basal más alta de la enfermedad. (Desafortunadamente, si considera nuestro uso de pruebas de resistencia, creo que encontrará que esta suposición es incorrecta. Por esa razón, creo que el ejemplo de seguimiento es aún más interesante. Supongamos que aplicamos la misma tomografía computarizada a una mujer de 70 años, que tiene un 10% de probabilidad de enfermedad antes de la prueba. En un grupo de 1000 pacientes, ahora 100 pacientes tendrán cáncer de mama, y la tomografía computarizada los identificará a todos. De las 900 mujeres sanas, 45 tendrán STc positivo. Así que los resultados son mucho mejores. Si tiene una tomografía computarizada positiva, tiene un 69% (100/145) de probabilidades de tener cáncer. Sin embargo, incluso en un escenario con una probabilidad moderada de prueba previa y una prueba muy precisa (mucho mejor que la mayoría que usamos en medicina de emergencia), todavía hay un 30% de probabilidades de que esto sea un falso positivo.
¿Cómo se aplica esto a los medicamentos de emergencia?
Las pruebas deben interpretarse (o, mejor aún, ordenarse) después de considerar la probabilidad de la prueba previa.
Escucho con frecuencia historias de «grandes capturas». De los médicos que ordenaron un CTPA, a pesar de que el paciente tenía bajo riesgo de EP y PERC negativos. Baja y he aquí, la tomografía es positiva. El doctor se jacta ampliamente de esta gran salvada. A los residentes se les enseña sobre la falibilidad de la regla PERC, y finalmente se ordenan más CTs.
Probablemente puedas ver hacia dónde va esto. Hagamos las cuentas. Después de que un paciente apropiado es descartado por la puntuación PERC, tiene aproximadamente un 1,4% de probabilidad de TEP. (Kline 2004) Una angiografía pulmonar por TC es una prueba bastante buena, aunque he discutido previamente datos que demuestran que los radiólogos a menudo no están de acuerdo con la lectura final. (Miller 2015) Los mejores datos que tenemos probablemente provienen del estudio PIOPED II, que encontró que una APCT tiene una sensibilidad del 83% y una especificidad del 96% en comparación con la angiografía pulmonar tradicional. (Stein 2006) La tecnología de TC ha cambiado desde el estudio PIOPED, por lo que es casi seguro que la sensibilidad es mejor (pero me costó mucho encontrar una estimación moderna). Por el bien de nuestros cálculos, asumiré una sensibilidad del 95%.
Por lo tanto, por cada 1000 pacientes con PERC negativo de bajo riesgo observados en el DE, habrá 14 SLp. La tomografía detectará a 13 de estos 14 pacientes. Para los 986 pacientes restantes, la TC será falsamente positiva en 39. Por lo tanto, la TC será positiva en un total de 52 pacientes, pero solo 13 de estos pacientes (25%) realmente tienen una EP.
Entonces, cuando un colega se jacta de encontrar una EP en un paciente de bajo riesgo y PERC negativo, hay un 75% de probabilidades de que se equivoque. Hay un 75% de probabilidades de que el paciente haya recibido anticoagulación innecesaria. Una probabilidad del 75% de que, a pesar de que la tomografía computarizada fue un falso positivo, la paciente vaya corriendo al departamento de emergencias por cualquier dolor en el pecho, dificultad para respirar o dificultad para respirar por el resto de su vida, haciéndose muchas más pruebas (y potencialmente más falsos positivos). En otras palabras, hay un 75% de probabilidades de que estemos lastimando a este paciente.
No se pueden interpretar los resultados de una prueba sin conocer la probabilidad de la prueba previa.
Esto es cierto para todas nuestras pruebas. Ya sea que solicite una tomografía computarizada, un recuento sanguíneo, una radiografía o un ECG. No se pueden interpretar los resultados de una prueba sin conocer la probabilidad de la prueba previa. Tratar de hacerlo perjudicará a sus pacientes.
Howard, J. (2018). Errores Cognitivos y Errores de Diagnóstico. : Springer International Publishing.
Kline JA, Mitchell AM, Kabrhel C, Richman PB, Courtney DM. Criterios clínicos para prevenir pruebas diagnósticas innecesarias en pacientes de urgencias con sospecha de embolia pulmonar. Journal of thrombosis and haemostasis: JTH. 2004; 2(8):1247-55.
Miller WT, Marinari LA, Barbosa E, et al. Los Defectos Pequeños de la Arteria Pulmonar No Son Indicadores Fiables de Embolia Pulmonar. Ann Am Thorac Soc. 2015. PMID: 25961445
Stein PD, Fowler SE, Goodman LR, et al. Tomografía computarizada multidetector para embolia pulmonar aguda. The New England journal of medicine (en inglés). 2006; 354(22):2317-27.
Foto de Crissy Jarvis en Unsplash