Conjunto de datos de radiografías de tórax de los NIH

El conjunto de datos de radiografías de tórax de los NIH consta de 100,000 imágenes desidentificadas de radiografías de tórax. Las imágenes están en formato PNG.

Los datos son proporcionados por el Centro clics de NIH y están disponibles a través del sitio de descarga de NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC

También puedes acceder a los datos a través de Google Cloud, como se describe en Acceso a los datos de Google Cloud.

Licencia y atribución

No hay restricciones para el uso de las imágenes de radiografías de tórax de los NIH. Sin embargo, el conjunto de datos tiene los siguientes requisitos de atribución:

  • Proporciona un vínculo al sitio de descarga de NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC

  • Incluir una cita en el documento de CVPR 2017:

    Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017

  • Reconocer que el centro clínico de los NIH es el proveedor de datos

Acceso a los datos de Google Cloud

Puedes obtener las imágenes de radiografías de tórax de los NIH de Cloud Storage, BigQuery o la API de Cloud Healthcare.

Cloud Storage

Los datos de radiografías de tórax de los NIH están disponibles en el siguiente bucket de Cloud Storage:

gs://gcs-public-data--healthcare-nih-chest-xray

Ir al conjunto de datos de radiografías de tórax de los NIH en Cloud Storage

El bucket incluye las rutas a los archivos PNG originales, además de las instancias de DICOM:

PNG (proporcionado por NIH):

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM (proporcionado por Google):

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

El bucket de Cloud Storage usa el modelo de “Pagos del solicitante” para la facturación. Se facturarán los cargos asociados con el acceso a los datos de NIH de tu proyecto de Google Cloud. Para obtener más información, consulta Pagos del solicitante.

BigQuery

Los datos de radiografías de tórax de los NIH están disponibles en el proyecto chc-nih-chest-xray de Google Cloud en BigQuery.

Ir al conjunto de datos de radiografías de tórax de los NIH en BigQuery

Para obtener información sobre cómo acceder a los datos públicos en BigQuery, consulta Conjuntos de datos públicos de BigQuery.

Cloud Healthcare API

Los datos de radiografías de tórax de los NIH están disponibles en la siguiente jerarquía de almacenamiento de DICOM en la API de Cloud Healthcare:

Proyecto: chc-nih-chest-xray
Conjunto de datos: nih-chest-xray
Almacén de DICOM: nih-chest-xray

Para solicitar acceso al conjunto de datos de radiografías de tórax de los NIH, completa este formulario.

Ir al conjunto de datos de radiografías de tórax de los NIH en la API de Cloud Healthcare

Para obtener más información, consulta la Descripción general de DICOM y Usa el estándar DICOMweb.

Lectores de datos

También puedes usar los visores integrados con la API de Cloud Healthcare:

eUnity: https://demo.eunity.app

IMS CloudVue: https://cloudvue.imstsvc.com

Etiquetas adicionales

Para acceder a las etiquetas de expertos de un subconjunto del conjunto de datos ChestX-ray14 de NIH, completa el siguiente formulario. Una vez que completaste el formulario, puedes descargar las etiquetas.

Ir al formulario de Google para obtener las etiquetas

Las etiquetas se recopilaron como parte de dos estudios independientes y se describen en los siguientes documentos:

Existen dos conjuntos de etiquetas, cada uno asociado con uno de los estudios. El primer conjunto de etiquetas se asocia con el estudio publicado en Radiology y se enfoca en cuatro hallazgos de radiografías de tórax: opacidad del espacio aéreo, neumotórax, nódulo/masa y fractura. El segundo conjunto de etiquetas está asociado con el estudio publicado enInformes científicos e incluye los 14 resultados publicados en el conjunto de datos original y una etiqueta normal/anormal.

Cuatro etiquetas de expertos de los hallazgos

En el documento Radiología, el conjunto de etiquetas enfocadas en cuatro resultados (opacidad del espacio, neumotórax, nódulo/masa y fractura) y abarcaba ambas validaciones y conjuntos de prueba. Las etiquetas finales para cada imagen se asignaron mediante una revisión priorizada por tres radiólogos. Cada imagen fue revisada primero de forma independiente por tres radiólogos. Para el conjunto de pruebas, se seleccionaron al azar radiólogos en cada imagen de una cohorte de 11 radiólogos certificados por la Junta Americana de Radiología. Para el conjunto de validación, los tres radiólogos fueron seleccionados de una cohorte de 13 individuos, que incluyen radiólogos certificados por la junta y residentes de radiología.

Si todos los lectores estaban de acuerdo después de la revisión inicial, esa etiqueta se convirtió en definitiva. En las imágenes con confirmaciones de etiquetas, las imágenes se mostraron para una revisión adicional. Las etiquetas anónimas y las notas de las rondas anteriores también estaban disponibles durante cada revisión iterativa. Adjudicación hasta el consenso o hasta un máximo de cinco iteraciones. En la pequeña cantidad de imágenes para las que no se alcanzó el consenso, se usó la etiqueta de votación mayor.

La información disponible en el momento de la revisión de radiólogo incluyó solo la edad de los pacientes y la vista de la imagen (anterior-posterior (AP) en comparación con posterior-anterior (PA)). La información médica adicional no estaba disponible. En el caso del nódulo/masa y neumotórax, las posibles etiquetas eran: “presente”, “ausente” o “seto” (es decir, incierto si está presente o ausente) Para la opacidad y la fractura, los valores posibles de la etiqueta solo eran “presente” o “ausente”.

Las etiquetas están en el directorio four_findings_expert_labels. En individual_readers.csv, cada fila corresponde a la etiqueta de cada una de las cuatro condiciones que proporciona un solo lector para una sola imagen. Cada ID de imagen y el resultado de la adjudicación correspondiente se repiten en varias filas (una fila por lector). El ID de lector se proporciona para la vinculación estable en todas las imágenes. Un valor de celda de YES significa “presente”, NO significa “ausente” y HEDGE significa “incierto”.

En validation_labels.csv y test_labels.csv, los metadatos proporcionados como parte del conjunto de datos de radiografías de tórax de los NIH se aumentaron con cuatro columnas, una para la etiqueta atribuida para cada una de las cuatro condiciones: fractura, neumotórax, opacidad del espacio aéreo y nódulo/masa. Hay 1,962 ID de imágenes únicos en el conjunto de prueba y 2,412 ID de imágenes únicos en el conjunto de validación, lo que da un total de 4,374 imágenes con etiquetas atribuidas. Solo YES y NO aparecen en las columnas de la etiqueta atribuida. Si falta un valor de columna, esta imagen no se incluyó en el conjunto de imágenes atribuidas.

Cuando uses estas etiquetas, incluye la siguiente cita:

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Interpretación de radiografías de tórax con modelos de aprendizaje profundo: evaluación mediante estándares de referencia imparcial de la radiología y evaluación de población, radiología, 2019.

Para obtener más información sobre la licencia y la atribución del conjunto de datos de radiografías de tórax de los NIH, consulta la sección Licencia y atribución anterior.

Todas las etiquetas de expertos de los hallazgos

En el documento de los Informes Científicos, el conjunto de etiquetas enfocados en los 14 resultados publicados en el conjunto de datos original y como una etiqueta normal/anormal. El conjunto de etiquetas solo contenía imágenes del conjunto de prueba. Estas imágenes son idénticas a las imágenes incluidas en la división de prueba Four Findings Expert Labels, restringidas a las radiografías de tórax con vista PA (810 imágenes de las 1,962 imágenes).

Los mismos cinco radiólogos certificados por la Junta Americana de Radiología revisaron cada imagen de forma independiente. A cada radiólogo se le preguntó primero si la imagen contenía algún resultado clínico práctico (etiqueta normal o anormal) y, de ser así, seleccionar cuál de las 14 condiciones presentaba. La información disponible en el momento de la revisión de los radiólogos incluía solo la edad de los pacientes y la vista de la imagen (AP en comparación con PA). La información médica adicional no estaba disponible.

Las etiquetas están en el directorio all_findings_expert_labels. En test_individual_readers.csv, cada fila corresponde a las etiquetas de un solo radiólogo para una sola imagen. Esto significa que cada ID de imagen y cada ID de paciente se repite en varias filas (cinco filas por imagen, una fila por lector). Cada fila también contiene un ID de lector para que puedas distinguir a los radiólogos. Debido a que hay un total de 810 imágenes en este conjunto, test_individual_readers.csv contiene 4,050 filas con 810 ID de imágenes únicos. test_individual_readers.csv también contiene un total de 19 columnas. Además del ID de imagen, el ID de pacientes y el ID de lector, hay una columna para normal/anormal, una columna para cada uno de los 14 resultados y una columna para Other que indica otro hay hallazgos anormales (fuera de los 14 especificados). Un valor de celda de YES significa “presente” y NO significa “ausente”.

test_labels.csv contiene las etiquetas de verdad fundamental que se usan para evaluar el sistema de aprendizaje profundo en el documento de los Informes científicos. Cada fila contiene las etiquetas de verdad fundamental de un solo ID de imagen, y cada ID de imagen solo aparece en una fila, con un total de 810 filas. test_labels.csv tiene las mismas columnas que test_individual_readers.csv, pero sin una columna de “ID de lector”. Para obtener estas etiquetas, tres de los cinco radiólogos que etiquetaron este conjunto se eligieron al azar para que sean los “radiólogos de verdad fundamental” (los otros dos se usaron como puntos de comparación). Estos “radiólogos de verdad fundamental” tienen los ID de lector “4343882785”, “4343883593” y “4343883996”. Se usó un voto de mayoría a fin de determinar la etiqueta final para la etiqueta normal o anormal, y la etiqueta final para cada resultado en particular. La etiqueta final para la columna Other se determinó como YES si la mayoría de los radiólogos seleccionaron que un resultado fuera de los 14 estaba presente, o si la mayoría de los radiólogos indicaron que la imagen era anormal, pero ningún hallazgo tenía la mayoría de los radiólogos.

Cuando uses estas etiquetas, incluye la siguiente cita:

Zaid Nabulsi, Andrew Sellergren, Shahar Jamshy, Charles Lau, Eddie Santos, Atilla P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raju Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick, Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19, Scientific Reports, 2021. https://doi.org/10.1038/s41598-021-93967-2

Para obtener más información sobre la licencia y la atribución del conjunto de datos de radiografías de tórax de los NIH, consulta Licencia y atribución.