Conjunto de datos de radiografías de tórax de los NIH

El conjunto de datos de radiografía de tórax del NIH consta de 100.000 imágenes desidentificadas de radiografías de tórax. Las imágenes están en formato PNG.

El Centro Clínico de los NIH proporciona los datos, que están disponibles en el sitio de descarga de los NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC.

También puedes acceder a los datos a través de Google Cloud, tal como se describe en la sección sobre Google Cloud acceso a los datos.

Licencia y atribución

No hay restricciones en el uso de las imágenes de radiografías de tórax del NIH. Sin embargo, el conjunto de datos tiene los siguientes requisitos de atribución:

  • Proporciona un enlace al sitio de descarga del NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC

  • Incluye una cita del artículo de CVPR 2017:

    Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri y Ronald Summers, "ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases", IEEE CVPR, págs. 3462-3471, 2017

  • Confirmar que el centro clínico de los NIH es el proveedor de datos

Acceso a los datos deGoogle Cloud

Puedes obtener las imágenes de radiografía de tórax del NIH desde Cloud Storage, BigQuery o mediante la API Cloud Healthcare.

Cloud Storage

Los datos de radiografías de tórax del NIH están disponibles en el siguiente segmento de Cloud Storage:

gs://gcs-public-data--healthcare-nih-chest-xray

Ir al conjunto de datos de radiografía de tórax de NIH en Cloud Storage

El contenedor incluye rutas a los archivos PNG originales, así como a las instancias DICOM:

PNG (proporcionado por los NIH):

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM (proporcionado por Google):

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

El segmento de Cloud Storage usa el modelo "El solicitante paga" para la facturación. Se te facturarán los cargos de tu Google Cloud proyecto por acceder a los datos de los NIH. Para obtener más información, consulta Requester Pays.

BigQuery

Los datos de las radiografías de tórax del NIH están disponibles en el proyecto chc-nih-chest-xray Google Cloud de BigQuery.

Ir al conjunto de datos de radiografías de tórax del NIH en BigQuery

Para obtener información sobre cómo acceder a datos públicos en BigQuery, consulta Conjuntos de datos públicos de BigQuery.

API de Cloud Healthcare

Los datos de radiografías de tórax del NIH están disponibles en la siguiente jerarquía de almacén DICOM de la API Cloud Healthcare:

Proyecto: chc-nih-chest-xray
Conjunto de datos: nih-chest-xray
Almacén DICOM: nih-chest-xray

Para solicitar acceso al conjunto de datos de radiografías de tórax del NIH, rellena este formulario.

Ir al conjunto de datos de radiografía de tórax de NIH en la API Cloud Healthcare

Para obtener más información, consulta la descripción general de DICOM y el artículo sobre cómo usar el estándar DICOMweb.

Usuarios que han visto los datos

También puedes usar los visores integrados con la API Cloud Healthcare:

eUnity https://demo.eunity.app

IMS CloudVue: https://cloudvue.imstsvc.com

Etiquetas adicionales

Para acceder a las etiquetas de expertos de un subconjunto del conjunto de datos NIH ChestX-ray14, rellena el siguiente formulario. Una vez que hayas rellenado el formulario, podrás descargar las etiquetas.

Ir al formulario de Google para obtener las etiquetas

Las etiquetas se recogieron como parte de dos estudios independientes y se describen en los siguientes documentos:

Hay dos conjuntos de etiquetas, cada uno asociado a uno de los estudios. El primer conjunto de etiquetas se asocia al estudio publicado en Radiology y se centra en cuatro hallazgos de radiografías de tórax: opacidad del espacio aéreo, neumotórax, nódulo o masa y fractura. El segundo conjunto de etiquetas está asociado al estudio publicado en Scientific Reports e incluye los 14 resultados publicados en el conjunto de datos original, así como una etiqueta normal o anormal.

Cuatro etiquetas de experto de resultados

En el artículo sobre radiología, el conjunto de etiquetas se centró en cuatro hallazgos (opacidad del espacio aéreo, neumotórax, nódulo/masa y fractura) y abarcó tanto el conjunto de validación como el de prueba. Las etiquetas finales de cada imagen se asignaron mediante una revisión adjudicada por tres radiólogos. Tres radiólogos revisaron cada imagen de forma independiente. En el conjunto de pruebas, se seleccionaron radiólogos al azar para cada imagen de una cohorte de 11 radiólogos certificados por el Consejo Estadounidense de Radiología. Para el conjunto de validación, se seleccionaron tres radiólogos de una cohorte de 13 personas, entre las que se incluían radiólogos certificados y residentes de radiología.

Si todos los lectores estaban de acuerdo tras la revisión inicial, esa etiqueta se convertía en definitiva. En el caso de las imágenes con discrepancias en las etiquetas, se han devuelto para que se revisen más a fondo. Las etiquetas anónimas y las notas de las rondas anteriores también estaban disponibles durante cada revisión iterativa. La adjudicación se llevó a cabo hasta que se llegó a un consenso o hasta un máximo de cinco rondas. En el pequeño número de imágenes en las que no se llegó a un consenso, se usó la etiqueta de la mayoría.

La información disponible en el momento de la revisión del radiólogo solo incluía la edad del paciente y la vista de la imagen (anteroposterior [AP] frente a posteroanterior [PA]). No se disponía de información clínica adicional. En el caso de los nódulos o masas y del neumotórax, las etiquetas posibles eran "present" (presente), "absent" (ausente) o "hedge" (duda, es decir, no se sabe si está presente o ausente). En el caso de la opacidad y la fractura, los valores de etiqueta posibles eran solo "present" o "absent".

Las etiquetas están en el directorio four_findings_expert_labels. En individual_readers.csv, cada fila corresponde a la etiqueta de cada una de las cuatro condiciones proporcionadas por un solo lector para una sola imagen. Cada ID de imagen y el resultado de la moderación correspondiente se repiten en varias filas (una fila por lector). El ID de lector se proporciona para que la vinculación sea estable en todas las imágenes. El valor de celda YES significa "presente", NO significa "ausente" y HEDGE significa "incierto".

En validation_labels.csv y test_labels.csv, los metadatos proporcionados como parte del conjunto de datos de radiografías de tórax del NIH se han aumentado con cuatro columnas, una para la etiqueta adjudicada de cada una de las cuatro afecciones: fractura, neumotórax, opacidad del espacio aéreo y nódulo o masa. Hay 1962 IDs de imagen únicos en el conjunto de prueba y 2412 IDs de imagen únicos en el conjunto de validación, lo que da un total de 4374 imágenes con etiquetas adjudicadas. En las columnas de etiquetas de adjudicación solo aparecen YES y NO. Si falta el valor de una columna, significa que la imagen no se ha incluido en el conjunto de imágenes adjudicadas.

Cuando uses estas etiquetas, incluye la siguiente cita:

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Chest Radiograph Interpretation Using Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.

Para obtener más información sobre la licencia y la atribución del conjunto de datos de radiografías de tórax del NIH, consulta la sección Licencia y atribución de arriba.

Todas las etiquetas de experto de los resultados

En el artículo de Scientific Reports, el conjunto de etiquetas se centró en los 14 resultados publicados en el conjunto de datos original y en las etiquetas normal y anormal. El conjunto de etiquetas solo contenía imágenes del conjunto de prueba. Estas imágenes son idénticas a las incluidas en la división de prueba Four Findings Expert Labels, que se limita a radiografías de tórax con vista PA (810 imágenes de las 1962 imágenes).

Los mismos cinco radiólogos certificados por el Consejo Estadounidense de Radiología revisaron cada imagen de forma independiente. Primero se preguntó a cada radiólogo si la imagen contenía algún hallazgo clínico potencialmente útil (etiqueta normal o anormal) y, si era así, qué afecciones de las 14 presentes se debían seleccionar. La información disponible en el momento de la revisión del radiólogo solo incluía la edad del paciente y la vista de la imagen (AP frente a PA). No se disponía de información clínica adicional.

Las etiquetas están en el directorio all_findings_expert_labels. En test_individual_readers.csv, cada fila corresponde a las etiquetas de un radiólogo para una sola imagen. Esto significa que cada ID de imagen y cada ID de paciente se repiten en varias filas (cinco filas por imagen, una fila por lector). Cada fila también contiene un ID de lector para que se puedan distinguir los radiólogos. Como hay un total de 810 imágenes en este conjunto, test_individual_readers.csv contiene 4050 filas con 810 IDs de imagen únicos. test_individual_readers.csv también contiene un total de 19 columnas. Además del ID de la imagen, el ID del paciente y el ID del lector, hay una columna para indicar si es normal o anormal, una columna para cada uno de los 14 resultados y una columna para Other que indica si hay otros resultados anormales (aparte de los 14 especificados). El valor de celda YES significa "presente" y NO significa "ausente".

test_labels.csv contiene las etiquetas de referencia que se han usado para evaluar el sistema de aprendizaje profundo en el artículo de Scientific Reports. Cada fila contiene las etiquetas de verdad fundamental de un solo ID de imagen, y cada ID de imagen solo aparece en una fila, lo que da un total de 810 filas. test_labels.csv tiene las mismas columnas que test_individual_readers.csv, pero sin la columna "ID de lector". Para obtener estas etiquetas, se eligieron al azar tres de los cinco radiólogos que etiquetaron este conjunto para que fueran los "radiólogos de referencia" (los otros dos se utilizaron como puntos de comparación). Estos "radiólogos de referencia" tienen los IDs de lector "4343882785", "4343883593" y "4343883996". Se usó una votación por mayoría para determinar la etiqueta final de normal/anormal y la etiqueta final de cada hallazgo concreto. La etiqueta final de la columna Other se determinó como YES si la mayoría de los radiólogos seleccionaron que había un hallazgo fuera de los 14 o si la mayoría de los radiólogos indicaron que la imagen era anómala, pero ningún hallazgo concreto obtuvo la mayoría de los votos.

Cuando uses estas etiquetas, incluye la siguiente cita:

Zaid Nabulsi, Andrew Sellergren, Shahar Jamshy, Charles Lau, Eddie Santos, Atilla P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raju Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick, Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19, Scientific Reports, 2021. https://doi.org/10.1038/s41598-021-93967-2

Para obtener más información sobre la licencia y la atribución del conjunto de datos de radiografías de tórax del NIH, consulta Licencia y atribución.