NIH 胸部 X 光資料集包含 10 萬張去識別化的胸部 X 光圖片。圖片為 PNG 格式。
這項資料由國家衛生研究院臨床中心提供,可透過 NIH 下載網站取得:https://nihcc.app.box.com/v/ChestXray-NIHCC
您也可以透過 Google Cloud存取資料,如Google Cloud 資料存取權所述。
授權和歸因
使用 NIH 胸部 X 光片時沒有任何限制。不過,資料集有下列歸因規定:
提供 NIH 下載網站的連結:https://nihcc.app.box.com/v/ChestXray-NIHCC
請附上 CVPR 2017 論文的引用資料:
Xiaosong Wang、Yifan Peng、Le Lu、Zhiyong Lu、Mohammadhadi Bagheri、Ronald Summers,ChestX-ray8:醫院規模的胸部 X 光檢查資料庫,以及常見胸部疾病的弱監督分類和定位基準,IEEE CVPR,第 3462-3471 頁,2017 年
承認 NIH 臨床中心是資料提供者
Google Cloud 資料存取權
您可以從 Cloud Storage、BigQuery 或 Cloud Healthcare API 取得 NIH 胸部 X 光圖片。
Cloud Storage
您可以在下列 Cloud Storage 值區中找到 NIH 胸部 X 光資料:
gs://gcs-public-data--healthcare-nih-chest-xray
前往 Cloud Storage 中的 NIH 胸部 X 光資料集
值區包含原始 PNG 檔案和 DICOM 例項的路徑:
PNG (由 NIH 提供):
gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png
DICOM (由 Google 提供):
gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm
Cloud Storage 值區會使用「要求者付費」模式進行帳單處理。我們會向您的 Google Cloud 專案收取與存取 NIH 資料相關的費用。詳情請參閱「申請者付費」。
BigQuery
您可以在 BigQuery 的 chc-nih-chest-xray
Google Cloud 專案中取得 NIH 胸部 X 光資料。
如要瞭解如何在 BigQuery 中存取公開資料,請參閱「BigQuery 公開資料集」。
Cloud Healthcare API
在 Cloud Healthcare API 中,NIH 胸部 X 光資料位於下列 DICOM 儲存庫階層:
專案: chc-nih-chest-xray
資料集: nih-chest-xray
DICOM 儲存庫: nih-chest-xray
如要申請 NIH 胸部 X 光資料集的存取權,請填寫這份表單。
前往 Cloud Healthcare API 中的 NIH 胸部 X 光資料集
詳情請參閱 DICOM 總覽和「使用 DICOMweb 標準」。
資料檢視者
您也可以使用與 Cloud Healthcare API 整合的檢視器:
eUnity:https://demo.eunity.app
IMS CloudVue:https://cloudvue.imstsvc.com
其他標籤
如要取得 NIH ChestX-ray14 資料集子集的專家標籤,請填寫下列表單。填妥表單後,即可下載標籤。
這些標籤是在兩項獨立研究中收集,並在以下論文中加以說明:
兩組標籤各自與一項研究相關聯。第一組標籤與在放射線醫學期刊發表的研究相關,主要著重於四種胸部 X 光檢查結果:肺泡混濁、氣胸、結節/腫塊和骨折。第二組標籤與在 Scientific Reports 上發表的研究相關,其中包含原始資料集中發布的所有 14 項發現,以及正常/異常標籤。
四種研究專家標籤
在放射線學論文中,標籤組合著重於四項發現 (氣腔混濁、氣胸、結節/腫塊和骨折),並涵蓋驗證集和測試集。每張圖片的最終標籤是由三位放射科醫師進行判讀後指派。每張圖像都會先由三位放射科醫師獨立審查。針對測試集,我們從 11 位美國放射科委員會認證放射科醫師中,隨機選出放射科醫師為每張圖片進行判讀。在驗證集方面,我們從 13 位參與者中選出 3 位放射科醫師,其中包括經過認證的放射科醫師和放射科住院醫師。
如果所有讀者在初步審查後都同意,該標籤就會成為最終標籤。對於標籤不一致的圖片,我們會將圖片退回,以便進一步審查。在每次迭代審查期間,我們也提供匿名標籤和先前審查階段的任何備註。審理程序會持續進行,直到達成共識為止,最多可進行五輪。對於未達成共識的少數圖片,我們使用了多數票標籤。
放射科醫師審查時,只有病患年齡和圖像檢視角度 (前後 (AP) 與後前 (PA)) 資訊。我們無法取得其他臨床資訊。對於結節/腫塊和氣胸,可能的標籤為:「存在」、「不存在」或「不確定」(表示不確定是否存在)。對於不透明度和破裂,可能的標籤值只有「存在」或「不存在」。
標籤位於 four_findings_expert_labels
目錄中。在 individual_readers.csv
中,每列都對應單一讀者為單一圖片提供的四種條件標籤。每個圖片 ID 和對應的判定結果會重複出現在多個資料列中 (每個讀者一列)。讀取器 ID 可用於在圖片之間建立穩定的連結。儲存格值 YES
表示「存在」,NO
表示「不存在」,HEDGE
則表示「不明」。
在 validation_labels.csv
和 test_labels.csv
中,NIH 胸部 X 光資料集的一部分所提供的中繼資料已擴充為四個資料欄,每個資料欄對應四種狀況的判定標籤:骨折、氣胸、肺泡混濁和結節/腫塊。測試集合中含有 1,962 個不重複的圖片 ID,驗證集合中則含有 2,412 個不重複的圖片 ID,總計有 4,374 張圖片含有判定標籤。審理標籤欄中只會顯示 YES
和 NO
。如果缺少資料欄值,表示圖片並未納入判定圖片組。
使用這些標籤時,請附上以下出處:
Anna Majkowska、Sid Mittal、David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan、Krish Eswaran、PoHsuan Cameron Chen、Yun Liu、Sreenivasa Raju Kalidindi、Alexander Ding、Greg S. Corrado, Daniel Tse, Shravya Shetty, Chest Radiograph Interpretation Using Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.
如要進一步瞭解 NIH 胸部 X 光資料集的授權和歸屬,請參閱上述「授權和歸屬」一節。
所有專家檢測結果標籤
在Scientific Reports 論文中,標籤組合著重於原始資料集中發布的所有 14 項發現,並以正常/異常標籤呈現。標籤組合只包含測試集的圖片。這些圖片與 Four Findings Expert Labels
測試分割作業中包含的圖片相同,僅限於胸部 X 光片 (1,962 張圖片中的 810 張)。
同樣由五位美國放射科醫學會認證的放射科醫師獨立審查每張圖片。每位放射科醫師首先會被問及圖像是否含有任何可能可採取行動的臨床診斷結果 (正常/異常標籤),如果有,請選取 14 種病症。放射科醫師審查時,可用的資訊僅包含病患年齡和圖像檢視角度 (AP 與 PA)。無法提供其他臨床資訊。
標籤位於 all_findings_expert_labels
目錄中。在 test_individual_readers.csv
中,每個資料列都對應單一放射科醫師對單一圖像的標記。也就是說,每個圖片 ID 和病患 ID 會重複出現在多個資料列中 (每張圖片五列,每個讀取器一列)。每個資料列也包含讀取器 ID,方便區分放射線科醫師。由於這個集合中總共有 810 張圖片,因此 test_individual_readers.csv
包含 4,050 列,其中包含 810 個不重複的圖片 ID。test_individual_readers.csv
也包含總共 19 個欄。除了圖像 ID、病患 ID 和讀者 ID 之外,還有一個正常/異常資料欄、每個 14 項檢查結果的資料欄,以及 Other
資料欄,用於指出其他異常檢查結果 (不在指定的 14 項檢查結果之外)。儲存格值為 YES
表示「存在」,NO
則表示「不存在」。
test_labels.csv
包含用於評估深度學習系統的真值標籤,詳見 Scientific Reports 論文。每列都包含單一圖片 ID 的基準真相標籤,且每個圖片 ID 只會出現在單一列中,總共 810 列。test_labels.csv
與 test_individual_readers.csv
有相同的欄,但沒有「reader ID」欄。為了取得這些標籤,我們隨機選出三位標註這組資料的放射科醫師,讓他們擔任「基準放射科醫師」(其他兩位則用於比較)。這些「真值放射科醫師」的讀取器 ID 分別為「4343882785」、「4343883593」和「4343883996」。我們採用多數決的方式,決定正常/異常標籤的最終標籤,以及每個特定發現的最終標籤。如果大多數放射科醫師選取的檢查結果不在 14 個檢查結果中,或是大多數放射科醫師都指出圖像異常,但沒有任何單一檢查結果獲得大多數放射科醫師的認同,則 Other
欄位的最終標籤會判定為 YES
。
使用這些標籤時,請附上以下出處:
Zaid Nabulsi、Andrew Sellergren、Shahar Jamshy、Charles Lau、Eddie Santos、Atilla P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raju Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick, Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19, Scientific Reports, 2021. https://doi.org/10.1038/s41598-021-93967-2
如要進一步瞭解 NIH 胸部 X 光資料集的授權和作者資訊,請參閱「授權和作者資訊」。