Umělá inteligence (AI) se stále častěji uplatňuje v radiologii, kde nabízí potenciál zlepšit přesnost a efektivitu diagnostiky, zejména při hodnocení běžných zobrazovacích metod, jako jsou rtg snímky hrudníku. Tato studie analyzuje přesnost komerčního softwaru využívajícího strojové učení, respektive metody umělé inteligence, při detekci abnormalit na rtg snímcích hrudníku ve srovnání s nezávislými hodnoceními 3 juniorních radiologů. Výzkum byl proveden ve spolupráci s Nemocnicí Tábor, která poskytla dataset 207 anonymizovaných rtg snímků, z nichž 196 bylo vyhodnoceno jako relevantní. Senzitivita a specificita AI byla porovnána s lidským hodnocením v 5 kategoriích abnormalit: atelektáza (ATE), konsolidace (CON), zvětšení srdečního stínu (CMG), pleurální výpotek (EFF) a plicní léze (LES). Software Carebot AI CXR dosáhl vysoké senzitivity ve všech hodnocených kategoriích (např. ATE: 0,909; CMG: 0,889; EFF: 0,951), přičemž jeho přesnost byla konzistentní napříč všemi nálezy. Naopak specificita AI byla v některých kategoriích nižší (např. EFF: 0,792; CON 0,895), zatímco u radiologů dosahovala ve většině případů hodnot blížících se 1,000 (např. RAD 1 a RAD 2 EFF: 1,000). AI vykazovala konzistentně vyšší senzitivitu než méně zkušení radiologové (např. RAD 1 ATE: 0,087; CMG: 0,327) a v některých případech i než zkušenější hodnotitelé, avšak za cenu mírného snížení specificity. Studie zahrnuje také kazuistiky, včetně falešně pozitivních a falešně negativních nálezů, které přispívají k hlubšímu pochopení přesnosti AI v klinické praxi. Výsledky naznačují, že AI může efektivně doplňovat práci radiologů, zejména u méně zkušených lékařů, a zlepšit senzitivitu diagnostiky na rtg snímcích hrudníku.
Artificial intelligence (AI) has been increasingly applied in radiology, where it offers the potential to improve the accuracy and efficiency of diagnosis, particularly in the evaluation of conventional imaging modalities such as chest X-rays. This study analyzes the performance of commercial software using machine learning and, respectively, artificial intelligence approaches (Carebot AI CXR; Carebot s.r.o.) in detecting abnormalities in chest radiographs compared with independent evaluations by 3 radiologists of different levels of experience. The study was conducted in collaboration with Hospital Tabor, which provided a dataset of 207 anonymised radiographs, out of which 196 were assessed as relevant. The sensitivity and specificity of AI were compared with human assessment in 5 categories of abnormalities: atelectasis (ATE), consolidation (CON), cardiac shadow enlargement (CMG), pleural effusion (EFF) and pulmonary lesions (LES). Carebot AI CXR software achieved high sensitivity in all evaluated categories (e.g., ATE: 0.909, CMG: 0.889, EFF: 0.951), and its performance was consistent across all findings. In contrast, AI specificity was lower in some categories (e.g., EFF: 0.792, CON: 0.895), while radiologists achieved performance values approaching 1.000 in most cases (e.g., RAD 1 and RAD 2 EFF: 1.000). AI demonstrated consistently higher sensitivity than less experienced radiologists (e.g., RAD 1 ATE: 0.087, CMG: 0.327) and in some cases than more experienced assessors, but at a modest decrease in specificity. The study also includes case reports, including false-positive and false-negative findings, which contribute to a deeper understanding of AI performance in clinical practice. The results suggest that AI can effectively complement the work of radiologists, especially for less experienced doctors, and improve the sensitivity of diagnosis on chest radiographs.
The evaluation of mammographic breast density, a critical indicator of breast cancer risk, is traditionally performed by radiologists via visual inspection of mammography images, utilizing the Breast Imaging-Reporting and Data System (BI-RADS) breast density categories. However, this method is subject to substantial interobserver variability, leading to inconsistencies and potential inaccuracies in density assessment and subsequent risk estimations. To address this, we present a deep learning-based automatic detection algorithm (DLAD) designed for the automated evaluation of breast density. Our multicentric, multi-reader study leverages a diverse dataset of 122 full-field digital mammography studies (488 images in CC and MLO projections) sourced from three institutions. We invited two experienced radiologists to conduct a retrospective analysis, establishing a ground truth for 72 mammography studies (BI-RADS class A: 18, BI-RADS class B: 43, BI-RADS class C: 7, BI-RADS class D: 4). The efficacy of the DLAD was then compared to the performance of five independent radiologists with varying levels of experience. The DLAD showed robust performance, achieving an accuracy of 0.819 (95% CI: 0.736-0.903), along with an F1 score of 0.798 (0.594-0.905), precision of 0.806 (0.596-0.896), recall of 0.830 (0.650-0.946), and a Cohen's Kappa (κ) of 0.708 (0.562-0.841). The algorithm achieved robust performance that matches and in four cases exceeds that of individual radiologists. The statistical analysis did not reveal a significant difference in accuracy between DLAD and the radiologists, underscoring the model's competitive diagnostic alignment with professional radiologist assessments. These results demonstrate that the deep learning-based automatic detection algorithm can enhance the accuracy and consistency of breast density assessments, offering a reliable tool for improving breast cancer screening outcomes.
- Publikační typ
- časopisecké články MeSH
Zaměřujeme se na možné využití AI v rámci diagnostiky ložiskových změn plicního parenchymu, které mohou být projevem zhoubného nádoru plic, na základě skiagramu hrudníku. Ačkoliv ve srovnání s jinými metodami, především výpočetní tomografií (CT) hrudníku, tato modalita vykazuje nižší senzitivitu, vzhledem k rutinnímu provádění velmi často představuje první vyšetření, při němž jsou plicní léze zachyceny. Prezentujeme vlastní řešení založené na metodách hlubokého učení, které má za cíl zvýšit záchyt plicních lézí především v časných fázích onemocnění. Následně uvádíme výsledky našich předchozích původních prací, které validují navržený model ve dvou odlišných klinických prostředích – v prostředí spádové nemocnice s nízkou prevalencí nálezů a v prostředí specializovaného onkologického centra. Na základě kvantitativního srovnání se závěry radiologů různých úrovní zkušeností jsme zjistili, že náš model dosahuje vysoké senzitivity, na druhou stranu byla jeho specificita nižší než u oslovených radiologů. V kontextu klinických požadavků a diagnostiky asistované AI hraje zásadní roli zkušenost a klinické uvažování lékaře, proto se v současnosti přikláníme k modelům s vyšší senzitivitou na úkor nižší specificity. V případě suspekce, byť vyhodnocené jako nepravděpodobné, model nález raději předkládá lékaři. Na základě těchto výsledků lze očekávat, že v budoucnu bude AI hrát klíčovou roli v oblasti radiologie jako pomocný nástroj pro hodnotící specialisty. Aby k tomu mohlo dojít, je potřeba vyřešit nejen technické, ale i některé medicínské a regulatorní aspekty. Zásadní je dostupnost kvalitních a spolehlivých informací nejen o přínosech, ale také o limitacích možností strojového učení a AI v medicíně.
In recent years healthcare is undergoing significant changes due to technological innovations, with Artificial Intelligence (AI) being a key trend. Particularly in radiodiagnostics, according to studies, AI has the potential to enhance accuracy and efficiency. We focus on AI’s role in diagnosing pulmonary lesions, which could indicate lung cancer, based on chest X-rays. Despite lower sensitivity in comparison to other methods like chest CT, due to its routine use, X-rays often provide the first detection of lung lesions. We present our deep learning-based solution aimed at improving lung lesion detection, especially during early-stage of illness. We then share results from our previous studies validating this model in two different clinical settings: a general hospital with low prevalence findings and a specialized oncology center. Based on a quantitative comparison with the conclusions of radiologists of different levels of experience, our model achieves high sensitivity, but lower specificity than comparing radiologists. In the context of clinical requirements and AI-assisted diagnostics, the experience and clinical reasoning of the doctor play a crucial role, therefore we currently lean more towards models with higher sensitivity over specificity. Even unlikely suspicions are presented to the doctor. Based on these results, it can be expected that in the future artificial intelligence will play a key role in the field of radiology as a supporting tool for evaluating specialists. To achieve this, it is necessary to solve not only technical but also medical and regulatory aspects. It is crucial to have access to quality and reliable information not only about the benefits but also about the limitations of machine learning and AI in medicine.
- Klíčová slova
- skiagram hrudníku,
- MeSH
- časná detekce nádoru metody MeSH
- hrudník * diagnostické zobrazování MeSH
- interpretace obrazu počítačem MeSH
- lidé MeSH
- nádory plic diagnostické zobrazování MeSH
- radiografie MeSH
- retrospektivní studie MeSH
- umělá inteligence * MeSH
- Check Tag
- lidé MeSH
- Geografické názvy
- Česká republika MeSH