Machine learning model
Dotaz
Zobrazit nápovědu
S postupující digitalizací patologie se do popředí zájmu dostávají i aplikace metod strojového učení a umělé inteligence. Výzkum a vývoj v této oblasti je velmi rychlý, ale aplikace učících systémů v klinické praxi stále zaostávají. Cílem tohoto textu je přiblížit proces tvorby a nasazení učících systémů v digitální patologii. Začneme popisem základních vlastností dat produkovaných v rámci digitální patologie. Konkrétně pojednáme o skenerech a skenování vzorků, o ukládání a přenosu dat, o kontrole jejich kvality a přípravě pro zpracování pomocí učících systémů, zejména o anotacích. Naším cílem je prezentovat aktuální přístupy k řešení technických problémů a zároveň upozornit na úskalí, na která lze narazit při zpracování dat z digitální patologie. V první části také naznačíme, jak vypadají aktuální softwarová řešení pro prohlížení naskenovaných vzorků a implementace diagnostických postupů zahrnujících učící systémy. Ve druhé části textu popíšeme obvyklé úlohy digitální patologie a naznačíme obvyklé přístupy k jejich řešení. V této části zejména vysvětlíme, jak je nutné modifikovat standardní metody strojového učení pro zpracování velkých skenů a pojednáme o konkrétních aplikacích v diagnostice. Na závěr textu poskytneme rychlý náhled dalšího možného vývoje učících systémů v digitální patologii. Zejména ilustrujeme podstatu přechodu na velké základní modely a naznačíme problematiku virtuálního barvení vzorků. Doufáme, že tento text přispěje k lepší orientaci v rapidně se vyvíjející oblasti strojového učení v digitální patologii a tím přispěje k rychlejší adopci učících metod v této oblasti.
With the advancing digitalization of pathology, the application of machine learning and artificial intelligence methods is becoming increasingly important. Research and development in this field are progressing rapidly, but the clinical implementation of learning systems still lags behind. The aim of this text is to provide an overview of the process of developing and deploying learning systems in digital pathology. We begin by describing the fundamental characteristics of data produced in digital pathology. Specifically, we discuss scanners and sample scanning, data storage and transmission, quality control, and preparation for processing by learning systems, with a particular focus on annotations. Our goal is to present current approaches to addressing technical challenges while also highlighting potential pitfalls in processing digital pathology data. In the first part of the text, we also outline existing software solutions for viewing scanned samples and implementing diagnostic procedures that incorporate learning systems. In the second part of the text, we describe common tasks in digital pathology and outline typical approaches to solving them. Here, we explain the necessary modifications to standard machine learning methods for processing large scans and discuss specific diagnostic applications. Finally, we provide a brief overview of the potential future development of learning systems in digital pathology. We illustrate the transition to large foundational models and introduce the topic of virtual staining of samples. We hope that this text will contribute to a better understanding of the rapidly evolving field of machine learning in digital pathology and, in turn, facilitate the faster adoption of learning-based methods in this domain.
Techniky strojového učení jsou metody, které umožní vytvořit z trénovací množiny případů model pro kategorie dat tak, že mohou být nové (neznámé) případy zařazeny do jedné nebo více kategorií schématem odpovídajícím modelu. Pro tento typ analýzy jsou velmi vhodná data ze studií sledujících určitou skupinu osob s opakovaným sběrem dat stejného typu. K vyhledávání znalostí z medicínských dat bylo užito různých algoritmů strojového učení. Bylo testováno několik algoritmů tak, aby bylo možno pokrýt většinu způsobů učení s učitelem. Byly provedeny dva typy pokusů. Jeden hledal vztahy mezi atributy, druhý testoval predikci budoucích příhod. Pro pokusy v tomto sdělení byla užita data z dvacet let trvající longitudinální primárně preventivní studie rizikových faktorů (RF) aterosklerózy u mužů středního věku. Studie se nazývá STULONG (LONGitudinal STUdy). Výsledky ukazují, že některé metody předpovídají některé poruchy lépe než jiné a že je tedy vhodné použít všechny algoritmy najednou a posuzovat spolehlivost výsledku na základě známého trendu každé metody. Algoritmy strojového učení byly také použity k předpovědi příčiny úmrtí. V tomto případě byly výsledky nevalné, pravděpodobně pro malé množství informace ve vstupních položkách v datového souboru.
Machine learning techniques are methods that given a training set of examples infer a model for the categories of the data, so that new (unknown) examples could be assigned to one or more categories by pattern matching within the model. The data from follow-up studies with repeated collection of the same type of data are very suitable for this analysis. Machine learning algorithms belonging to a variety of paradigms have been applied to knowledge discovery on medical data. All the used algorithms belong to the supervised learning paradigm. Several algorithms have been tested, trying to cover most of the kinds of supervised learning. Two kinds of experiments have been carried out. The first is intended to discover associations between attributes. The second kind is intended to test prediction of future disorders. For the experiments in this paper the data used was from the twenty years lasting primary preventive longitudinal study of the risk factors (RF) of atherosclerosis in middle aged men. Study is named STULONG (LONGitudinal STUdy). The results show that some methods predict some disorders better than others, so it is interesting to use all the algorithms at a time and consider the result confidence based upon the known tendency of each method. The machine learning algorithms have been also used in the prediction of death cause, obtaining poor results in this case, maybe due to the small amount of information (entries) of this type in the dataset.
- Klíčová slova
- dobývání znalostí, strojové učení s učitelem, vytěžování z biomedicínských dat, rizikové faktory aterosklerózy,
- MeSH
- algoritmy MeSH
- ateroskleróza diagnóza MeSH
- databáze faktografické MeSH
- financování organizované MeSH
- lidé středního věku MeSH
- lidé MeSH
- metody pro podporu rozhodování MeSH
- prognóza MeSH
- rizikové faktory MeSH
- systémy pro podporu klinického rozhodování MeSH
- ukládání a vyhledávání informací MeSH
- znalostní báze MeSH
- Check Tag
- lidé středního věku MeSH
- lidé MeSH
- mužské pohlaví MeSH
Digitalizace postupně proniká do velké části medicínských oblastí včetně patologie. Společně s digitálním zpracováním dat přichází aplikace metod umělé inteligence za účelem zjednodušení rutinních procesů, zvýšení bezpečnosti apod. Ačkoliv se obecné povědomí o metodách umělé inteligence zvyšuje, stále není pravidlem, že by odborníci z netechnických oborů měli detailní představu o tom, jak takové systémy fungují a jak se učí. Cílem tohoto textu je přístupnou formou vysvětlit základy strojového učení s využitím příkladů a ilustrací z oblasti digitální patologie. Nejedná se samozřejmě o ucelený přehled ani o představení nejmodernějších metod. Držíme se spíše úplných základů a představujeme fundamentální myšlenky, které stojí za většinou učících systémů, s použitím nejjednodušších modelů. V textu se věnujeme zejména rozhodovacím stromům, jejichž funkce je snadno vysvětlitelná, a elementárním neuronovým sítím, které jsou hlavním modelem používaným v dnešní umělé inteligenci. Pokusíme se také popsat postup spolupráce mezi lékaři, kteří dodávají data, a informatiky, kteří s jejich pomocí vytvářejí učící systémy. Věříme, že tento text pomůže překlenout rozdíly mezi znalostmi lékařů a informatiků a tím přispěje k efektivnější mezioborové spolupráci.
Digitalization has gradually made its way into many areas of medicine, including pathology. Along with digital data processing comes the application of artificial intelligence methods to simplify routine processes, enhance safety, etc. Although general awareness of artificial intelligence methods is increasing, it is still not common for professionals from non-technical fields to have a detailed understanding of how such systems work and learn. This text aims to explain the basics of machine learning in an accessible way using examples and illustrations from digital pathology. This is not intended to be a comprehensive overview or an introduction to cutting-edge methods. Instead, we use the simplest models to focus on fundamental concepts behind most learning systems. The text concentrates on decision trees, whose functionality is easy to explain, and basic neural networks, the primary models used in today’s artificial intelligence. We also attempt to describe the collaborative process between medical specialists, who provide the data, and computer scientists, who use this data to develop learning systems. This text will help bridge the knowledge gap between medical professionals and computer scientists, contributing to more effective interdisciplinary collaboration.
- MeSH
- lidé MeSH
- patologie * trendy MeSH
- strojové učení * trendy MeSH
- umělá inteligence trendy MeSH
- Check Tag
- lidé MeSH
Pathophysiological recordings of patients measured from various testing methods are frequently used in the medical field for determining symptoms as well as for probability prediction for selected diseases. There are numerous symptoms among the Parkinson's disease (PD) population, however changes in speech and articulation – is potentially the most significant biomarker. This article is focused on PD diagnosis classification based on their speech signals using pattern recognition methods (AdaBoost, Bagged trees, Quadratic SVM and k-NN). The dataset investigated in the article consists of 30 PD and 30 HC individuals' voice measurements, with each individual being represented with 2 recordings within the dataset. Training signals for PD and HC underwent an extraction of relatively well-discriminating features relating to energy and spectral speech properties. Model implementations included a 5-fold cross validation. The accuracy of the values obtained employing the models was calculated using the confusion matrix. The average value of the overall accuracy = 82.3 % and averaged AUC = 0.88 (min. AUC = 0.86) on the available data.
Breast cancer survival prediction can have an extreme effect on selection of best treatment protocols. Many approaches such as statistical or machine learning models have been employed to predict the survival prospects of patients, but newer algorithms such as deep learning can be tested with the aim of improving the models and prediction accuracy. In this study, we used machine learning and deep learning approaches to predict breast cancer survival in 4,902 patient records from the University of Malaya Medical Centre Breast Cancer Registry. The results indicated that the multilayer perceptron (MLP), random forest (RF) and decision tree (DT) classifiers could predict survivorship, respectively, with 88.2 %, 83.3 % and 82.5 % accuracy in the tested samples. Support vector machine (SVM) came out to be lower with 80.5 %. In this study, tumour size turned out to be the most important feature for breast cancer survivability prediction. Both deep learning and machine learning methods produce desirable prediction accuracy, but other factors such as parameter configurations and data transformations affect the accuracy of the predictive model.
- MeSH
- analýza přežití MeSH
- deep learning * MeSH
- demografie MeSH
- dospělí MeSH
- kalibrace MeSH
- lidé středního věku MeSH
- lidé MeSH
- mladý dospělý MeSH
- nádory prsu mortalita MeSH
- neuronové sítě MeSH
- rozhodovací stromy MeSH
- senioři nad 80 let MeSH
- senioři MeSH
- support vector machine MeSH
- Check Tag
- dospělí MeSH
- lidé středního věku MeSH
- lidé MeSH
- mladý dospělý MeSH
- senioři nad 80 let MeSH
- senioři MeSH
- ženské pohlaví MeSH
- Publikační typ
- časopisecké články MeSH
Traditional statistical approaches have advanced our understanding of the genetics of complex diseases, yet are limited to linear additive models. Here we applied machine learning (ML) to genome-wide data from 41,686 individuals in the largest European consortium on Alzheimer's disease (AD) to investigate the effectiveness of various ML algorithms in replicating known findings, discovering novel loci, and predicting individuals at risk. We utilised Gradient Boosting Machines (GBMs), biological pathway-informed Neural Networks (NNs), and Model-based Multifactor Dimensionality Reduction (MB-MDR) models. ML approaches successfully captured all genome-wide significant genetic variants identified in the training set and 22% of associations from larger meta-analyses. They highlight 6 novel loci which replicate in an external dataset, including variants which map to ARHGAP25, LY6H, COG7, SOD1 and ZNF597. They further identify novel association in AP4E1, refining the genetic landscape of the known SPPL2A locus. Our results demonstrate that machine learning methods can achieve predictive performance comparable to classical approaches in genetic epidemiology and have the potential to uncover novel loci that remain undetected by traditional GWAS. These insights provide a complementary avenue for advancing the understanding of AD genetics.
- MeSH
- algoritmy MeSH
- Alzheimerova nemoc * genetika MeSH
- celogenomová asociační studie MeSH
- genetická predispozice k nemoci MeSH
- jednonukleotidový polymorfismus MeSH
- lidé MeSH
- neuronové sítě MeSH
- proteiny aktivující GTPasu genetika MeSH
- strojové učení * MeSH
- Check Tag
- lidé MeSH
- Publikační typ
- časopisecké články MeSH
AIMS: Takotsubo syndrome (TTS) is associated with a substantial rate of adverse events. We sought to design a machine learning (ML)-based model to predict the risk of in-hospital death and to perform a clustering of TTS patients to identify different risk profiles. METHODS AND RESULTS: A ridge logistic regression-based ML model for predicting in-hospital death was developed on 3482 TTS patients from the International Takotsubo (InterTAK) Registry, randomly split in a train and an internal validation cohort (75% and 25% of the sample size, respectively) and evaluated in an external validation cohort (1037 patients). Thirty-one clinically relevant variables were included in the prediction model. Model performance represented the primary endpoint and was assessed according to area under the curve (AUC), sensitivity and specificity. As secondary endpoint, a K-medoids clustering algorithm was designed to stratify patients into phenotypic groups based on the 10 most relevant features emerging from the main model. The overall incidence of in-hospital death was 5.2%. The InterTAK-ML model showed an AUC of 0.89 (0.85-0.92), a sensitivity of 0.85 (0.78-0.95) and a specificity of 0.76 (0.74-0.79) in the internal validation cohort and an AUC of 0.82 (0.73-0.91), a sensitivity of 0.74 (0.61-0.87) and a specificity of 0.79 (0.77-0.81) in the external cohort for in-hospital death prediction. By exploiting the 10 variables showing the highest feature importance, TTS patients were clustered into six groups associated with different risks of in-hospital death (28.8% vs. 15.5% vs. 5.4% vs. 1.0.8% vs. 0.5%) which were consistent also in the external cohort. CONCLUSION: A ML-based approach for the identification of TTS patients at risk of adverse short-term prognosis is feasible and effective. The InterTAK-ML model showed unprecedented discriminative capability for the prediction of in-hospital death.
- MeSH
- lidé MeSH
- mortalita v nemocnicích MeSH
- prognóza MeSH
- srdeční selhání * komplikace MeSH
- strojové učení MeSH
- takotsubo kardiomyopatie * diagnóza komplikace MeSH
- Check Tag
- lidé MeSH
- Publikační typ
- časopisecké články MeSH
TransCelerate reports on the results of 2019, 2020, and 2021 member company (MC) surveys on the use of intelligent automation in pharmacovigilance processes. MCs increased the number and extent of implementation of intelligent automation solutions throughout Individual Case Safety Report (ICSR) processing, especially with rule-based automations such as robotic process automation, lookups, and workflows, moving from planning to piloting to implementation over the 3 survey years. Companies remain highly interested in other technologies such as machine learning (ML) and artificial intelligence, which can deliver a human-like interpretation of data and decision making rather than just automating tasks. Intelligent automation solutions are usually used in combination with more than one technology being used simultaneously for the same ICSR process step. Challenges to implementing intelligent automation solutions include finding/having appropriate training data for ML models and the need for harmonized regulatory guidance.
- MeSH
- automatizace MeSH
- farmakovigilance * MeSH
- lidé MeSH
- strojové učení MeSH
- technologie MeSH
- umělá inteligence * MeSH
- Check Tag
- lidé MeSH
- Publikační typ
- časopisecké články MeSH
- práce podpořená grantem MeSH
OBJECTIVES: The detection and classification of oral mucosal lesions is a challenging task due to high heterogeneity and overlap in clinical appearance. Nevertheless, differentiating benign from potentially malignant lesions is essential for appropriate management. This study evaluated whether a deep learning model trained to discriminate 11 classes of oral mucosal lesions could exceed the performance of general dentists. METHODS: 4079 intraoral photographs of benign, potentially malignant and malignant oral lesions were labeled using bounding boxes and classified into 11 classes. The data were split 80:20 for training (n = 3031) and validation (n = 766), keeping an independent test set (n = 282). The YOLOv8 computer vision model was implemented for image classification and object detection. Model performance was evaluated on the test set which was also assessed by six general dentists and three specialists in oral surgery. Evaluation metrics included sensitivity, specificity, F1-score, precision, area under the receiver operating characteristic curve (AUROC), and average precision (AP) at multiple thresholds of intersection over union. RESULTS: In terms of classification, the highest F1-score (0.80) and AUROC (0.96) were observed for human papillomavirus (HPV)-related lesions, whereas the lowest F1-score (0.43) and AUROC (0.78) were obtained for keratosis. In terms of object detection, the best results were achieved for HPV-related lesions (AP25 = 0.82) and proliferative verrucous leukoplakia (AP25 = 0.80; AP50 = 0.76), while the lowest values were noted for leukoplakia (AP25 = 0.36; AP50 = 0.20). Overall, the model performed comparable to specialists (p = 0.93) and significantly better than general dentists (p < 0.01). CONCLUSION: The developed model performed as well as specialists in oral surgery, highlighting its potential as a valuable tool for oral lesion assessment. CLINICAL SIGNIFICANCE: By providing performance comparable to oral surgeons and superior to general dentists, the developed multi-class model could support the clinical evaluation of oral lesions, potentially enabling earlier diagnosis of potentially malignant disorders, enhancing patient management and improving patient prognosis.
- MeSH
- deep learning MeSH
- lidé MeSH
- nádory úst * klasifikace diagnóza patologie diagnostické zobrazování MeSH
- nemoci úst * klasifikace diagnóza MeSH
- orální leukoplakie MeSH
- ROC křivka MeSH
- senzitivita a specificita MeSH
- strojové učení * MeSH
- ústní sliznice * patologie diagnostické zobrazování MeSH
- zubní lékaři * MeSH
- Check Tag
- lidé MeSH
- Publikační typ
- časopisecké články MeSH
- srovnávací studie MeSH