CRISP-DM Dotaz Zobrazit nápovědu
V souvislosti s narůstajícím objemem dostupných klinických dat dochází ke stále častějším aplikacím metod tzv. dolování dat („data-mining“) v klinickém výzkumu a praxi. Celý proces data-miningu lze rozdělit na řadu samostatných a poměrně snadno uchopitelných kroků od uložení dat a jejich přípravy, přes pochopení datové struktury souboru až po modelování a extrakci využitelných poznatků. Ve vytvořeném e-kurzu přinášíme kromě teoretického popisu metod i řadu řešených případových studií, např. při mapování genové exprese nebo při modelování strukturovaných dat z klinické praxe.
Data mining has become a standard approach in many fields of clinical research. The whole data-mining process can be divided into sets of simple logical steps from the data preparation and validation, through definition of data structure and statistical description, up to data modelling and mining. The newly developed e-learning course addresses all the main steps of the data mining together with case studies of microarrays data analysis.
- Klíčová slova
- CRISP-DM, microarrays,
- MeSH
- data mining * MeSH
- multimédia využití MeSH
- počítačem řízená výuka * MeSH
- vzdělávání odborné metody MeSH
- Geografické názvy
- Česká republika MeSH
Příspěvek obsahuje základní informace o dobývání znalostí jakožto důležité disciplíně informatiky a ukazuje příklady jeho aplikací v medicínských datech. Jsou zmíněny hlavní rysy metodologie CRISP-DM a uvedeny příklady vyhledávání zajímavých asociačních pravidel za účelem orientace v neznámých datových souborech.
In Colombia, the first case of COVID-19 was confirmed on 6 March 2020. On 13 March 2023, Colombia registered 6,360,780 confirmed positive cases of COVID-19, representing 12.18% of the total population. The National Administrative Department of Statistics (DANE) in Colombia published in 2020 a COVID-19 vulnerability index, which estimates the vulnerability (per city block) of being infected with COVID-19. Unfortunately, DANE did not consider multiple factors that could increase the risk of COVID-19 (in addition to demographic and health), such as environmental and mobility data (found in the related literature). The proposed multidimensional index considers variables of different types (unemployment rate, gross domestic product, citizens' mobility, vaccination data, and climatological and spatial information) in which the incidence of COVID-19 is calculated and compared with the incidence of the COVID-19 vulnerability index provided by DANE. The collection, data preparation, modeling, and evaluation phases of the Cross-Industry Standard Process for Data Mining methodology (CRISP-DM) were considered for constructing the index. The multidimensional index was evaluated using multiple machine learning models to calculate the incidence of COVID-19 cases in the main cities of Colombia. The results showed that the best-performing model to predict the incidence of COVID-19 in Colombia is the Extra Trees Regressor algorithm, obtaining an R-squared of 0.829. This work is the first step toward a multidimensional analysis of COVID-19 risk factors, which has the potential to support decision making in public health programs. The results are also relevant for calculating vulnerability indexes for other viral diseases, such as dengue.
- Publikační typ
- časopisecké články MeSH
Data mining je moderní metoda hledání netriviálních, skrytých a potenciálně užitečných informací v datech, využívající různých metod v závislosti na typu úlohy. Medicínská data (klinická, administrativní) jsou vhodným kandidátem pro využití v data miningu. Tyto standardně sbíraná data poskytují velkou základnu pro testování různých metod, jenž mohou vést například k nalazení nových ukazatelů kvality. Tento přístup je do jisté míry opačný ke klasickému hledání ukazatelů kvality. Je založen na samotných datech, bez znalosti výsledku a jeho využitelnosti v praxi, který se dá ovlivnit pouze vhodným výběrem dat, metody data miningu případně jejich podmínek. Podstatná a velmi důležitá je tedy zpětná vazba s doktory a jejich znalostí praxe. Využití data miningových metod spolu se statistickým metodami je tedy možné využít k nalezení nových, případně ověření již známých a používaných ukazatelů kvality. První fází mého postupu je vyzkoušení jedné či více metod data miningu a statistických metod nad daty, která jsou definována ve známém a obecně přijímaném ukazateli kvality. Ve druhé fázi se pak pokusím o nalezení nových ukazatelů na základě dat samotných, resp. z těchto výsledků definování samotného ukazatele a jeho statistické síly. Ne vždy je však tento ukazatel ukazatelem reálně použitelným. Je zde potřeba dvojí znalosti. A to znalosti samotných dat zahrnujících například výběr dat vstupujících do procesu data miningu a druhou znalostí je znalost reálného použití ukazatele v praxi. Popsaná metoda je spíše doplňkovou, ale jistě zajímavou pro jistou část návrhu a procesu validace ukazatele. Článek je složen ze dvou částí. Obecná část obsahuje úvod do historie a především problematiky data miningu, naznačím jednotlivé části metodologie CRISP-DM a data miningových metod. Dále vyjmenuji některé nástroje využívané v data miningu. Ukáži možné využití data miningu v různých oblastech a to zvlášte se zaměřením na zdravotnictví - tedy s využitím na klinických, klinicko-administrativních či administrativních datech. Druhá část ukazuje některé výsledky návrhu ukazatelů kvality, ke kterým jsem dospěl v rámci své diplomové práce v níž se zabývám právě možným využitím data miningu při návrhu ukazatelů kvality. Ukázky jsou založené na reálných datech systému MARK Q firmy Stapro. Především se jedná o otestování různých metod data miningu nad daty, jejichž charakter je definován ve známých ukazatelích, případně návrh nového ukazatele kvality.