Text data mining
Dotaz
Zobrazit nápovědu
elektronický časopis
- MeSH
- data mining MeSH
- lékařství MeSH
- Konspekt
- Lékařské vědy. Lékařství
- NLK Obory
- lékařství
- lékařská informatika
- NLK Publikační typ
- elektronické časopisy
V souvislosti s narůstajícím objemem dostupných klinických dat dochází ke stále častějším aplikacím metod tzv. dolování dat („data-mining“) v klinickém výzkumu a praxi. Celý proces data-miningu lze rozdělit na řadu samostatných a poměrně snadno uchopitelných kroků od uložení dat a jejich přípravy, přes pochopení datové struktury souboru až po modelování a extrakci využitelných poznatků. Ve vytvořeném e-kurzu přinášíme kromě teoretického popisu metod i řadu řešených případových studií, např. při mapování genové exprese nebo při modelování strukturovaných dat z klinické praxe.
Data mining has become a standard approach in many fields of clinical research. The whole data-mining process can be divided into sets of simple logical steps from the data preparation and validation, through definition of data structure and statistical description, up to data modelling and mining. The newly developed e-learning course addresses all the main steps of the data mining together with case studies of microarrays data analysis.
- Klíčová slova
- CRISP-DM, microarrays,
- MeSH
- data mining * MeSH
- multimédia využití MeSH
- odborné vzdělávání metody MeSH
- počítačem řízená výuka * MeSH
- Geografické názvy
- Česká republika MeSH
As the amount of genome information increases rapidly, there is a correspondingly greater need for methods that provide accurate and automated annotation of gene function. For example, many high-throughput technologies--e.g., next-generation sequencing--are being used today to generate lists of genes associated with specific conditions. However, their functional interpretation remains a challenge and many tools exist trying to characterize the function of gene-lists. Such systems rely typically in enrichment analysis and aim to give a quick insight into the underlying biology by presenting it in a form of a summary-report. While the load of annotation may be alleviated by such computational approaches, the main challenge in modern annotation remains to develop a systems form of analysis in which a pipeline can effectively analyze gene-lists quickly and identify aggregated annotations through computerized resources. In this article we survey some of the many such tools and methods that have been developed to automatically interpret the biological functions underlying gene-lists. We overview current functional annotation aspects from the perspective of their epistemology (i.e., the underlying theories used to organize information about gene function into a body of verified and documented knowledge) and find that most of the currently used functional annotation methods fall broadly into one of two categories: they are based either on 'known' formally-structured ontology annotations created by 'experts' (e.g., the GO terms used to describe the function of Entrez Gene entries), or--perhaps more adventurously--on annotations inferred from literature (e.g., many text-mining methods use computer-aided reasoning to acquire knowledge represented in natural languages). Overall however, deriving detailed and accurate insight from such gene lists remains a challenging task, and improved methods are called for. In particular, future methods need to (1) provide more holistic insight into the underlying molecular systems; (2) provide better follow-up experimental testing and treatment options, and (3) better manage gene lists derived from organisms that are not well-studied. We discuss some promising approaches that may help achieve these advances, especially the use of extended dictionaries of biomedical concepts and molecular mechanisms, as well as greater use of annotation benchmarks.
1 online zdroj
- MeSH
- data mining MeSH
- sběr dat metody MeSH
- ukládání a vyhledávání informací * MeSH
- Publikační typ
- dataset MeSH
- periodika MeSH
- Konspekt
- Věda. Všeobecnosti. Základy vědy a kultury. Vědecká práce
- NLK Obory
- věda a výzkum
Data mining (DM) is a widely adopted methodology for the analysis of large datasets which is on the other hand often overestimated or incorrectly considered as a universal solution. This statement is also valid for clinical research, in which large and heterogeneous datasets are often processed. DM in general uses standard methods available in common statistical software and combines them into a complex workflow methodology covering all the steps of data analysis from data acquisition through pre-processing and data analysis to interpretation of the results. The whole workflow is aimed at one final goal – to find any interesting, non-trivially hidden and potentially useful information. This innovative concept of data mining was adopted in our educational course of the Faculty of Medicine at the Masaryk University accessible from its e-learning portal http://portal. med.muni.cz/clanek-318-zavedeni-technologie-data-miningu-a-analyzy-dat--genovych-expresnich-map-do-vyuky.html.
- MeSH
- biostatistika metody MeSH
- data mining * metody trendy MeSH
- lidé MeSH
- multifaktorová rozměrová redukce metody MeSH
- počítačem řízená výuka * metody trendy MeSH
- Check Tag
- lidé MeSH
- Publikační typ
- práce podpořená grantem MeSH
Objectives: The goals of this study were to examine the feasibility of using ontology-based text mining with CaringBridge social media journal entries in order to understand journal content from a whole-person perspective. Specific aims were to describe Omaha System problem concept frequencies in the journal entries over a four-step process overall, and relative to Omaha System Domains; and to examine the four step method including the use of standardized terms and related words. Design: Ontology-based retrospective observational feasibility study using text mining methods. Sample: A corpus of social media text consisting of 13,757,900 CaringBridge journal entries from June 2006 to June 2016. Measures: The Omaha System terms, including problems and signs/symptoms, were used as the foundational lexicon for this study. Development of an extended lexicon with related words for each problem concept expanded the semantics-powered data analytics approach to reflect consumer word choices. Results: All Omaha System problem concepts were identified in the journal entries, with consistent representation across domains. The approach was most successful when common words were used to represent clinical terms. Preliminary validation of journal examples showed appropriate representation of the problem concepts. Conclusions: This is the first study to evaluate the feasibility of using an interface terminology and ontology (the Omaha System) as a text mining information model. Further research is needed to systematically validate these findings, refine the process as needed to advance the study of CaringBridge content, and extend the use of this method to other consumer-generated journal entries and terminologies.
- Klíčová slova
- Omaha System,
- MeSH
- bio-ontologie MeSH
- data mining * metody MeSH
- lidé MeSH
- řízený slovník MeSH
- Check Tag
- lidé MeSH
A major challenge in cancer treatment is predicting the clinical response to anti-cancer drugs on a personalized basis. The success of such a task largely depends on the ability to develop computational resources that integrate big "omic" data into effective drug-response models. Machine learning is both an expanding and an evolving computational field that holds promise to cover such needs. Here we provide a focused overview of: 1) the various supervised and unsupervised algorithms used specifically in drug response prediction applications, 2) the strategies employed to develop these algorithms into applicable models, 3) data resources that are fed into these frameworks and 4) pitfalls and challenges to maximize model performance. In this context we also describe a novel in silico screening process, based on Association Rule Mining, for identifying genes as candidate drivers of drug response and compare it with relevant data mining frameworks, for which we generated a web application freely available at: https://compbio.nyumc.org/drugs/. This pipeline explores with high efficiency large sample-spaces, while is able to detect low frequency events and evaluate statistical significance even in the multidimensional space, presenting the results in the form of easily interpretable rules. We conclude with future prospects and challenges of applying machine learning based drug response prediction in precision medicine.
Lipidomics and metabolomics communities comprise various informatics tools; however, software programs handling multimodal mass spectrometry (MS) data with structural annotations guided by the Lipidomics Standards Initiative are limited. Here, we provide MS-DIAL 5 for in-depth lipidome structural elucidation through electron-activated dissociation (EAD)-based tandem MS and determining their molecular localization through MS imaging (MSI) data using a species/tissue-specific lipidome database containing the predicted collision-cross section values. With the optimized EAD settings using 14 eV kinetic energy, the program correctly delineated lipid structures for 96.4% of authentic standards, among which 78.0% had the sn-, OH-, and/or C = C positions correctly assigned at concentrations exceeding 1 μM. We showcased our workflow by annotating the sn- and double-bond positions of eye-specific phosphatidylcholines containing very-long-chain polyunsaturated fatty acids (VLC-PUFAs), characterized as PC n-3-VLC-PUFA/FA. Using MSI data from the eye and n-3-VLC-PUFA-supplemented HeLa cells, we identified glycerol 3-phosphate acyltransferase as an enzyme candidate responsible for incorporating n-3 VLC-PUFAs into the sn1 position of phospholipids in mammalian cells, which was confirmed using EAD-MS/MS and recombinant proteins in a cell-free system. Therefore, the MS-DIAL 5 environment, combined with optimized MS data acquisition methods, facilitates a better understanding of lipid structures and their localization, offering insights into lipid biology.
- MeSH
- data mining * metody MeSH
- fosfatidylcholiny metabolismus chemie MeSH
- HeLa buňky MeSH
- hmotnostní spektrometrie metody MeSH
- lidé MeSH
- lipidomika * metody MeSH
- lipidy chemie analýza MeSH
- metabolomika metody MeSH
- nenasycené mastné kyseliny metabolismus chemie MeSH
- software MeSH
- tandemová hmotnostní spektrometrie metody MeSH
- zvířata MeSH
- Check Tag
- lidé MeSH
- zvířata MeSH
- Publikační typ
- časopisecké články MeSH
... \n1.5 Data a aktualizovaná organizace\n1.6 Práva k datům\n1.7 Práva k užitku\n1.8 Shrnutí dílčích závěrů ... ... výzkumných dat 17\n2.2 Životní cyklus výzkumných dat 18\n2.3 Sdílení dat jako komplexní právní problém ... ... práva dle občanského\nzákoníku 25\n3.2 Data jako předmět vlastnického práva 27\n3.3 Práva k datům jako ... ... věc nehmotná 29\n3.3.1 Práva k datům chráněná duševním vlastnictvím 29\n3.3.2 Ochrana dat nechráněných ... ... rozměr vědeckého bádání 79\n6.3 Data mining z pohledu autorského práva a zvláštních práv\npořizovatele ...
Právní monografie
Vydání první xiv, 164 stran ; 24 cm
Monografie se zaměřuje na otázky právní povahy informace a dat, práva duševního vlastnictví k datům, osobnostní práva a práva jednotlivců na ochranu osobních údajů. Nakladatelská anotace. Kráceno; Právní rámec sběru, zpracování a dalšího šíření výzkumných dat na základě stavu k 31. 12. 2017.
- MeSH
- data mining zákonodárství a právo MeSH
- databáze jako téma zákonodárství a právo MeSH
- lidská práva zákonodárství a právo MeSH
- občanská práva zákonodárství a právo MeSH
- výzkum zákonodárství a právo MeSH
- Konspekt
- Obchodní právo. Finanční právo. Právo průmyslového vlastnictví. Patentové právo. Autorské právo
- NLK Obory
- právo, zákonodárství
- věda a výzkum
- NLK Publikační typ
- kolektivní monografie
Rozvoj technologií znamená generování, uchovávání, spravování a zpracování čím dál tím větších objemů dat, která jsou heterogenní, multimodální, strukturovaná i nestrukturovaná, někdy zašuměná, neúplná. Některé charakteristiky dat jsou společné pro data z různých problémových oblastí. Data v medicíně však vykazují určitá specifika, mezi něž patří i malé datové soubory popsané velkým počtem příznaků, vzácné případy vyjádřené odlehlými hodnotami příznaků, které nelze ignorovat, ale naopak zohlednit v dalších analýzách. V medicíně se také daleko častěji využívá a bude využívat interaktivních metod dobývání znalostí, kde expert je součástí procesu a jednotlivé kroky analýzy jsou řízeny jeho znalostmi. Na důležitosti nabývají metody z oblasti strukturního učení a grafové modely využívající pravděpodobnostní matematický aparát. Nedílnou součástí zpracování velkých dat je vhodná vizualizace dat, procesu zpracování a výsledků.