Metoda sekvenování nové generace (NGS) se stala velmi populární v biomedicínském výzkumu i v klinické praxi zejména proto, že umožňuje rychlý a detailní vhled do genomu pacienta. V kontextu nádorových onemocnění umožňují metody NGS přesnou detekci jak zárodečných záměn, tak zejména somatických mutací, které mohou pomoci rychle a precizně stanovit diagnózu a přizpůsobit léčbu podle individuálních potřeb pacienta. Vývojem nových výpočetních metod a jejich aplikací za účelem precizního zpracování NGS dat se zabývá vědní obor bioinformatika. Bioinformatická analýza je komplexní proces, jehož správné nastavení je klíčové pro získání relevantních výsledků. Je proto nutné, aby bioinformatik detailně porozuměl biologické podstatě sledovaného jevu, jako je například vznik genových mutací v průběhu onemocnění. Z hlediska bioanalytika i lékaře je naopak užitečné znát jak možnosti a limity NGS technologie, tak i základní bioinformatickou terminologii, na základě které jsou pak schopni s bioinformatiky efektivně komunikovat. V této souhrnné práci se proto autoři snaží obecně popsat bioinformatickou analýzu sekvenačních dat s důrazem na vysvětlení základních pojmů používaných v oblasti analýzy NGS dat.
Next generation sequencing (NGS) has become very popular both in research and clinical practice, in particular because it allows detailed and rapid insight into the patients genome, which can help to diagnose a disease quickly and precisely and thus enable treatment administration based on individual patient needs. The development of novel computing methods and their application for accurate processing of NGS data is the objective of the scientific field of bioinformatics. Bioinformatic analysis is a complex process and its precise set-up is absolutely crucial for obtaining relevant results. Thus, it is necessary for bioinformaticians to understand the biological principles of the given analysis, such as the development of somatic mutations during disease course. From the perspective of a bio-analyst or physician, it is essential to understand the challenges and limits of NGS technology; basic knowledge of bioinformatics and its terminology allows for effective communication with bioinformaticians. In this review, the authors attempt to describe bioinformatic analysis with emphasis on explaining the basic concepts used in the NGS data analysis.
- Klíčová slova
- sekvenování nové generace (NGS),
- MeSH
- lidé MeSH
- sekvenční analýza DNA * metody trendy MeSH
- výpočetní biologie MeSH
- Check Tag
- lidé MeSH
- Publikační typ
- přehledy MeSH
BACKGROUND: High-throughput bioinformatics analyses of next generation sequencing (NGS) data often require challenging pipeline optimization. The key problem is choosing appropriate tools and selecting the best parameters for optimal precision and recall. RESULTS: Here we introduce ToTem, a tool for automated pipeline optimization. ToTem is a stand-alone web application with a comprehensive graphical user interface (GUI). ToTem is written in Java and PHP with an underlying connection to a MySQL database. Its primary role is to automatically generate, execute and benchmark different variant calling pipeline settings. Our tool allows an analysis to be started from any level of the process and with the possibility of plugging almost any tool or code. To prevent an over-fitting of pipeline parameters, ToTem ensures the reproducibility of these by using cross validation techniques that penalize the final precision, recall and F-measure. The results are interpreted as interactive graphs and tables allowing an optimal pipeline to be selected, based on the user's priorities. Using ToTem, we were able to optimize somatic variant calling from ultra-deep targeted gene sequencing (TGS) data and germline variant detection in whole genome sequencing (WGS) data. CONCLUSIONS: ToTem is a tool for automated pipeline optimization which is freely available as a web application at https://totem.software .