Agradecimentos
Bactopia é verdadeiramente um caso de "estar sobre os ombros de gigantes". Bactopia atualmente integra mais de 159 datasets e pacotes de software. Praticamente cada componente utilizado no Bactopia, desde o fluxo de trabalho até os datasets, os pacotes de software e até mesmo o framework deste site, foi criado por outras pessoas e disponibilizado gratuitamente ao público.
Gostaria de expressar pessoalmente minha enorme gratidão aos autores desses pacotes de software e datasets públicos. Se você chegou até aqui, eu devo a você uma cerveja (ou um café!) se nos encontrarmos pessoalmente. Sério, muito obrigado!
Se você utilizou o Bactopia em seu trabalho, certifique-se de citar os datasets ou softwares que possa ter usado.
Influências
nf-core
nf-core é um ótimo grupo de pessoas que voluntariam seu tempo para criar um conjunto de pipelines de análise Nextflow curados. A equipe do nf-core desenvolveu práticas incríveis que acredito fortalecer muito a comunidade Nextflow como um todo!
Frequentemente me perguntam: O Bactopia algum dia vai fazer parte do nf-core?
A resposta é: Não, mas...
O Bactopia foi adaptado do Staphopia, que precede o início do nf-core. À medida que tanto o nf-core quanto o Bactopia cresceram, ficou claro que adicionar o Bactopia ao nf-core seria uma tarefa difícil. A última oportunidade para isso provavelmente foi quando o Bactopia foi convertido para DSL2, mas as Bactopia Tools provavelmente nunca se encaixariam no molde do nf-core.
No entanto, sempre que possível, tentei implementar as práticas do nf-core no Bactopia. Alguns exemplos incluem:
- Análise de argumentos baseada na biblioteca do nf-core
- Todas as Bactopia Tools são adaptadas de módulos do nf-core
- Testes implementados seguindo o padrão do nf-core/modules
Ao implementar essas práticas, acredito que o Bactopia se tornou um pipeline muito melhor. Por isso sou muito grato à comunidade nf-core! Obrigado!
Ewels P, Peltzer A, Fillinger S, Patel H, Alneberg J, Wilm A, Garcia MU, Di Tommaso P, Nahnsen S The nf-core framework for community-curated bioinformatics pipelines. Nat Biotechnol. (2020)
Tradução
As ferramentas e prompts de tradução utilizados para traduzir a documentação do Bactopia foram adaptados do sistema de tradução do projeto Nextflow Training (TRANSLATING.md). Todas as traduções são geradas e mantidas por IA usando Claude da Anthropic. Obrigado à equipe do Nextflow por disponibilizar abertamente sua infraestrutura de tradução!
Datasets Públicos
Abaixo está uma lista de 17 datasets públicos que potencialmente podem ter sido utilizados através do Bactopia ou das Bactopia Tools.
Datasets de Referência do Ariba
Esses datasets estão disponíveis usando a função getref do Ariba. Você pode aprender
mais sobre essa função na Wiki do Ariba.
1: ARG-ANNOT
Gupta SK, Padmanabhan BR, Diene SM, Lopez-Rojas R, Kempf M, Landraud L, Rolain J-M ARG-ANNOT, a new bioinformatic tool to discover antibiotic resistance genes in bacterial genomes. Antimicrob. Agents Chemother 58, 212-220 (2014)
2: CARD
Alcock BP, Raphenya AR, Lau TTY, Tsang KK, Bouchard M, Edalatmand A, Huynh W, Nguyen A-L V, Cheng AA, Liu S, Min SY, Miroshnichenko A, Tran H-K, Werfalli RE, Nasir JA, Oloni M, Speicher DJ, Florescu A, Singh B, Faltyn M, Hernandez-Koutoucheva A, Sharma AN, Bordeleau E, Pawlowski AC, Zubyk HL, Dooley D, Griffiths E, Maguire F, Winsor GL, Beiko RG, Brinkman FSL, Hsiao WWL, Domselaar GV, McArthur AG CARD 2020: antibiotic resistome surveillance with the comprehensive antibiotic resistance database. Nucleic acids research 48.D1, D517-D525 (2020)
3: EcOH
Ingle DJ, Valcanis M, Kuzevski A, Tauschek M, Inouye M, Stinear T, Levine MM, Robins-Browne RM, Holt KE In silico serotyping of E. coli from short read data identifies limited novel O-loci but extensive diversity of O:H serotype combinations within and between pathogenic lineages. Microbial Genomics, 2(7), e000064. (2016)
4: MEGARes
Lakin SM, Dean C, Noyes NR, Dettenwanger A, Ross AS, Doster E, Rovira P, Abdo Z, Jones KL, Ruiz J, Belk KE, Morley PS, Boucher C MEGARes: an resistencia antimicrobiana database for high throughput sequencing. Nucleic Acids Res. 45, D574-D580 (2017)
5: MEGARes 2.0
Doster E, Lakin SM, Dean CJ, Wolfe C, Young JG, Boucher C, Belk KE, Noyes NR, Morley PS MEGARes 2.0: a database for classification of antimicrobial drug, biocide and metal resistance determinants in metagenomic sequence data. Nucleic Acids Research, 48(D1), D561-D569. (2020)
6: NCBI Reference Gene Catalog
Feldgarden M, Brover V, Haft DH, Prasad AB, Slotta DJ, Tolstoy I, Tyson GH, Zhao S, Hsu C-H, McDermott PF, Tadesse DA, Morales C, Simmons M, Tillman G, Wasilenko J, Folster JP, Klimke W Validating the NCBI AMRFinder Tool and Resistance Gene Database Using resistencia antimicrobiana Genotype-Phenotype Correlations in a Collection of NARMS Isolates. Antimicrob. Agents Chemother. (2019)
7: ResFinder
Zankari E, Hasman H, Cosentino S, Vestergaard M, Rasmussen S, Lund O, Aarestrup FM, Larsen MV Identification of acquired resistencia antimicrobiana genes. J. Antimicrob. Chemother. 67, 2640-2644 (2012)
8: SRST2
Inouye M, Dashnow H, Raven L-A, Schultz MB, Pope BJ, Tomita T, Zobel J, Holt KE SRST2: Rapid genomic surveillance for public health and hospital microbiology labs. Genome Med. 6, 90 (2014)
9: VFDB
Chen L, Zheng D, Liu B, Yang J, Jin Q VFDB 2016: hierarchical and refined dataset for big data analysis--10 years on. Nucleic Acids Res. 44, D694-7 (2016)
10: VirulenceFinder
Joensen KG, Scheutz F, Lund O, Hasman H, Kaas RS, Nielsen EM, Aarestrup FM Real-time whole-genome sequencing for routine typing, surveillance, and outbreak detection of verotoxigenic Escherichia coli. J. Clin. Microbiol. 52, 1501-1510 (2014)
Datasets Minmer
1: Mash Refseq (release 88) Sketch
Ondov BD, Starrett GJ, Sappington A, Kostic A, Koren S, Buck CB, Phillippy AM Mash Screen: high-throughput sequence containment estimation for genome discovery Genome Biol 20, 232 (2019)
2: Sourmash Genbank LCA Signature
Brown CT, Irber L sourmash: a library for MinHash sketching of DNA. JOSS 1, 27 (2016)
Outros Datasets
1: eggNOG 5.0 Database
Huerta-Cepas J, Szklarczyk D, Heller D, Hernández-Plaza A, Forslund SK, Cook H, Mende DR, Letunic I, Rattei T, Jensen LJ, von Mering C, Bork P eggNOG 5.0: a hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses. Nucleic Acids Res. 47, D309-D314 (2019)
2: Genome Taxonomy Database
Parks DH, Chuvochina M, Rinke C, Mussig AJ, Chaumeil P-A, Hugenholtz P GTDB: an ongoing census of bacterial and archaeal diversity through a phylogenetically consistent, rank normalized and complete genome-based taxonomy Nucleic Acids Research gkab776 (2021)
3: MOB-suite Database
Robertson J, Bessonov K, Schonfeld J, Nash JHE. Universal whole-sequence-based plasmid typing and its utility to prediction of host range and epidemiological surveillance. Microbial Genomics, 6(10)(2020)
4: NCBI RefSeq Database
O'Leary NA, Wright MW, Brister JR, Ciufo S, Haddad D, McVeigh R, Rajput B, Robbertse B, Smith-White B, Ako-Adjei D, Astashyn A, Badretdin A, Bao Y, Blinkova O0, Brover V, Chetvernin V, Choi J, Cox E, Ermolaeva O, Farrell CM, Goldfarb T, Gupta T, Haft D, Hatcher E, Hlavina W, Joardar VS, Kodali VK, Li W, Maglott D, Masterson P, McGarvey KM, Murphy MR, O'Neill K, Pujar S, Rangwala SH, Rausch D, Riddick LD, Schoch C, Shkeda A, Storz SS, Sun H, Thibaud-Nissen F, Tolstoy I, Tully RE, Vatsan AR, Wallin C, Webb D, Wu W, Landrum MJ, Kimchi A, Tatusova T, DiCuccio M, Kitts P, Murphy TD, Pruitt KD Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Res. 44, D733-45 (2016)
5: PubMLST.org
Jolley KA, Bray JE, Maiden MCJ Open-access bacterial population genomics: BIGSdb software, the PubMLST.org website and their applications. Wellcome Open Res 3, 124 (2018)
Softwares Incluídos no Bactopia
Abaixo estão 141 pacotes de software utilizados (direta e indiretamente) pelo Bactopia. Um link para a página do software, bem como a citação (quando disponível), foram incluídos.
1: PlasmidFinder
Identifica plasmídeos em isolados bacterianos sequenciados total ou parcialmente
Carattoli A, Zankari E, García-Fernández A, Voldby Larsen M, Lund O, Villa L, Møller Aarestrup F, Hasman H In silico detection and typing of plasmids using PlasmidFinder and plasmid multilocus sequence typing. Antimicrobial Agents and Chemotherapy 58(7), 3895-3903. (2014)
2: Abricate
Triagem em massa de contigs para genes de resistência antimicrobiana e virulência
Seemann T Abricate: mass screening of contigs for antimicrobial and virulence genes (GitHub)
3: abriTAMR
Um pipeline para executar o AMRfinderPlus e consolidar os resultados em classes funcionais
Sherry NL, Horan KA, Ballard SA, Gonҫalves da Silva A, Gorrie CL, Schultz MB, Stevens K, Valcanis M, Sait ML, Stinear TP, Howden BP, and Seemann T An ISO-certified genomics workflow for identification and surveillance of resistencia antimicrobiana. Nature Communications, 14(1), 60. (2023)
4: AgrVATE
Identificação rápida do tipo do locus agr de Staphylococcus aureus e variantes do operon agr.
Raghuram V. AgrVATE: Rapid identification of Staphylococcus aureus agr locus type and agr operon variants. (GitHub)
5: AMRFinderPlus
Encontra genes de resistência antimicrobiana adquiridos e algumas mutações pontuais em sequências de proteínas ou nucleotídeos montados.
Feldgarden M, Brover V, Haft DH, Prasad AB, Slotta DJ, Tolstoy I, Tyson GH, Zhao S, Hsu C-H, McDermott PF, Tadesse DA, Morales C, Simmons M, Tillman G, Wasilenko J, Folster JP, Klimke W Validating the NCBI AMRFinder Tool and Resistance Gene Database Using resistencia antimicrobiana Genotype-Phenotype Correlations in a Collection of NARMS Isolates. Antimicrob. Agents Chemother. (2019)
6: any2fasta
Converte vários formatos de sequência para FASTA
Seemann T any2fasta: Convert various sequence formats to FASTA (GitHub)
7: Aragorn
Encontra características de RNA de transferência (tRNA)
Laslett D, Canback B ARAGORN, a program to detect tRNA genes and tmRNA genes in nucleotide sequences. Nucleic Acids Res. 32(1):11-6 (2004)
8: Ariba
Identificação de Resistência Antimicrobiana por Montagem
Hunt M, Mather AE, Sánchez-Busó L, Page AJ, Parkhill J, Keane JA, Harris SR ARIBA: rapid resistencia antimicrobiana genotyping directly from sequencing reads. Microb Genom 3, e000131 (2017)
9: ART
Um conjunto de ferramentas de simulação para gerar reads sintéticos de sequenciamento de próxima geração
Huang W, Li L, Myers JR, Marth GT ART: a next-generation sequencing read simulator. Bioinformatics 28, 593-594 (2012)
10: assembly-scan
Gera estatísticas básicas para uma montagem.
Petit III RA assembly-scan: generate basic stats for an assembly (GitHub)
11: Bakta
Anotação rápida e padronizada de genomas bacterianos e plasmídeos
Schwengers O, Jelonek L, Dieckmann MA, Beyvers S, Blom J, Goesmann A Bakta - rapid and standardized annotation of bacterial genomes via alignment-free sequence identification. Microbial Genomics 7(11) (2021)
12: Barrnap
Preditor de RNA ribossomal bacteriano
Seemann T Barrnap: Bacterial ribosomal RNA predictor (GitHub)
13: BBTools
BBTools é um conjunto de ferramentas bioinformáticas rápidas e multithreaded projetadas para análise de dados de sequências de DNA e RNA.
Bushnell B BBMap short read aligner, and other bioinformatic tools. (Link)
14: BCFtools
Utilitários para chamada de variantes e manipulação de arquivos VCF e BCF.
Danecek P, Bonfield JK, Liddle J, Marshall J, Ohan V, Pollard MO, Whitwham A, Keane T, McCarthy SA, Davies RM, Li H Twelve years of SAMtools and BCFtools GigaScience Volume 10, Issue 2 (2021)
15: Bedtools
Um poderoso conjunto de ferramentas para aritmética genômica.
Quinlan AR, Hall IM BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics 26, 841-842 (2010)
16: BLAST
Ferramenta de Busca por Alinhamento Local Básico
Camacho C, Coulouris G, Avagyan V, Ma N, Papadopoulos J, Bealer K, Madden TL BLAST+: architecture and applications. BMC Bioinformatics 10, 421 (2009)
17: Bowtie2
Um alinhador de reads com gaps rápido e sensível
Langmead B, Salzberg SL Fast gapped-read alignment with Bowtie 2. Nat. Methods. 9, 357-359 (2012)
18: Bracken
Bracken é um método estatístico de alta precisão que calcula a abundância de espécies em sequências de DNA de amostras metagenômicas
Lu J, Breitwieser FP, Thielen P, and Salzberg SL Bracken: estimating species abundance in metagenomics data. PeerJ Computer Science, 3, e104. (2017)
19: BTyper3
Classificação taxonômica in silico de genomas do grupo Bacillus cereus usando dados de sequenciamento de genoma completo
Carroll LM, Cheng RA, Kovac J No Assembly Required: Using BTyper3 to Assess the Congruency of a Proposed Taxonomic Framework for the Bacillus cereus Group With Historical Typing Methods. Frontiers in Microbiology, 11, 580691. (2020)
20: BUSCO
Avaliação da completude de montagens e anotações genômicas com Benchmarking Universal Single-Copy Orthologs (BUSCO)
Manni M, Berkeley MR, Seppey M, Simão FA, Zdobnov EM BUSCO Update: Novel and Streamlined Workflows along with Broader and Deeper Phylogenetic Coverage for Scoring of Eukaryotic, Prokaryotic, and Viral Genomes. Molecular Biology and Evolution 38(10), 4647-4654. (2021)
21: BWA
Alinhador Burrow-Wheeler para alinhamento de reads curtos
Li H Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv [q-bio.GN] (2013)
22: CD-HIT
Acelerado para agrupamento de dados de sequenciamento de próxima geração
Li W, Godzik A Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences. Bioinformatics 22, 1658-1659 (2006)
23: CheckM
Avalia a qualidade de genomas microbianos recuperados de isolados, células únicas e metagenomas
Parks DH, Imelfort M, Skennerton CT, Hugenholtz P, Tyson GW CheckM: assessing the quality of microbial genomes recovered from isolates, single cells, and metagenomes. Genome Res 25, 1043-1055 (2015)
24: CheckM2
Avaliação rápida da qualidade de bins genômicos usando aprendizado de máquina
Chklovksi A Rapid assessment of genome bin quality using machine learning (GitHub)
25: ClermontTyping
Método in silico fácil de usar e preciso para filotipagem de cepas do gênero Escherichia
Beghain J, Bridier-Nahmias A, Le Nagard H, Denamur E, Clermont O. ClermonTyping: an easy-to-use and accurate in silico method for Escherichia genus strain phylotyping. Microbial Genomics, 4(7), e000192. (2018)
26: ClonalFramML
Inferência eficiente de recombinação em genomas bacterianos completos
Didelot X, Wilson DJ ClonalFrameML: Efficient Inference of Recombination in Whole Bacterial Genomes. PLoS Comput Biol 11(2) e1004041 (2015)
27: csvtk
Um toolkit CSV/TSV multiplataforma, eficiente e prático em Golang
Shen, W csvtk: A cross-platform, efficient and practical CSV/TSV toolkit in Golang. (GitHub)
28: deacon
Filtragem de sequências de DNA acelerada por SIMD usando comparação baseada em minimizadores
Bede N. deacon: SIMD-accelerated filtering of DNA sequences using minimizer-based comparison. (GitHub)
29: DefenseFinder
Busca sistemática de todos os sistemas anti-fago conhecidos.
Tesson F, Hervé A, Mordret E, Touchon M, d'Humières C, Cury J, Bernheim A Systematic and quantitative view of the antiviral arsenal of prokaryotes. Nature Communications, 13(1), 2561. (2022)
30: DIAMOND
Alinhador de sequências local compatível com BLAST e acelerado.
Buchfink B, Xie C, Huson DH Fast and sensitive protein alignment using DIAMOND. Nat. Methods. 12, 59-60 (2015)
31: Dragonflye
Monta genomas de isolados bacterianos a partir de reads Nanopore.
Petit III RA Dragonflye: Assemble bacterial isolate genomes from Nanopore reads. (GitHub)
32: ECTyper
Predição in silico do sorotipo de Escherichia coli
Laing C, Bessonov K, Sung S, La Rose C ECTyper - In silico prediction of Escherichia coli serotype (GitHub)
33: eggNOG-mapper
Anotação funcional rápida em escala genômica por atribuição de ortologia
Huerta-Cepas J, Forslund K, Coelho LP, Szklarczyk D, Jensen LJ, von Mering C, Bork P Fast Genome-Wide Functional Annotation through Orthology Assignment by eggNOG-Mapper. Mol. Biol. Evol. 34, 2115-2122 (2017)
34: emmtyper
Rotulador Automático de Isolados emm
Tan A, Seemann T, Lacey D, Davies M, Mcintyre L, Frost H, Williamson D, Gonçalves da Silva A emmtyper - emm Automatic Isolate Labeller (GitHub)
35: FastANI
Estimativa rápida de similaridade de genoma completo (ANI)
Jain C, Rodriguez-R LM, Phillippy AM, Konstantinidis KT, Aluru S High throughput ANI analysis of 90K prokaryotic genomes reveals clear species boundaries. Nat. Commun. 9, 5114 (2018)
36: FastQC
Uma ferramenta de análise de controle de qualidade para dados de sequenciamento de alto rendimento.
Andrews S FastQC: a controle de qualidade tool for high throughput sequence data. (WebLink)
37: fastq-dl
Baixa arquivos FASTQ dos repositórios SRA ou ENA.
Petit III RA fastq-dl: Download FASTQ files from SRA or ENA repositories. (GitHub)
38: fastq-scan
Gera estatísticas resumidas de FASTQ no formato JSON
Petit III RA fastq-scan: generate summary statistics of input FASTQ sequences. (GitHub)
39: fastp
Uma ferramenta projetada para fornecer pré-processamento rápido e completo para arquivos FastQ
Chen S, Zhou Y, Chen Y, and Gu J fastp: an ultra-fast all-in-one FASTQ preprocessor. Bioinformatics, 34(17), i884-i890. (2018)
40: FLASH
Uma ferramenta rápida e precisa para mesclar reads paired-end.
Magoč T, Salzberg SL FLASH: fast length adjustment of short reads to improve genome assemblies. Bioinformatics 27.21 2957-2963 (2011)
41: Flye
Montador de novo para reads de sequenciamento de moléculas únicas usando grafos de repetição
Kolmogorov M, Yuan J, Lin Y, Pevzner P Assembly of Long Error-Prone Reads Using Repeat Graphs Nature Biotechnology (2019)
42: freebayes
Descoberta de polimorfismos genéticos e genotipagem baseada em haplótipos bayesianos
Garrison E, Marth G Haplotype-based variant detection from short-read sequencing. arXiv preprint arXiv:1207.3907 [q-bio.GN] (2012)
43: GAMMA
Avaliação Microbiana de Mutações em Alelos Gênicos
Stanton RA, Vlachos N, Halpin AL GAMMA: a tool for the rapid identification, classification, and annotation of translated gene matches from sequencing data. Bioinformatics (2021)
44: GenoTyphi
Atribui genótipos a genomas de Salmonella Typhi com base em resultados do Mykrobe
Wong VK, Baker S, Connor TR, Pickard D, Page AJ, Dave J, Murphy N, Holliman R, Sefton A, Millar M, Dyson ZA, Dougan G, Holt KE, & International Typhoid Consortium. An extended genotyping framework for Salmonella enterica serovar Typhi, the cause of human typhoid Nature Communications 7, 12827. (2016)
45: GigaTyper
Executa todos os esquemas MLST disponíveis para uma espécie contra uma montagem
Petit III RA, Fearing T, Groves E GigaTyper: Why choose one scheme when you can flex them all? (GitHub)
46: GTDB-Tk
Um toolkit para atribuir classificações taxonômicas objetivas a genomas bacterianos e arqueais
Chaumeil PA, Mussig AJ, Hugenholtz P, Parks DH GTDB-Tk: a toolkit to classify genomes with the Genome Taxonomy Database. Bioinformatics (2019)
47: Gubbins
Análise filogenética rápida de grandes amostras de sequências de genoma bacteriano completo recombinante
Croucher NJ, Page AJ, Connor TR, Delaney AJ, Keane JA, Bentley SD, Parkhill J, Harris SR Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research 43(3), e15. (2015)
48: hicap
Tipagem in silico do locus cap de H. influenzae
Watts SC, Holt KE hicap: in silico serotyping of the Haemophilus influenzae capsule locus. Journal of Clinical Microbiology JCM.00190-19 (2019)
49: HMMER
Análise de biosequências usando modelos ocultos de Markov de perfil
Eddy SR Accelerated Profile HMM Searches. PLoS Comput. Biol. 7, e1002195 (2011)
50: HpsuisSero
Sorotipagem rápida de Haemophilus parasuis
Lui J HpsuisSero: Rapid Haemophilus parasuis serotyping (GitHub)
51: Infernal
Busca em bancos de dados de sequências de DNA por similaridades de estrutura e sequência de RNA
Nawrocki EP, Eddy SR Infernal 1.1: 100-fold faster RNA homology searches. Bioinformatics 29(22), 2933-2935 (2013)
52: IQ-TREE
Software filogenômico eficiente por máxima verossimilhança
Nguyen L-T, Schmidt HA, von Haeseler A, Minh BQ IQ-TREE: A fast and effective stochastic algorithm for estimating maximum likelihood phylogenies. Mol. Biol. Evol. 32:268-274 (2015)
53: ModelFinder
Usado para seleção automática de modelos
Kalyaanamoorthy S, Minh BQ, Wong TKF, von Haeseler A, Jermiin LS ModelFinder - Fast model selection for accurate phylogenetic estimates. Nat. Methods 14:587-589 (2017)
54: UFBoot2
Usado para realizar bootstrap ultrarrápido
Hoang DT, Chernomor O, von Haeseler A, Minh BQ, Vinh LS UFBoot2: Improving the ultrafast bootstrap approximation. Mol. Biol. Evol. 35:518-522 (2018)
55: ISMapper
Software para mapeamento de IS
Hawkey J, Hamidian M, Wick RR, Edwards DJ, Billman-Jacobe H, Hall RM, Holt KE ISMapper: identifying transposase insertion sites in bacterial genomes from short read sequence data. BMC Genomics 16, 667 (2015)
56: Kaptive
Loci de polissacarídeos de superfície para o complexo de espécies Klebsiella pneumoniae e genomas de Acinetobacter baumannii
Wyres KL, Wick RR, Gorrie C, Jenney A, Follador R, Thomson NR, Holt KE Identification of Klebsiella capsule synthesis loci from whole genome data. Microbial genomics 2(12) (2016)
57: Kleborate
Ferramenta de genotipagem para Klebsiella pneumoniae e seu complexo de espécies relacionadas
Lam MMC, Wick RR, Watts, SC, Cerdeira LT, Wyres KL, Holt KE A genomic surveillance framework and genotyping tool for Klebsiella pneumoniae and its related species complex. Nat Commun 12, 4188 (2021)
58: Kraken2
A segunda versão do sistema de classificação de sequências taxonômicas Kraken
Wood DE, Lu J, Langmead B Improved metagenomic analysis with Kraken 2. Genome Biology, 20(1), 257. (2019)
59: Krona
Explore metagenomas e muito mais de forma interativa em um navegador web
Ondov BD, Bergman NH, and Phillippy AM Interactive metagenomic visualization in a Web browser. BMC Bioinformatics, 12, 385. (2011)
60: legsta
Tipagem in silico baseada em sequências de Legionella pneumophila
Seemann T legsta: In silico Legionella pneumophila Sequence Based Typing (GitHub)
61: Lighter
Corretor de erros de sequenciamento rápido e eficiente em memória
Song L, Florea L, Langmead B Lighter: Fast and Memory-efficient Sequencing Error Correction without Counting. Genome Biol. 15(11):509 (2014)
62: LisSero
Predição de sorotipo in silico para Listeria monocytogenes
Kwong J, Zhang J, Seeman T, Horan, K, Gonçalves da Silva A LisSero - In silico serotype prediction for Listeria monocytogenes (GitHub)
63: MAFFT
Programa de alinhamento múltiplo para sequências de aminoácidos ou nucleotídeos
Katoh K, Standley DM MAFFT multiple sequence alignment software version 7: improvements in performance and usability. Mol. Biol. Evol. 30, 772-780 (2013)
64: Mash
Estimativa rápida de distância entre genomas e metagenomas usando MinHash
Ondov BD, Treangen TJ, Melsted P, Mallonee AB, Bergman NH, Koren S, Phillippy AM Mash: fast genome and metagenome distance estimation using MinHash. Genome Biol 17, 132 (2016)
65: Mash Screen
Estimativa de contenção de sequências de alto rendimento
Ondov BD, Starrett GJ, Sappington A, Kostic A, Koren S, Buck CB, Phillippy AM Mash Screen: high-throughput sequence containment estimation for genome discovery Genome Biol 20, 232 (2019)
66: Mashtree
Cria uma árvore usando distâncias Mash
Katz LS, Griswold T, Morrison S, Caravas J, Zhang S, den Bakker HC, Deng X, Carleton HA Mashtree: a rapid comparison of whole genome sequence files. Journal of Open Source Software, 4(44), 1762 (2019)
67: maskrc-svg
Mascara recombinação detectada pelo ClonalFrameML ou Gubbins
Kwong J maskrc-svg - Masks recombination as detected by ClonalFrameML or Gubbins and draws an SVG. (GitHub)
68: McCortex
Montagem de genoma de novo e chamada de variantes em múltiplas amostras
Turner I, Garimella KV, Iqbal Z, McVean G Integrating long-range connectivity information into de Bruijn graphs. Bioinformatics 34, 2556-2565 (2018)
69: mcroni
Scripts para encontrar e processar variantes de promotor upstream de mcr-1
Shaw L mcroni: Scripts for finding and processing promoter variants upstream of mcr-1 (GitHub)
70: Medaka
Correção de sequências fornecida pela ONT Research
ONT Research Medaka: Sequence correction provided by ONT Research (GitHub)
71: meningotype
Sorotipagem in silico, finetyping e tipagem de sequências de antígenos Bexsero de Neisseria meningitidis
Kwong JC, Gonçalves da Silva A, Stinear TP, Howden BP, & Seemann T meningotype: in silico typing for Neisseria meningitidis. (GitHub)
72: MEGAHIT
Montador de (meta-)genoma ultrarrápido e eficiente em memória
Li D, Liu C-M, Luo R, Sadakane K, Lam T-W MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph. Bioinformatics 31.10 1674-1676 (2015)
73: mlst
Verifica arquivos de contigs contra esquemas de tipagem PubMLST
Seemann T mlst: scan contig files against PubMLST typing schemes (GitHub)
74: MIDAS
Um pipeline integrado para estimar variação genômica em nível de cepa a partir de dados metagenômicos
Nayfach S, Rodriguez-Mueller B, Garud N, and Pollard KS An integrated metagenomics pipeline for strain profiling reveals novel patterns of bacterial transmission and biogeography. Genome Research, 26(11), 1612-1625. (2016)
75: MinCED
Mineração de CRISPRs em Datasets Ambientais
Skennerton C MinCED: Mining CRISPRs in Environmental Datasets (GitHub)
76: Miniasm
Montagem de novo ultrarrápida para reads longos e ruidosos (sem etapa de consenso)
Li H Miniasm: Ultrafast de novo assembly for long noisy reads (GitHub)
77: Minimap2
Um alinhador par a par versátil para sequências nucleotídicas genômicas e spliced
Li H Minimap2: pairwise alignment for nucleotide sequences. Bioinformatics 34:3094-3100 (2018)
78: MOB-suite
Ferramentas de software para agrupamento, reconstrução e tipagem de plasmídeos a partir de montagens rascunho
Robertson J, Nash JHE MOB-suite: software tools for clustering, reconstruction and typing of plasmids from draft assemblies. Microbial Genomics 4(8). (2018)
79: Mykrobe
Predição de resistência a antibióticos em minutos
Hunt M, Bradley P, Lapierre SG, Heys S, Thomsit M, Hall MB, Malone KM, Wintringer P, Walker TM, Cirillo DM, Comas I, Farhat MR, Fowler P, Gardy J, Ismail N, Kohl TA, Mathys V, Merker M, Niemann S, Omar SV, Sintchenko V, Smith G, Supply P, Tahseen S, Wilcox M, Arandjelovic I, Peto TEA, Crook, DW, Iqbal Z Antibiotic resistance prediction for Mycobacterium tuberculosis from genome sequence data with Mykrobe Wellcome Open Research 4, 191. (2019)
80: NanoPlot
Scripts de visualização para dados de sequenciamento de reads longos
De Coster W, D'Hert S, Schultz DT, Cruts M, Van Broeckhoven C NanoPack: visualizing and processing long-read sequencing data Bioinformatics Volume 34, Issue 15 (2018)
81: Nanoq
Controle de qualidade mínimo e ágil para reads de nanopore em Rust
Steinig E Nanoq: Minimal but speedy controle de qualidade for nanopore reads in Rust (GitHub)
82: ncbi-genome-download
Scripts para baixar genomas dos servidores FTP do NCBI
Blin K ncbi-genome-download: Scripts to download genomes from the NCBI FTP servers (GitHub)
83: Nextflow
Uma DSL para pipelines computacionais orientados a dados.
Di Tommaso P, Chatzou M, Floden EW, Barja PP, Palumbo E, Notredame C Nextflow enables reproducible computational workflows. Nat. Biotechnol. 35, 316-319 (2017)
84: nf-test
Um framework de testes simples para pipelines Nextflow
Forer L, Schönherr S Improving the reliability, quality, and maintainability of bioinformatics pipelines with nf-test. GigaScience 14, giaf130 (2025)
85: ngmaster
Tipagem de sequências de múltiplos antígenos in silico para Neisseria gonorrhoeae (NG-MAST)
Kwong J, Gonçalves da Silva A, Schultz M, Seeman T ngmaster - In silico multi-antigen sequence typing for Neisseria gonorrhoeae (NG-MAST) (GitHub)
86: nhmmer
Busca de homologia de DNA com HMMs de perfil.
Wheeler TJ, Eddy SR nhmmer: DNA homology search with profile HMMs. Bioinformatics 29, 2487-2489 (2013)
87: Panaroo
Um pipeline atualizado para investigação de pan-genoma
Tonkin-Hill G, MacAlasdair N, Ruis C, Weimann A, Horesh G, Lees JA, Gladstone RA, Lo S, Beaudoin C, Floto RA, Frost SDW, Corander J, Bentley SD, Parkhill J Producing polished prokaryotic pangenomes with the Panaroo pipeline. Genome Biology 21(1), 180. (2020)
88: pasty
Sorogrupamento in silico de isolados de Pseudomonas aeruginosa
Petit III RA pasty: in silico serogrouping of Pseudomonas aeruginosa isolates (GitHub)
89: pbptyper
Tipador de Proteína de Ligação à Penicilina (PBP) para montagens de Streptococcus pneumoniae
Petit III RA pbptyper: In silico Penicillin Binding Protein (PBP) typer for Streptococcus pneumoniae assemblies (GitHub)
90: PhiSpy
Predição de profagos em genomas bacterianos
Akhter S, Aziz RK, and Edwards RA PhiSpy: a novel algorithm for finding prophages in bacterial genomes that combines similarity- and composition-based strategies. Nucleic Acids Research, 40(16), e126. (2012)
91: Pigz
Uma implementação paralela do gzip para máquinas modernas com múltiplos processadores e núcleos.
Adler M. pigz: A parallel implementation of gzip for modern multi-processor, multi-core machines. Jet Propulsion Laboratory (2015)
92: Pilon
Uma ferramenta automatizada para melhoria de montagem genômica e detecção de variantes
Walker BJ, Abeel T, Shea T, Priest M, Abouelliel A, Sakthikumar S, Cuomo CA, Zeng Q, Wortman J, Young SK, Earl AM Pilon: an integrated tool for comprehensive microbial variant detection and genome assembly improvement. PloS one 9.11 e112963 (2014)
93: PIRATE
Uma caixa de ferramentas para análise de pan-genoma e avaliação de limiares.
Bayliss SC, Thorpe HA, Coyle NM, Sheppard SK, Feil EJ PIRATE: A fast and scalable pangenomics toolbox for clustering diverged orthologues in bacteria. Gigascience 8 (2019)
94: PneumoCaT
Ferramenta de Tipagem Capsular Pneumocócica para dados de NGS
Kapatai G, Sheppard CL, Al-Shahib A, Litt DJ, Underwood AP, Harrison TG, and Fry NK Whole genome sequencing of Streptococcus pneumoniae: development, evaluation and verification of targets for serogroup and serotype prediction using an automated pipeline. PeerJ, 4, e2477. (2016)
95: Porechop
Trimmagem de adaptadores para reads Oxford Nanopore
Wick RR, Judd LM, Gorrie CL, Holt KE. Completing bacterial genome assemblies with multiplex MinION sequencing. Microb Genom. 3(10):e000132 (2017)
96: pplacer
Posicionamento filogenético e análise downstream
Matsen FA, Kodner RB, Armbrust EV pplacer: linear time maximum-likelihood and Bayesian phylogenetic placement of sequences onto a fixed reference tree. BMC Bioinformatics 11, 538 (2010)
97: Prodigal
Predição rápida e confiável de genes codificadores de proteínas para genomas procarióticos.
Hyatt D, Chen G-L, LoCascio PF, Land ML, Larimer FW, Hauser LJ Prodigal: prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics 11.1 119 (2010)
98: Prokka
Anotação rápida de genomas procarióticos
Seemann T Prokka: rapid prokaryotic genome annotation Bioinformatics 30, 2068-2069 (2014)
99: QUAST
Ferramenta de Avaliação de Qualidade para Genomas
Gurevich A, Saveliev V, Vyahhi N, Tesler G QUAST: quality assessment tool for genome assemblies. Bioinformatics 29, 1072-1075 (2013)
100: Racon
Módulo de consenso ultrarrápido para montagem de genoma de novo bruto a partir de reads longos não corrigidos
Vaser R, Sović I, Nagarajan N, Šikić M Fast and accurate de novo genome assembly from long uncorrected reads. Genome Res 27, 737-746 (2017)
101: Rasusa
Subamostragem aleatória de reads de sequenciamento para uma cobertura especificada
Hall MB Rasusa: Randomly subsample sequencing reads to a specified coverage. (2019).
102: Raven
Montador de genoma de novo para reads longos não corrigidos
Vaser R, Šikić M Time- and memory-efficient genome assembly with Raven. Nat Comput Sci 1, 332-336 (2021)
103: Resistance Gene Identifier (RGI)
Software para predizer resistomas a partir de dados de proteínas ou nucleotídeos, com base em modelos de homologia e SNP.
Alcock BP, Raphenya AR, Lau TTY, Tsang KK, Bouchard M, Edalatmand A, Huynh W, Nguyen A-L V, Cheng AA, Liu S, Min SY, Miroshnichenko A, Tran H-K, Werfalli RE, Nasir JA, Oloni M, Speicher DJ, Florescu A, Singh B, Faltyn M, Hernandez-Koutoucheva A, Sharma AN, Bordeleau E, Pawlowski AC, Zubyk HL, Dooley D, Griffiths E, Maguire F, Winsor GL, Beiko RG, Brinkman FSL, Hsiao WWL, Domselaar GV, McArthur AG CARD 2020: antibiotic resistome surveillance with the comprehensive antibiotic resistance database. Nucleic acids research 48.D1, D517-D525 (2020)
104: RNAmmer
Anotação consistente e rápida de genes de RNA ribossomal
Lagesen K, Hallin P, Rødland EA, Stærfeldt H-H, Rognes T, Ussery DW RNAmmer: consistent annotation of rRNA genes in genomic sequences. Nucleic Acids Res 35.9: 3100-3108 (2007)
105: Roary
Análise rápida e em grande escala de pan-genoma procariótico
Page AJ, Cummins CA, Hunt M, Wong VK, Reuter S, Holden MTG, Fookes M, Falush D, Keane JA, Parkhill J Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics 31, 3691-3693 (2015)
106: samclip
Filtra arquivos SAM para alinhamentos com clipping suave e rígido
Seemann T Samclip: Filter SAM file for soft and hard clipped alignments (GitHub)
107: Samtools
Ferramentas para manipulação de dados de sequenciamento de próxima geração
Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R The Sequence Alignment/Map format and SAMtools. Bioinformatics 25, 2078-2079 (2009)
108: sccmec
Uma ferramenta para tipagem de cassetes SCCmec em montagens.
Petit III RA, Read TD sccmec: A tool for typing SCCmec cassettes in assemblies (GitHub)
109: Scoary
Estudos de associação em escala de pan-genoma
Brynildsrud O, Bohlin J, Scheffer L, Eldholm V Rapid scoring of genes in microbial pan-genoma-wide association studies with Scoary. Genome Biol. 17:238 (2016)
110: SeqSero2
Predição do sorotipo de Salmonella a partir de dados de sequenciamento de genoma
Zhang S, Den-Bakker HC, Li S, Dinsmore BA, Lane C, Lauer AC, Fields PI, Deng X. SeqSero2: rapid and improved Salmonella serotype determination using whole genome sequencing data. Appl Environ Microbiology 85(23):e01746-19 (2019)
111: Seqtk
Uma ferramenta rápida e leve para processar sequências no formato FASTA ou FASTQ.
Li H Toolkit for processing sequences in FASTA/Q formats (GitHub)
112: Seroba
Pipeline baseado em k-mer para identificar o sorotipo de Streptococcus pneumoniae a partir de reads de NGS Illumina
Epping L, van Tonder AJ, Gladstone RA, The Global Pneumococcal Sequencing Consortium, Bentley SD, Page AJ, Keane JA SeroBA: rapid high-throughput serotyping of Streptococcus pneumoniae from whole genome sequence data. Microbial Genomics, 4(7) (2018)
113: shigapass
Uma ferramenta in silico para predizer sorotipos de Shigella
Yassine I, Hansen EE, Lefèvre S, Ruckly C, Carle I, Lejay-Collin M, Fabre L, Rafei R, Pardos de la Gandara M, Daboussi F, Shahin A, Weill FX ShigaPass: an in silico tool predicting Shigella serotypes from whole-genome sequencing assemblies. Microb Genomics 9(3) (2023)
114: ShigaTyper
Sorotipo de Shigella a partir de reads Illumina ou Oxford Nanopore
Wu Y, Lau HK, Lee T, Lau DK, Payne J In Silico Serotyping Based on Whole-Genome Sequencing Improves the Accuracy of Shigella Identification. Applied and Environmental Microbiology, 85(7). (2019)
115: ShigEiFinder
Ferramenta de sorotipagem de Shigella e EIEC informada por cluster a partir de reads Illumina e montagens
Zhang X, Payne M, Nguyen T, Kaur S, Lan R Cluster-specific gene markers enhance Shigella and enteroinvasive Escherichia coli in silico serotyping. Microbial Genomics, 7(12). (2021)
116: Shovill
Montagem mais rápida de reads Illumina
Seemann T Shovill: De novo assembly pipeline for Illumina paired reads (GitHub)
117: Shovill-SE
Um fork do Shovill que inclui suporte para reads single-end.
Petit III RA Shovill-SE: A fork of Shovill that includes support for single end reads. (GitHub)
118: SignalP
Encontra características de peptídeo sinal em CDS
Petersen TN, Brunak S, von Heijne G, Nielsen H SignalP 4.0: discriminating signal peptides from transmembrane regions. Nature methods 8.10: 785 (2011)
119: SISTR
Ferramenta de linha de comando SISTR (Salmonella In Silico Typing Resource)
Yoshida CE, Kruczkiewicz P, Laing CR, Lingohr EJ, Gannon VPJ, Nash JHE, Taboada EN The Salmonella In Silico Typing Resource (SISTR): An Open Web-Accessible Tool for Rapidly Typing and Subtyping Draft Salmonella Genome Assemblies. PloS One, 11(1), e0147101. (2016)
120: sizemeup
Uma ferramenta simples para recuperar o tamanho do genoma de um determinado nome de espécie ou ID taxonômico
Petit III RA sizemeup: A simple tool to retrieve the genome size for a given species name or tax ID (GitHub)
121: SKESA
Extensão Estratégica de Kmer para Montagens Escrupulosas
Souvorov A, Agarwala R, Lipman DJ SKESA: strategic k-mer extension for scrupulous assemblies. Genome Biology 19:153 (2018)
122: Snippy
Chamada rápida de variantes haploides e alinhamento do genoma central
Seemann T Snippy: fast bacterial chamada de variantes from NGS reads (GitHub)
123: SnpEff
Caixa de ferramentas para anotação de variantes genômicas e predição de efeito funcional.
Cingolani P, Platts A, Wang LL, Coon M, Nguyen T, Wang L, Land SJ, Lu X, Douglas M A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster strain w1118; iso-2; iso-3. Fly 6(2), 80-92 (2012)
124: snp-dists
Matriz de distância de SNP par a par a partir de um alinhamento de sequências FASTA
Seemann T snp-dists - Pairwise SNP distance matrix from a FASTA sequence alignment. (GitHub)
125: Sourmash
Calcula e compara assinaturas MinHash para conjuntos de dados de DNA.
Brown CT, Irber L sourmash: a library for MinHash sketching of DNA. JOSS 1, 27 (2016)
126: SPAdes
Um toolkit de montagem contendo vários pipelines de montagem.
Bankevich A, Nurk S, Antipov D, Gurevich AA, Dvorkin M, Kulikov AS, Lesin VM, Nikolenko SI, Pham S, Prjibelski AD, Pyshkin AV, Sirotkin AV, Vyahhi N, Tesler G, Alekseyev MA, Pevzner PA SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing. Journal of computational biology 19.5 455-477 (2012)
127: spaTyper
Método computacional para encontrar tipos spa.
Sanchez-Herrero JF, and Sullivan M spaTyper: Staphylococcal protein A (spa) characterization pipeline. Zenodo. (2020)
128: spaTyper Database
Banco de dados usado pelo spaTyper
Harmsen D, Claus H, Witte W, Rothgänger J, Claus H, Turnwald D, and Vogel U Typing of methicillin-resistant Staphylococcus aureus in a university hospital setting using a novel software for spa-repeat determination and database management. J. Clin. Microbiol. 41:5442-5448 (2003)
129: SRA Human Scrubber
Uma ferramenta SRA que recebe como entrada um arquivo fastq local de uma amostra de infecção clínica, identifica e remove qualquer read humano significativo, e gera o arquivo fastq editado (limpo) que pode ser usado com segurança para submissão ao SRA
Katz KS, Shutov O, Lapoint R, Kimelman M, Brister JR, and O'Sullivan C STAT: a fast, scalable, MinHash-based k-mer tool to assess Sequence Read Archive next-generation sequence submissions. Genome Biology, 22(1), 270 (2021)
130: SsuisSero
Sorotipagem rápida de Streptococcus suis
Lui J SsuisSero: Rapid Streptococcus suis serotyping (GitHub)
131: StaphSCAN
Análise de vigilância baseada em genoma de Staphylococcus aureus
Bollini R StaphSCAN (v0.3.0). Zenodo (2026)
132: staphopia-sccmec
Uma versão standalone do método de tipagem SCCmec do Staphopia.
Petit III RA, Read TD Staphylococcus aureus viewed from the perspective of 40,000+ genomes. PeerJ 6, e5261 (2018)
133: STECFinder
Agrupamento e sorotipagem de E. coli produtora de toxina Shiga (STEC) usando marcadores genômicos específicos de cluster
Zhang X, Payne M, Kaur S, and Lan R Improved Genomic Identification, Clustering, and Serotyping of Shiga Toxin-Producing Escherichia coli Using Cluster/Serotype-Specific Gene Markers. Frontiers in Cellular and Infection Microbiology, 11, 772574. (2021)
134: Sylph
Perfilamento taxonômico ultrarrápido e estimativa de contenção para dados metagenômicos
Shaw J, and Yu YW Rapid species-level metagenome profiling and containment estimation with sylph. Nature Biotechnology (2024)
135: TBProfiler
Ferramenta de perfilamento de Mycobacterium tuberculosis para detectar resistência e tipo de cepa
Phelan JE, O'Sullivan DM, Machado D, Ramos J, Oppong YEA, Campino S, O'Grady J, McNerney R, Hibberd ML, Viveiros M, Huggett JF, Clark TG Integrating informatics tools and portable sequencing technology for rapid detection of resistance to anti-tuberculous drugs. Genome Med 11, 41 (2019)
136: Traitar
Predição de características fenotípicas a partir de genomas microbianos
Weimann A, Mooren K, Frank J, Pope PB, Gronow S, So AP From genomes to phenotypes: Traitar, the microbial trait analyzer. mSystems 1(6), e00101-16 (2016)
137: Unicycler
Pipeline de montagem híbrida para genomas bacterianos
Wick RR, Judd LM, Gorrie CL, Holt KE Unicycler: Resolving bacterial genome assemblies from short and long sequencing reads. PLoS Comput. Biol. 13, e1005595 (2017)
138: VCF-Annotator
Adiciona anotações biológicas a variantes em um arquivo VCF.
Petit III RA VCF-Annotator: Add biological annotations to variants in a VCF file. (GitHub)
139: Vcflib
Uma biblioteca C++ simples para análise e manipulação de arquivos VCF
Garrison E Vcflib: A C++ library for parsing and manipulating VCF files (GitHub)
140: Velvet
Montador de novo para reads curtos usando grafos de de Bruijn
Zerbino DR, Birney E Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome research 18.5 821-829 (2008)
141: vt
Um conjunto de ferramentas para descoberta de variantes curtas em dados de sequências genéticas.
Tan A, Abecasis GR, Kang HM Unified representation of genetic variants. Bioinformatics 31(13), 2202-2204 (2015)
Citação do Bactopia
Se você usar o Bactopia em sua análise, por favor cite o seguinte.
Petit III RA, Read TD Bactopia - a flexible pipeline for complete analysis of bacterial genomes. mSystems 5 (2020)