prokka
Tags: prokka annotation prokaryotic bacteria genbank gff sample-scope
Anotar genomas procarióticos.
Utiliza o Prokka para anotar rapidamente genomas bacterianos, archaeais e virais, produzindo arquivos de saída compatíveis com padrões, incluindo GFF3, GenBank e Sequin.
Entradas
record (
meta: Record,
fna: Path
)
| Campo | Tipo | Descrição |
|---|---|---|
meta | Record | Registro Groovy contendo informações da amostra |
fna | Path | Contigs montados no formato FASTA |
proteins: Path?
prodigal_tf: Path?
| Nome | Tipo | Descrição |
|---|---|---|
proteins | Path? | Arquivo FASTA de proteínas confiáveis para anotar primeiramente |
prodigal_tf | Path? | Arquivo de treinamento a ser usado para predição de genes |
Saídas
record (
meta: Record,
gff: Path,
gbff: Path,
fna: Path,
faa: Path,
ffn: Path,
sqn: Path,
fsa: Path,
tbl: Path,
txt: Path,
tsv: Path,
blastdb: Path,
results: Set<Path>,
logs: Set<Path?>,
nf_logs: Set<Path>,
versions: Set<Path>
)
| Campo | Tipo | Descrição |
|---|---|---|
meta | Record | Registro com informações da amostra |
gff | Path | Anotação no formato GFF3, contendo tanto sequências quanto anotações |
gbff | Path | Anotação no formato GenBank, contendo tanto sequências quanto anotações |
fna | Path | Arquivo FASTA de nucleotídeos das sequências de contigs de entrada |
faa | Path | Arquivo FASTA de proteínas das sequências CDS traduzidas |
ffn | Path | Arquivo FASTA de nucleotídeos de todos os transcritos preditos (CDS, rRNA, tRNA, tmRNA, misc_RNA) |
sqn | Path | Arquivo no formato ASN1 "Sequin" para submissão ao GenBank |
fsa | Path | Arquivo FASTA de nucleotídeos das sequências de contigs de entrada, utilizado pelo tbl2asn |
tbl | Path | Arquivo de Tabela de Features para submissão ao NCBI |
txt | Path | Estatísticas resumidas relacionadas às features anotadas encontradas |
tsv | Path | Arquivo separado por tabulação de todas as features (locus_tag, ftype, len_bp, gene, EC_number, COG, product) |
blastdb | Path | Um arquivo tar.gz comprimido de bancos de dados BLAST+ dos contigs, genes e proteínas |
results | Set<Path> | Todos os arquivos de saída a serem publicados |
logs | Set<Path?> | Arquivos de log específicos do programa (opcionais) |
nf_logs | Set<Path> | Arquivos de log específicos do Nextflow (ex.: .command.{begin |
versions | Set<Path> | Arquivo formatado em YAML com versões dos programas |
Parâmetros
Parâmetros do Prokka
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
--prokka_proteins | string | ${projectDir}/data/proteins.faa | Arquivo FASTA de proteínas confiáveis para anotar primeiramente |
--prokka_prodigal_tf | string | Arquivo de treinamento a ser usado pelo Prodigal | |
--prokka_compliant | boolean | false | Forçar conformidade com Genbank/ENA/DDJB |
--prokka_centre | string | Bactopia | ID do centro de sequenciamento |
--prokka_coverage | integer | 80 | Cobertura mínima na proteína de consulta |
--prokka_evalue | string | 1e-09 | Limite de e-value para similaridade |
--prokka_opts | string | Opções extras do Prokka entre aspas. | |
--prokka_debug | boolean | false | Ativar modo de depuração para o Prokka |
Usado Por
Subworkflows
- prokka - Anotar genomas bacterianos com informações funcionais.
Workflows
- bactopia - Pipeline abrangente de análise bacteriana para caracterização genômica completa.
- pangenome - Análise de pan-genoma com filogenia opcional do genoma central.
- prokka - Anotação rápida de genoma completo de genomas bacterianos, archaeais e virais.
- staphopia - Pipeline de análise abrangente para isolados de Staphylococcus aureus.
Citações
Se você usar isso em sua análise, por favor cite o seguinte.
-
Bactopia
Petit III RA, Read TD Bactopia - a flexible pipeline for complete analysis of bacterial genomes. mSystems 5 (2020) -
Prokka
Seemann T Prokka: rapid prokaryotic genome annotation Bioinformatics 30, 2068-2069 (2014) -
Aragorn
Laslett D, Canback B ARAGORN, a program to detect tRNA genes and tmRNA genes in nucleotide sequences. Nucleic Acids Res. 32(1):11-6 (2004) -
Barrnap
Seemann T Barrnap: Bacterial ribosomal RNA predictor (GitHub) -
CD-HIT
Li W, Godzik A Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences. Bioinformatics 22, 1658-1659 (2006) -
HMMER
Eddy SR Accelerated Profile HMM Searches. PLoS Comput. Biol. 7, e1002195 (2011) -
Infernal
Nawrocki EP, Eddy SR Infernal 1.1: 100-fold faster RNA homology searches. Bioinformatics 29(22), 2933-2935 (2013) -
MinCED
Skennerton C MinCED: Mining CRISPRs in Environmental Datasets (GitHub) -
nhmmer
Wheeler TJ, Eddy SR nhmmer: DNA homology search with profile HMMs. Bioinformatics 29, 2487-2489 (2013) -
Prodigal
Hyatt D, Chen G-L, LoCascio PF, Land ML, Larimer FW, Hauser LJ Prodigal: prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics 11.1 119 (2010) -
RNAmmer
Lagesen K, Hallin P, Rødland EA, Stærfeldt H-H, Rognes T, Ussery DW RNAmmer: consistent annotation of rRNA genes in genomic sequences. Nucleic Acids Res 35.9: 3100-3108 (2007) -
SignalP
Petersen TN, Brunak S, von Heijne G, Nielsen H SignalP 4.0: discriminating signal peptides from transmembrane regions. Nature methods 8.10: 785 (2011)
Fonte
Versão
PROKKA:
- prokka: 1.15.6