prokka

Tags: prokka annotation prokaryotic bacteria genbank gff sample-scope

Anotar genomas procarióticos.

Utiliza o Prokka para anotar rapidamente genomas bacterianos, archaeais e virais, produzindo arquivos de saída compatíveis com padrões, incluindo GFF3, GenBank e Sequin.

Entradas

record (
    meta: Record,
    fna: Path
)

Campo	Tipo	Descrição
`meta`	`Record`	Registro Groovy contendo informações da amostra
`fna`	`Path`	Contigs montados no formato FASTA

proteins: Path?
prodigal_tf: Path?

Nome	Tipo	Descrição
`proteins`	`Path?`	Arquivo FASTA de proteínas confiáveis para anotar primeiramente
`prodigal_tf`	`Path?`	Arquivo de treinamento a ser usado para predição de genes

Saídas

record (
    meta: Record,
    gff: Path,
    gbff: Path,
    fna: Path,
    faa: Path,
    ffn: Path,
    sqn: Path,
    fsa: Path,
    tbl: Path,
    txt: Path,
    tsv: Path,
    blastdb: Path,
    results: Set<Path>,
    logs: Set<Path?>,
    nf_logs: Set<Path>,
    versions: Set<Path>
)

Campo	Tipo	Descrição
`meta`	`Record`	Registro com informações da amostra
`gff`	`Path`	Anotação no formato GFF3, contendo tanto sequências quanto anotações
`gbff`	`Path`	Anotação no formato GenBank, contendo tanto sequências quanto anotações
`fna`	`Path`	Arquivo FASTA de nucleotídeos das sequências de contigs de entrada
`faa`	`Path`	Arquivo FASTA de proteínas das sequências CDS traduzidas
`ffn`	`Path`	Arquivo FASTA de nucleotídeos de todos os transcritos preditos (CDS, rRNA, tRNA, tmRNA, misc_RNA)
`sqn`	`Path`	Arquivo no formato ASN1 "Sequin" para submissão ao GenBank
`fsa`	`Path`	Arquivo FASTA de nucleotídeos das sequências de contigs de entrada, utilizado pelo tbl2asn
`tbl`	`Path`	Arquivo de Tabela de Features para submissão ao NCBI
`txt`	`Path`	Estatísticas resumidas relacionadas às features anotadas encontradas
`tsv`	`Path`	Arquivo separado por tabulação de todas as features (locus_tag, ftype, len_bp, gene, EC_number, COG, product)
`blastdb`	`Path`	Um arquivo tar.gz comprimido de bancos de dados BLAST+ dos contigs, genes e proteínas
`results`	`Set<Path>`	Todos os arquivos de saída a serem publicados
`logs`	`Set<Path?>`	Arquivos de log específicos do programa (opcionais)
`nf_logs`	`Set<Path>`	Arquivos de log específicos do Nextflow (ex.: .command.{begin
`versions`	`Set<Path>`	Arquivo formatado em YAML com versões dos programas

Parâmetros

Parâmetros do Prokka

Parâmetro	Tipo	Padrão	Descrição
`--prokka_proteins`	string	`${projectDir}/data/proteins.faa`	Arquivo FASTA de proteínas confiáveis para anotar primeiramente
`--prokka_prodigal_tf`	string		Arquivo de treinamento a ser usado pelo Prodigal
`--prokka_compliant`	boolean	`false`	Forçar conformidade com Genbank/ENA/DDJB
`--prokka_centre`	string	`Bactopia`	ID do centro de sequenciamento
`--prokka_coverage`	integer	`80`	Cobertura mínima na proteína de consulta
`--prokka_evalue`	string	`1e-09`	Limite de e-value para similaridade
`--prokka_opts`	string		Opções extras do Prokka entre aspas.
`--prokka_debug`	boolean	`false`	Ativar modo de depuração para o Prokka

Usado Por

Subworkflows

prokka - Anotar genomas bacterianos com informações funcionais.

Workflows

bactopia - Pipeline abrangente de análise bacteriana para caracterização genômica completa.
pangenome - Análise de pan-genoma com filogenia opcional do genoma central.
prokka - Anotação rápida de genoma completo de genomas bacterianos, archaeais e virais.
staphopia - Pipeline de análise abrangente para isolados de Staphylococcus aureus.

Citações

Se você usar isso em sua análise, por favor cite o seguinte.

Bactopia
Petit III RA, Read TD Bactopia - a flexible pipeline for complete analysis of bacterial genomes. mSystems 5 (2020)
Prokka
Seemann T Prokka: rapid prokaryotic genome annotation Bioinformatics 30, 2068-2069 (2014)
Aragorn
Laslett D, Canback B ARAGORN, a program to detect tRNA genes and tmRNA genes in nucleotide sequences. Nucleic Acids Res. 32(1):11-6 (2004)
Barrnap
Seemann T Barrnap: Bacterial ribosomal RNA predictor (GitHub)
CD-HIT
Li W, Godzik A Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences. Bioinformatics 22, 1658-1659 (2006)
HMMER
Eddy SR Accelerated Profile HMM Searches. PLoS Comput. Biol. 7, e1002195 (2011)
Infernal
Nawrocki EP, Eddy SR Infernal 1.1: 100-fold faster RNA homology searches. Bioinformatics 29(22), 2933-2935 (2013)
MinCED
Skennerton C MinCED: Mining CRISPRs in Environmental Datasets (GitHub)
nhmmer
Wheeler TJ, Eddy SR nhmmer: DNA homology search with profile HMMs. Bioinformatics 29, 2487-2489 (2013)
Prodigal
Hyatt D, Chen G-L, LoCascio PF, Land ML, Larimer FW, Hauser LJ Prodigal: prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics 11.1 119 (2010)
RNAmmer
Lagesen K, Hallin P, Rødland EA, Stærfeldt H-H, Rognes T, Ussery DW RNAmmer: consistent annotation of rRNA genes in genomic sequences. Nucleic Acids Res 35.9: 3100-3108 (2007)
SignalP
Petersen TN, Brunak S, von Heijne G, Nielsen H SignalP 4.0: discriminating signal peptides from transmembrane regions. Nature methods 8.10: 785 (2011)

Fonte

Ver fonte no GitHub

Versão

PROKKA:
    - prokka: 1.15.6

Entradas​

Saídas​

Parâmetros​

Parâmetros do Prokka​

Usado Por​

Subworkflows​

Workflows​

Citações​

Fonte​

Versão​