Pular para o conteúdo principal

bakta

Tags: bacteria annotation genome functional-annotation taxonomy sample-scope

Anotação rápida de genomas bacterianos.

Este subworkflow usa o Bakta para fornecer anotação rápida e abrangente de genomas bacterianos. Ele pode baixar e preparar o banco de dados do Bakta sob demanda ou usar um banco de dados já existente. O fluxo de trabalho processa cada amostra individualmente, produzindo múltiplos formatos de saída, incluindo GFF3, GenBank, sequências de proteínas, sequências de nucleotídeos e um banco de dados BLAST.

Take

assembly: Channel<Record>
CampoDescrição
metaRegistro Groovy contendo informações da amostra
assemblyContigs montados no formato FASTA
database: Path?
download_bakta: Boolean
save_as_tarball: Boolean
proteins: Path?
prodigal_tf: Path?
replicons: Path?
NomeTipoDescrição
databasePath?Caminho opcional para um banco de dados Bakta já existente
download_baktaBooleanFlag booleano para acionar o download automático do banco de dados
save_as_tarballBooleanFlag booleano para salvar o banco de dados baixado como tarball
proteinsPath?Sequências de proteínas confiáveis opcionais para busca por homologia
prodigal_tfPath?Arquivo de treinamento do Prodigal opcional para melhorar a predição de genes
repliconsPath?Sequências de réplicons opcionais para identificação de plasmídeos

Emit

Publicados

As emissões sample_outputs e run_outputs são agregados de arquivos de saída que serão publicados no fluxo de trabalho de entrada.

sample_outputs

SaídaDescrição
emblAnotações e sequências no formato EMBL
faaSequências de aminoácidos de CDS/sORF no formato FASTA
ffnSequências de nucleotídeos de features no formato FASTA
fnaSequências de DNA de réplicons/contigs no formato FASTA
gbffAnotações e sequências no formato GenBank
gffAnotações e sequências no formato GFF3
hypotheticals_tsvInformações adicionais sobre CDS de proteínas hipotéticas em valores separados por tabulação
hypotheticals_faaSequências de aminoácidos de CDS de proteínas hipotéticas no formato FASTA
tsvAnotações em valores separados por tabulação simples e legíveis por humanos
txtResumo geral das anotações do Bakta
blastdbArquivo compactado tar.gz com bancos de dados BLAST+ dos contigs, genes e proteínas

run_outputs

Sem saídas no escopo de execução.

Entradas para Etapas Subsequentes

As emissões a seguir são destinadas a serem usadas como entradas para subworkflows subsequentes.

annotations

SaídaDescrição
fnaSequências de nucleotídeos anotadas no formato FASTA
faaSequências de proteínas no formato FASTA
gffAnotações no formato GFF3

Composição de Módulos

Este subworkflow chama os seguintes módulos:

  • bakta_download - Faz o download do banco de dados de anotação do Bakta.
  • bakta_run - Anotação rápida e padronizada de genomas bacterianos e plasmídeos.

Usado Por

Este subworkflow é utilizado pelos seguintes fluxos de trabalho:

  • bactopia - Pipeline abrangente de análise bacteriana para caracterização genômica completa.
  • bakta - Anotação rápida de genomas bacterianos e plasmídeos.
  • staphopia - Pipeline abrangente de análise para isolados de Staphylococcus aureus.

Citações

Se você usar este subworkflow em sua análise, por favor cite o seguinte.

Fonte

Ver fonte no GitHub