Pular para o conteúdo principal

bakta_run

Tags: bacteria annotation genome assembly prodigal compliant genbank ena sample-scope

Anotação rápida e padronizada de genomas bacterianos e plasmídeos.

Utiliza o Bakta para anotar genomas por meio de identificação de sequências sem alinhamento. Detecta CDS, sORFs, tRNAs, tmRNAs, rRNAs, ncRNAs e arranjos CRISPR, atribuindo funções a partir de um banco de dados abrangente.

Banco de Dados Necessário

Requer um banco de dados do Bakta (diretório ou tarball) disponível.

Entradas

record (
meta: Record,
fna: Path
)
CampoTipoDescrição
metaRecordRegistro Groovy contendo informações da amostra
fnaPathContigs montados no formato FASTA
db: Path
proteins: Path?
prodigal_tf: Path?
replicons: Path?
NomeTipoDescrição
dbPathCaminho para o banco de dados do Bakta (diretório ou tarball comprimido)
proteinsPath?Arquivo FASTA de proteínas confiáveis para usar na anotação de primeira passagem
prodigal_tfPath?Arquivo de treinamento do Prodigal para predição de CDS
repliconsPath?Tabela (TSV/CSV) com informações de replicons para detecção de origem

Saídas

record (
meta: Record,
blastdb: Path,
faa: Path,
ffn: Path,
fna: Path,
gbff: Path,
gff: Path,
hypotheticals_tsv: Path,
hypotheticals_faa: Path,
inference_tsv: Path,
json: Path,
png: Path,
svg: Path,
tsv: Path,
txt: Path,
results: Set<Path>,
logs: Set<Path?>,
nf_logs: Set<Path>,
versions: Set<Path>
)
CampoTipoDescrição
metaRecordRegistro com informações da amostra
blastdbPathArquivo comprimido tar.gz com bancos de dados BLAST+ dos contigs, genes e proteínas
faaPathSequências de aminoácidos de CDS/sORF no formato FASTA
ffnPathSequências nucleotídicas de features no formato FASTA
fnaPathSequências de DNA de replicons/contigs no formato FASTA
gbffPathAnotações e sequências no formato GenBank
gffPathAnotações e sequências no formato GFF3
hypotheticals_tsvPathInformações adicionais sobre CDS de proteínas hipotéticas em valores separados por tabulação
hypotheticals_faaPathSequências de aminoácidos de CDS de proteínas hipotéticas no formato FASTA
inference_tsvPathEvidências detalhadas de anotação e informações de hits no banco de dados
jsonPathAnotações e metadados legíveis por máquina no formato JSON
pngPathGráfico circular do genoma como imagem PNG
svgPathGráfico circular do genoma como imagem SVG
tsvPathAnotações em formato simples de valores separados por tabulação, legível por humanos
txtPathResumo geral das anotações do Bakta
resultsSet<Path>Todos os arquivos de saída a serem publicados
logsSet<Path?>Arquivos de log opcionais específicos do programa
nf_logsSet<Path>Arquivos de log específicos do Nextflow (ex.: .command.{begin
versionsSet<Path>Arquivo no formato YAML com as versões dos programas

Parâmetros

Parâmetros do Bakta

ParâmetroTipoPadrãoDescrição
--bakta_proteinsstringArquivo FASTA de proteínas confiáveis para anotar primeiro
--bakta_prodigal_tfstringArquivo de treinamento a ser usado pelo Prodigal
--bakta_repliconsstringTabela de informações de replicons (tsv/csv)
--bakta_min_contig_lengthinteger1Tamanho mínimo de contig para anotar
--bakta_keep_contig_headersbooleanfalseManter os cabeçalhos originais dos contigs
--bakta_compliantbooleanfalseForçar conformidade com Genbank/ENA/DDJB
--bakta_skip_trnabooleanfalseIgnorar detecção e anotação de tRNA
--bakta_skip_tmrnabooleanfalseIgnorar detecção e anotação de tmRNA
--bakta_skip_rrnabooleanfalseIgnorar detecção e anotação de rRNA
--bakta_skip_ncrnabooleanfalseIgnorar detecção e anotação de ncRNA
--bakta_skip_ncrna_regionbooleanfalseIgnorar detecção e anotação de regiões ncRNA
--bakta_skip_crisprbooleanfalseIgnorar detecção e anotação de arranjos CRISPR
--bakta_skip_cdsbooleanfalseIgnorar detecção e anotação de CDS
--bakta_skip_sorfbooleanfalseIgnorar detecção e anotação de sORF
--bakta_skip_gapbooleanfalseIgnorar detecção e anotação de gaps
--bakta_skip_oribooleanfalseIgnorar detecção e anotação de oriC/oriT
--bakta_optsstringOpções extras do Bakta entre aspas. Exemplo: '--gram +'

Usado Por

Subworkflows

  • bakta - Anotação rápida de genomas bacterianos.

Workflows

  • bactopia - Pipeline abrangente de análise bacteriana para caracterização genômica completa.
  • bakta - Anotação rápida de genomas bacterianos e plasmídeos.
  • staphopia - Pipeline de análise abrangente para isolados de Staphylococcus aureus.

Citações

Se você usar esta ferramenta em sua análise, por favor cite os seguintes trabalhos.

Fonte

Ver código-fonte no GitHub

Versão

BAKTA_RUN:
- bakta: 1.12.0