Pular para o conteúdo principal

bakta

Tags: bacteria fasta annotation genbank gff proteins bactopia-tool

Anotação rápida de genomas bacterianos e plasmídeos.

Esta Bactopia Tool usa o Bakta para anotar rapidamente genomas bacterianos e plasmídeos de forma padronizada. O Bakta utiliza um grande banco de dados (mais de 40 GB) para fornecer anotações abrangentes, incluindo: tRNA, tmRNA, rRNA, ncRNA, CRISPR, CDS e sORFs.

Uso

Bactopia CLI:

bactopia --wf bakta \
--bactopia /path/to/your/bactopia/results

Nextflow:

nextflow run bactopia/bactopia/workflows/bactopia-tools/bakta/main.nf \
--bactopia /path/to/your/bactopia/results

Saídas

Arquivos de Saída Esperados

<BACTOPIA_DIR>
├── <SAMPLE_NAME>
│ └── main
│ └── annotator
│ └── bakta-<TIMESTAMP>
│ ├── <SAMPLE_NAME>-blastdb.tar.gz
│ ├── <SAMPLE_NAME>.embl.gz
│ ├── <SAMPLE_NAME>.faa.gz
│ ├── <SAMPLE_NAME>.ffn.gz
│ ├── <SAMPLE_NAME>.fna.gz
│ ├── <SAMPLE_NAME>.gbff.gz
│ ├── <SAMPLE_NAME>.gff3.gz
│ ├── <SAMPLE_NAME>.hypotheticals.faa.gz
│ ├── <SAMPLE_NAME>.hypotheticals.tsv
│ ├── <SAMPLE_NAME>.inference.tsv
│ ├── <SAMPLE_NAME>.json.gz
│ ├── <SAMPLE_NAME>.png
│ ├── <SAMPLE_NAME>.svg.gz
│ ├── <SAMPLE_NAME>.tsv
│ ├── <SAMPLE_NAME>.txt
│ └── logs
│ ├── <SAMPLE_NAME>.log
│ ├── nf.command.{begin,err,log,out,run,sh,trace}
│ └── versions.yml
└── bactopia-runs
└── bakta-<TIMESTAMP>
└── nf-reports
├── bakta-dag.dot
├── bakta-report.html
└── bakta-timeline.html

Anotação

ArquivoDescrição
*.gff3Anotação do genoma no formato GFF3
*.gbffAnotação do genoma no formato GenBank
*.faaSequências de proteínas no formato FASTA
*.ffnSequências de nucleotídeos de features
*.fnaSequências de nucleotídeos de todas as features
*.hypotheticals.tsvLista de proteínas hipotéticas
*.tsvResumo da anotação no formato TSV
*.txtRelatório detalhado da anotação

Trilha de Auditoria

Abaixo estão os arquivos que podem ajudar a entender quais parâmetros e versões de programas foram utilizados.

Logs

Cada processo executado terá uma pasta chamada logs. Nessa pasta há arquivos úteis para consulta caso necessário.

ExtensãoDescrição
.beginArquivo vazio usado para indicar que o processo foi iniciado
.errContém as saídas STDERR do processo
.logContém as saídas STDERR e STDOUT do processo
.outContém as saídas STDOUT do processo
.runO script que o Nextflow usa para preparar/remover arquivos e enfileirar processos com base no perfil definido
.shO script executado pelo bash para o processo
.traceO relatório de rastreamento do Nextflow para o processo
versions.ymlUm arquivo no formato YAML com as versões dos programas

Relatórios do Nextflow

Esses relatórios do Nextflow fornecem um ótimo resumo da sua execução. Podem ser usados para otimizar o uso de recursos e estimar custos esperados ao utilizar plataformas em nuvem.

ArquivoDescrição
bakta-dag.dotA visualização DAG do Nextflow
bakta-report.htmlO Relatório de Execução do Nextflow
bakta-timeline.htmlO Relatório de Linha do Tempo do Nextflow
bakta-trace.txtO relatório de Rastreamento do Nextflow

Parâmetros

Parâmetros Obrigatórios

Define onde o pipeline deve encontrar os dados de entrada e salvar os dados de saída.

ParâmetroTipoPadrãoDescrição
--bactopiastringO caminho para os resultados do Bactopia a serem usados como entradas

Parâmetros de Download do Bakta

ParâmetroTipoPadrãoDescrição
--bakta_dbstringTarball ou caminho para o banco de dados do Bakta
--bakta_db_typestringfullQual banco de dados do Bakta baixar: 'full' (~30GB) ou 'light' (~2GB) (opções: full, light)
--bakta_save_as_tarballbooleanfalseSalvar o banco de dados do Bakta como um tarball
--download_baktabooleanfalseBaixar o banco de dados do Bakta para o caminho definido por --bakta_db

Parâmetros do Bakta

ParâmetroTipoPadrãoDescrição
--bakta_proteinsstringArquivo FASTA de proteínas confiáveis para anotar primeiro
--bakta_prodigal_tfstringArquivo de treinamento a ser usado pelo Prodigal
--bakta_repliconsstringTabela de informações de replicons (tsv/csv)
--bakta_min_contig_lengthinteger1Tamanho mínimo de contig para anotar
--bakta_keep_contig_headersbooleanfalseManter os cabeçalhos originais dos contigs
--bakta_compliantbooleanfalseForçar conformidade com Genbank/ENA/DDJB
--bakta_skip_trnabooleanfalseIgnorar detecção e anotação de tRNA
--bakta_skip_tmrnabooleanfalseIgnorar detecção e anotação de tmRNA
--bakta_skip_rrnabooleanfalseIgnorar detecção e anotação de rRNA
--bakta_skip_ncrnabooleanfalseIgnorar detecção e anotação de ncRNA
--bakta_skip_ncrna_regionbooleanfalseIgnorar detecção e anotação de regiões ncRNA
--bakta_skip_crisprbooleanfalseIgnorar detecção e anotação de arrays CRISPR
--bakta_skip_cdsbooleanfalseIgnorar detecção e anotação de CDS
--bakta_skip_sorfbooleanfalseIgnorar detecção e anotação de sORF
--bakta_skip_gapbooleanfalseIgnorar detecção e anotação de gaps
--bakta_skip_oribooleanfalseIgnorar detecção e anotação de oriC/oriT
--bakta_optsstringOpções extras do Bakta entre aspas. Exemplo: '--gram +'
Parâmetros de Filtragem

Use estes parâmetros para especificar quais amostras incluir ou excluir.

ParâmetroTipoPadrãoDescrição
--includestringUm arquivo de texto contendo nomes de amostras (um por linha) a incluir na análise
--excludestringUm arquivo de texto contendo nomes de amostras (um por linha) a excluir da análise
Parâmetros Opcionais

Estes parâmetros opcionais podem ser úteis em determinadas situações.

ParâmetroTipoPadrãoDescrição
--outdirstringbactopiaDiretório base para salvar os resultados
--skip_compressionbooleanfalseOs arquivos de saída não serão comprimidos
--datasetsstringO caminho para armazenar em cache os datasets
--keep_all_filesbooleanfalseMantém todos os arquivos de análise criados
Parâmetros de Limite Máximo de Jobs

Define o limite máximo de recursos solicitados para qualquer job individual.

ParâmetroTipoPadrãoDescrição
--max_retryinteger3Número máximo de tentativas de um processo antes de permitir que ele falhe.
--max_cpusinteger4Número máximo de CPUs que podem ser solicitadas para qualquer job individual.
--max_memorystring128.GBQuantidade máxima de memória que pode ser solicitada para qualquer job individual.
--max_timestring240.hTempo máximo que pode ser solicitado para qualquer job individual.
--max_downloadsinteger3Número máximo de amostras para baixar simultaneamente
Parâmetros de Configuração do Nextflow

Parâmetros para ajustar a configuração do Nextflow.

ParâmetroTipoPadrãoDescrição
--nfconfigstringUm arquivo de configuração compatível com Nextflow para perfis personalizados, carregado por último e que sobrescreverá variáveis existentes se definido.
--publish_dir_modestringcopyMétodo usado para salvar os resultados do pipeline no diretório de saída. (opções: symlink, rellink, link, copy, copyNoFollow, move)
--infodirstring${params.outdir}/pipeline_infoDiretório para manter os logs e relatórios do Nextflow do pipeline.
--forcebooleanfalseO Nextflow sobrescreverá arquivos de saída existentes.
--cleanup_workdirbooleanfalseApós a execução bem-sucedida do Bactopia, o diretório work será excluído.
Opções de configuração institucional

Parâmetros usados para descrever perfis de configuração centralizados. Estes não devem ser editados.

ParâmetroTipoPadrãoDescrição
--custom_config_versionstringmasterID de commit Git para configurações institucionais.
--custom_config_basestringhttps://raw.githubusercontent.com/nf-core/configs/masterDiretório base para configurações institucionais.
--config_profile_namestringNome da configuração institucional.
--config_profile_descriptionstringDescrição da configuração institucional.
--config_profile_contactstringInformações de contato da configuração institucional.
--config_profile_urlstringLink de URL da configuração institucional.
Parâmetros de Perfil do Nextflow

Parâmetros para ajustar a configuração do Nextflow.

ParâmetroTipoPadrãoDescrição
--condadirstringDiretório que o Nextflow deve usar para ambientes Conda
--registrystringquay.ioRegistro para baixar containers Docker.
--datasets_cachestring<HOME>/.bactopia/datasetsDiretório onde os datasets baixados devem ser armazenados.
--singularity_cachestringDiretório onde as imagens Singularity remotas são armazenadas.
--singularity_pull_docker_containerbooleanEm vez de baixar imagens Singularity diretamente, forçar o fluxo de trabalho a baixar e converter containers Docker.
--force_rebuildbooleanfalseForçar a sobrescrita de ambientes pré-construídos existentes.
--queuestringgeneral,high-memoryNome(s) de fila(s) separados por vírgula a serem usados por um agendador de jobs (ex.: AWS Batch ou SLURM)
--cluster_optsstringOpções adicionais para passar ao executor. (ex.: SLURM: '--account=my_acct_name'
--container_optsstringOpções adicionais para passar ao Apptainer, Docker ou Singularity. (ex.: Singularity: '-D pwd'
--disable_scratchbooleanfalseTodos os arquivos intermediários criados nos nós de trabalho serão transferidos para o nó principal.
Parâmetros Úteis

Parâmetros pouco utilizados que podem ser úteis.

ParâmetroTipoPadrãoDescrição
--monochrome_logsbooleanNão usar saídas de log coloridas.
--nfdirbooleanExibir o diretório para o qual o Nextflow baixou o Bactopia
--sleep_timeinteger5O tempo (em segundos) que o Nextflow aguardará após configurar os datasets antes da execução.
--validate_paramsbooleantrueDefine se os parâmetros devem ser validados em relação ao schema em tempo de execução
--helpbooleanExibir texto de ajuda.
--wfstringbactopiaEspecifica qual fluxo de trabalho ou Bactopia Tool executar
--list_wfsbooleanListar os fluxos de trabalho e Bactopia Tools disponíveis para uso com '--wf'
--show_hidden_paramsbooleanMostrar todos os parâmetros ao usar --help
--help_allbooleanUm alias para --help --show_hidden_params
--versionbooleanExibir texto da versão.

Composição

Este fluxo de trabalho usa os seguintes subworkflows:

  • bakta - Anotação rápida de genomas bacterianos.

Citações

Se você usar isso em sua análise, cite o seguinte.

Fonte

Ver fonte no GitHub