bakta
Tags: bacteria fasta annotation genbank gff proteins bactopia-tool
Anotação rápida de genomas bacterianos e plasmídeos.
Esta Bactopia Tool usa o Bakta para anotar rapidamente genomas bacterianos e plasmídeos de forma padronizada. O Bakta utiliza um grande banco de dados (mais de 40 GB) para fornecer anotações abrangentes, incluindo: tRNA, tmRNA, rRNA, ncRNA, CRISPR, CDS e sORFs.
Uso
Bactopia CLI:
bactopia --wf bakta \
--bactopia /path/to/your/bactopia/results
Nextflow:
nextflow run bactopia/bactopia/workflows/bactopia-tools/bakta/main.nf \
--bactopia /path/to/your/bactopia/results
Saídas
Arquivos de Saída Esperados
<BACTOPIA_DIR>
├── <SAMPLE_NAME>
│ └── main
│ └── annotator
│ └── bakta-<TIMESTAMP>
│ ├── <SAMPLE_NAME>-blastdb.tar.gz
│ ├── <SAMPLE_NAME>.embl.gz
│ ├── <SAMPLE_NAME>.faa.gz
│ ├── <SAMPLE_NAME>.ffn.gz
│ ├── <SAMPLE_NAME>.fna.gz
│ ├── <SAMPLE_NAME>.gbff.gz
│ ├── <SAMPLE_NAME>.gff3.gz
│ ├── <SAMPLE_NAME>.hypotheticals.faa.gz
│ ├── <SAMPLE_NAME>.hypotheticals.tsv
│ ├── <SAMPLE_NAME>.inference.tsv
│ ├── <SAMPLE_NAME>.json.gz
│ ├── <SAMPLE_NAME>.png
│ ├── <SAMPLE_NAME>.svg.gz
│ ├── <SAMPLE_NAME>.tsv
│ ├── <SAMPLE_NAME>.txt
│ └── logs
│ ├── <SAMPLE_NAME>.log
│ ├── nf.command.{begin,err,log,out,run,sh,trace}
│ └── versions.yml
└── bactopia-runs
└── bakta-<TIMESTAMP>
└── nf-reports
├── bakta-dag.dot
├── bakta-report.html
└── bakta-timeline.html
Anotação
| Arquivo | Descrição |
|---|---|
*.gff3 | Anotação do genoma no formato GFF3 |
*.gbff | Anotação do genoma no formato GenBank |
*.faa | Sequências de proteínas no formato FASTA |
*.ffn | Sequências de nucleotídeos de features |
*.fna | Sequências de nucleotídeos de todas as features |
*.hypotheticals.tsv | Lista de proteínas hipotéticas |
*.tsv | Resumo da anotação no formato TSV |
*.txt | Relatório detalhado da anotação |
Trilha de Auditoria
Abaixo estão os arquivos que podem ajudar a entender quais parâmetros e versões de programas foram utilizados.
Logs
Cada processo executado terá uma pasta chamada logs. Nessa pasta há arquivos úteis
para consulta caso necessário.
| Extensão | Descrição |
|---|---|
| .begin | Arquivo vazio usado para indicar que o processo foi iniciado |
| .err | Contém as saídas STDERR do processo |
| .log | Contém as saídas STDERR e STDOUT do processo |
| .out | Contém as saídas STDOUT do processo |
| .run | O script que o Nextflow usa para preparar/remover arquivos e enfileirar processos com base no perfil definido |
| .sh | O script executado pelo bash para o processo |
| .trace | O relatório de rastreamento do Nextflow para o processo |
| versions.yml | Um arquivo no formato YAML com as versões dos programas |
Relatórios do Nextflow
Esses relatórios do Nextflow fornecem um ótimo resumo da sua execução. Podem ser usados para otimizar o uso de recursos e estimar custos esperados ao utilizar plataformas em nuvem.
| Arquivo | Descrição |
|---|---|
| bakta-dag.dot | A visualização DAG do Nextflow |
| bakta-report.html | O Relatório de Execução do Nextflow |
| bakta-timeline.html | O Relatório de Linha do Tempo do Nextflow |
| bakta-trace.txt | O relatório de Rastreamento do Nextflow |
Parâmetros
Parâmetros Obrigatórios
Define onde o pipeline deve encontrar os dados de entrada e salvar os dados de saída.
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
--bactopia | string | O caminho para os resultados do Bactopia a serem usados como entradas |
Parâmetros de Download do Bakta
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
--bakta_db | string | Tarball ou caminho para o banco de dados do Bakta | |
--bakta_db_type | string | full | Qual banco de dados do Bakta baixar: 'full' (~30GB) ou 'light' (~2GB) (opções: full, light) |
--bakta_save_as_tarball | boolean | false | Salvar o banco de dados do Bakta como um tarball |
--download_bakta | boolean | false | Baixar o banco de dados do Bakta para o caminho definido por --bakta_db |
Parâmetros do Bakta
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
--bakta_proteins | string | Arquivo FASTA de proteínas confiáveis para anotar primeiro | |
--bakta_prodigal_tf | string | Arquivo de treinamento a ser usado pelo Prodigal | |
--bakta_replicons | string | Tabela de informações de replicons (tsv/csv) | |
--bakta_min_contig_length | integer | 1 | Tamanho mínimo de contig para anotar |
--bakta_keep_contig_headers | boolean | false | Manter os cabeçalhos originais dos contigs |
--bakta_compliant | boolean | false | Forçar conformidade com Genbank/ENA/DDJB |
--bakta_skip_trna | boolean | false | Ignorar detecção e anotação de tRNA |
--bakta_skip_tmrna | boolean | false | Ignorar detecção e anotação de tmRNA |
--bakta_skip_rrna | boolean | false | Ignorar detecção e anotação de rRNA |
--bakta_skip_ncrna | boolean | false | Ignorar detecção e anotação de ncRNA |
--bakta_skip_ncrna_region | boolean | false | Ignorar detecção e anotação de regiões ncRNA |
--bakta_skip_crispr | boolean | false | Ignorar detecção e anotação de arrays CRISPR |
--bakta_skip_cds | boolean | false | Ignorar detecção e anotação de CDS |
--bakta_skip_sorf | boolean | false | Ignorar detecção e anotação de sORF |
--bakta_skip_gap | boolean | false | Ignorar detecção e anotação de gaps |
--bakta_skip_ori | boolean | false | Ignorar detecção e anotação de oriC/oriT |
--bakta_opts | string | Opções extras do Bakta entre aspas. Exemplo: '--gram +' |
Parâmetros de Filtragem
Use estes parâmetros para especificar quais amostras incluir ou excluir.
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
--include | string | Um arquivo de texto contendo nomes de amostras (um por linha) a incluir na análise | |
--exclude | string | Um arquivo de texto contendo nomes de amostras (um por linha) a excluir da análise |
Parâmetros Opcionais
Estes parâmetros opcionais podem ser úteis em determinadas situações.
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
--outdir | string | bactopia | Diretório base para salvar os resultados |
--skip_compression | boolean | false | Os arquivos de saída não serão comprimidos |
--datasets | string | O caminho para armazenar em cache os datasets | |
--keep_all_files | boolean | false | Mantém todos os arquivos de análise criados |
Parâmetros de Limite Máximo de Jobs
Define o limite máximo de recursos solicitados para qualquer job individual.
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
--max_retry | integer | 3 | Número máximo de tentativas de um processo antes de permitir que ele falhe. |
--max_cpus | integer | 4 | Número máximo de CPUs que podem ser solicitadas para qualquer job individual. |
--max_memory | string | 128.GB | Quantidade máxima de memória que pode ser solicitada para qualquer job individual. |
--max_time | string | 240.h | Tempo máximo que pode ser solicitado para qualquer job individual. |
--max_downloads | integer | 3 | Número máximo de amostras para baixar simultaneamente |
Parâmetros de Configuração do Nextflow
Parâmetros para ajustar a configuração do Nextflow.
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
--nfconfig | string | Um arquivo de configuração compatível com Nextflow para perfis personalizados, carregado por último e que sobrescreverá variáveis existentes se definido. | |
--publish_dir_mode | string | copy | Método usado para salvar os resultados do pipeline no diretório de saída. (opções: symlink, rellink, link, copy, copyNoFollow, move) |
--infodir | string | ${params.outdir}/pipeline_info | Diretório para manter os logs e relatórios do Nextflow do pipeline. |
--force | boolean | false | O Nextflow sobrescreverá arquivos de saída existentes. |
--cleanup_workdir | boolean | false | Após a execução bem-sucedida do Bactopia, o diretório work será excluído. |
Opções de configuração institucional
Parâmetros usados para descrever perfis de configuração centralizados. Estes não devem ser editados.
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
--custom_config_version | string | master | ID de commit Git para configurações institucionais. |
--custom_config_base | string | https://raw.githubusercontent.com/nf-core/configs/master | Diretório base para configurações institucionais. |
--config_profile_name | string | Nome da configuração institucional. | |
--config_profile_description | string | Descrição da configuração institucional. | |
--config_profile_contact | string | Informações de contato da configuração institucional. | |
--config_profile_url | string | Link de URL da configuração institucional. |
Parâmetros de Perfil do Nextflow
Parâmetros para ajustar a configuração do Nextflow.
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
--condadir | string | Diretório que o Nextflow deve usar para ambientes Conda | |
--registry | string | quay.io | Registro para baixar containers Docker. |
--datasets_cache | string | <HOME>/.bactopia/datasets | Diretório onde os datasets baixados devem ser armazenados. |
--singularity_cache | string | Diretório onde as imagens Singularity remotas são armazenadas. | |
--singularity_pull_docker_container | boolean | Em vez de baixar imagens Singularity diretamente, forçar o fluxo de trabalho a baixar e converter containers Docker. | |
--force_rebuild | boolean | false | Forçar a sobrescrita de ambientes pré-construídos existentes. |
--queue | string | general,high-memory | Nome(s) de fila(s) separados por vírgula a serem usados por um agendador de jobs (ex.: AWS Batch ou SLURM) |
--cluster_opts | string | Opções adicionais para passar ao executor. (ex.: SLURM: '--account=my_acct_name' | |
--container_opts | string | Opções adicionais para passar ao Apptainer, Docker ou Singularity. (ex.: Singularity: '-D pwd' | |
--disable_scratch | boolean | false | Todos os arquivos intermediários criados nos nós de trabalho serão transferidos para o nó principal. |
Parâmetros Úteis
Parâmetros pouco utilizados que podem ser úteis.
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
--monochrome_logs | boolean | Não usar saídas de log coloridas. | |
--nfdir | boolean | Exibir o diretório para o qual o Nextflow baixou o Bactopia | |
--sleep_time | integer | 5 | O tempo (em segundos) que o Nextflow aguardará após configurar os datasets antes da execução. |
--validate_params | boolean | true | Define se os parâmetros devem ser validados em relação ao schema em tempo de execução |
--help | boolean | Exibir texto de ajuda. | |
--wf | string | bactopia | Especifica qual fluxo de trabalho ou Bactopia Tool executar |
--list_wfs | boolean | Listar os fluxos de trabalho e Bactopia Tools disponíveis para uso com '--wf' | |
--show_hidden_params | boolean | Mostrar todos os parâmetros ao usar --help | |
--help_all | boolean | Um alias para --help --show_hidden_params | |
--version | boolean | Exibir texto da versão. |
Composição
Este fluxo de trabalho usa os seguintes subworkflows:
- bakta - Anotação rápida de genomas bacterianos.
Citações
Se você usar isso em sua análise, cite o seguinte.
-
Bactopia
Petit III RA, Read TD Bactopia - a flexible pipeline for complete analysis of bacterial genomes. mSystems 5 (2020) -
Bakta
Schwengers O, Jelonek L, Dieckmann MA, Beyvers S, Blom J, Goesmann A Bakta - rapid and standardized annotation of bacterial genomes via alignment-free sequence identification. Microbial Genomics 7(11) (2021)