bracken

Tags: metagenomics classification abundance kraken2 bracken krona bactopia-tool

Estimar a abundância taxonômica de amostras metagenômicas.

Esta Bactopia Tool usa o Bracken para estimar a abundância taxonômica a partir dos resultados do Kraken2. Também executa o Kraken2 para classificação taxonômica e gera gráficos interativos com o Krona.

Uso

Bactopia CLI:

bactopia --wf bracken \
  --bactopia /path/to/your/bactopia/results

Nextflow:

nextflow run bactopia/bactopia/workflows/bactopia-tools/bracken/main.nf \
  --bactopia /path/to/your/bactopia/results

Saídas

Arquivos de Saída Esperados

<BACTOPIA_DIR>
├── <SAMPLE_NAME>
│   └── tools
│       └── bracken-<TIMESTAMP>
│           ├── <SAMPLE_NAME>.bracken.abundances.txt
│           ├── <SAMPLE_NAME>.bracken.adjusted.abundances.txt
│           ├── <SAMPLE_NAME>.bracken.classification.txt
│           ├── <SAMPLE_NAME>.bracken.krona.html
│           ├── <SAMPLE_NAME>.bracken.report.txt
│           ├── <SAMPLE_NAME>.bracken.tsv
│           ├── <SAMPLE_NAME>.kraken2.krona.html
│           ├── <SAMPLE_NAME>.kraken2.report.txt
│           └── logs
│               ├── nf.command.{begin,err,log,out,run,sh,trace}
│               └── versions.yml
└── bactopia-runs
    └── bracken-<TIMESTAMP>
        ├── merged-results
        │   ├── bracken-adjusted.tsv
        │   ├── bracken-species-abundance.tsv
        │   └── logs
        │       ├── bracken-adjusted-concat
        │       │   ├── nf.command.{begin,err,log,out,run,sh,trace}
        │       │   └── versions.yml
        │       └── bracken-species-abundance-concat
        │           ├── nf.command.{begin,err,log,out,run,sh,trace}
        │           └── versions.yml
        └── nf-reports
            ├── bracken-dag.dot
            ├── bracken-report.html
            └── bracken-timeline.html

Resultados de Classificação

Arquivo	Descrição
`*.kraken2.report.txt`	Relatório de classificação do Kraken2
`*.bracken.report.txt`	Estimativas de abundância do Bracken
`*.krona.html`	Visualização interativa do Krona

Relatórios de Resumo

Arquivo	Descrição
`bracken-summary.tsv`	Resumo dos resultados de classificação de todas as amostras
`bracken-matrix.tsv`	Matriz de abundância para análises posteriores

Trilha de Auditoria

Abaixo estão os arquivos que podem ajudar você a entender quais parâmetros e versões de programas foram utilizados.

Logs

Cada processo executado terá uma pasta chamada logs. Nessa pasta há arquivos úteis para consulta, caso necessário.

Extensão	Descrição
.begin	Um arquivo vazio usado para indicar que o processo foi iniciado
.err	Contém as saídas STDERR do processo
.log	Contém as saídas STDERR e STDOUT do processo
.out	Contém as saídas STDOUT do processo
.run	O script que o Nextflow usa para preparar/encerrar arquivos e enfileirar processos com base no perfil definido
.sh	O script executado pelo bash para o processo
.trace	O relatório de rastreamento do Nextflow para o processo
versions.yml	Um arquivo no formato YAML com as versões dos programas

Relatórios do Nextflow

Esses relatórios do Nextflow fornecem um ótimo resumo da sua execução. Eles podem ser usados para otimizar o uso de recursos e estimar custos esperados ao utilizar plataformas em nuvem.

Nome do arquivo	Descrição
bracken-dag.dot	A visualização DAG do Nextflow
bracken-report.html	O Relatório de Execução do Nextflow
bracken-timeline.html	O Relatório de Linha do Tempo do Nextflow
bracken-trace.txt	O relatório de Rastreamento do Nextflow

Parâmetros

Parâmetros Obrigatórios

Define onde o pipeline deve encontrar os dados de entrada e salvar os dados de saída.

Parâmetro	Tipo	Padrão	Descrição
`--bactopia`	string		O caminho para os resultados do bactopia a serem usados como entradas

Parâmetros do Kraken2 e Bracken

Parâmetro	Tipo	Padrão	Descrição
`--kraken2_db`	string		Um único arquivo tarball ou caminho para um banco de dados formatado para Kraken2
`--kraken2_quick_mode`	boolean	`false`	Operação rápida (usa o primeiro resultado ou resultados)
`--kraken2_confidence`	number	`0.0`	Limiar de pontuação de confiança entre 0 e 1
`--kraken2_minimum_base_quality`	integer	`0`	Qualidade mínima de base usada na classificação
`--kraken2_use_mpa_style`	boolean	`false`	Formatar a saída do relatório como o kraken-mpa-report do Kraken 1
`--kraken2_report_zero_counts`	boolean	`false`	Reportar contagens para TODOS os táxons, mesmo que as contagens sejam zero
`--kraken2_report_minimizer_data`	boolean	`false`	Incluir informações de minimizador e contagem de minimizadores distintos no relatório
`--kraken2_use_names`	boolean	`false`	Imprimir nomes científicos em vez de apenas taxids
`--kraken2_memory_mapping`	boolean	`false`	Evitar carregar o banco de dados na RAM
`--kraken2_minimum_hit_groups`	integer	`2`	Número mínimo de grupos de hits necessários para fazer uma chamada
`--kraken2_keep_filtered_reads`	boolean	`false`	Manter os FASTQs classificados e não classificados produzidos pelo Kraken2
`--kraken2_keep_raw_output`	boolean	`false`	Manter o arquivo STDOUT produzido pelo Kraken2
`--bracken_read_length`	integer	`0`	Comprimento de read para obter todas as classificações (0 = determinar em tempo de execução)
`--bracken_level`	string	`S`	Nível para estimar a abundância
`--bracken_threshold`	integer	`0`	Reads necessários ANTES da estimativa de abundância para realizar a reestimativa
`--bracken_max_secondary_percent`	number	`0.01`	A porcentagem máxima de abundância para a espécie secundária; se excedida, a amostra permanecerá não classificada
`--bracken_skip_krona`	boolean	`false`	Pular a criação de um relatório Krona

Parâmetros do csvtk concat

Parâmetro	Tipo	Padrão	Descrição
`--csvtk_concat_opts`	string		Opções extras do csvtk concat entre aspas

Parâmetros de Filtragem

Use esses parâmetros para especificar quais amostras incluir ou excluir.

Parâmetro	Tipo	Padrão	Descrição
`--include`	string		Um arquivo de texto contendo nomes de amostras (um por linha) a incluir na análise
`--exclude`	string		Um arquivo de texto contendo nomes de amostras (um por linha) a excluir da análise

Parâmetros Opcionais

Esses parâmetros opcionais podem ser úteis em determinadas situações.

Parâmetro	Tipo	Padrão	Descrição
`--outdir`	string	`bactopia`	Diretório base para salvar os resultados
`--skip_compression`	boolean	`false`	Os arquivos de saída não serão comprimidos
`--datasets`	string		O caminho para armazenar em cache os datasets
`--keep_all_files`	boolean	`false`	Mantém todos os arquivos de análise criados

Parâmetros de Requisição Máxima de Jobs

Define o limite máximo de recursos solicitados para qualquer job individual.

Parâmetro	Tipo	Padrão	Descrição
`--max_retry`	integer	`3`	Número máximo de tentativas de um processo antes de permitir que ele falhe.
`--max_cpus`	integer	`4`	Número máximo de CPUs que podem ser solicitadas para qualquer job individual.
`--max_memory`	string	`128.GB`	Quantidade máxima de memória que pode ser solicitada para qualquer job individual.
`--max_time`	string	`240.h`	Tempo máximo que pode ser solicitado para qualquer job individual.
`--max_downloads`	integer	`3`	Número máximo de amostras para baixar ao mesmo tempo

Parâmetros de Configuração do Nextflow

Parâmetros para ajustar a configuração do Nextflow.

Parâmetro	Tipo	Padrão	Descrição
`--nfconfig`	string		Um arquivo de configuração compatível com Nextflow para perfis personalizados, carregado por último e que sobrescreverá variáveis existentes se definido.
`--publish_dir_mode`	string	`copy`	Método usado para salvar os resultados do pipeline no diretório de saída. (opções: `symlink`, `rellink`, `link`, `copy`, `copyNoFollow`, `move`)
`--infodir`	string	`${params.outdir}/pipeline_info`	Diretório para manter os logs e relatórios do Nextflow do pipeline.
`--force`	boolean	`false`	O Nextflow sobrescreverá arquivos de saída existentes.
`--cleanup_workdir`	boolean	`false`	Após a execução bem-sucedida do Bactopia, o diretório `work` será excluído.

Opções de configuração institucional

Parâmetros usados para descrever perfis de configuração centralizados. Estes não devem ser editados.

Parâmetro	Tipo	Padrão	Descrição
`--custom_config_version`	string	`master`	ID de commit Git para configurações institucionais.
`--custom_config_base`	string	`https://raw.githubusercontent.com/nf-core/configs/master`	Diretório base para configurações institucionais.
`--config_profile_name`	string		Nome da configuração institucional.
`--config_profile_description`	string		Descrição da configuração institucional.
`--config_profile_contact`	string		Informações de contato da configuração institucional.
`--config_profile_url`	string		Link de URL da configuração institucional.

Parâmetros de Perfil do Nextflow

Parâmetros para ajustar a configuração do Nextflow.

Parâmetro	Tipo	Padrão	Descrição
`--condadir`	string		Diretório que o Nextflow deve usar para ambientes Conda
`--registry`	string	`quay.io`	Registro para baixar containers Docker.
`--datasets_cache`	string	`<HOME>/.bactopia/datasets`	Diretório onde os datasets baixados devem ser armazenados.
`--singularity_cache`	string		Diretório onde as imagens Singularity remotas são armazenadas.
`--singularity_pull_docker_container`	boolean		Em vez de baixar imagens Singularity diretamente, forçar o fluxo de trabalho a baixar e converter containers Docker.
`--force_rebuild`	boolean	`false`	Forçar a sobrescrita de ambientes pré-construídos existentes.
`--queue`	string	`general,high-memory`	Nome(s) da(s) fila(s) separados por vírgula a serem usados por um agendador de jobs (ex.: AWS Batch ou SLURM)
`--cluster_opts`	string		Opções adicionais a serem passadas ao executor. (ex.: SLURM: '--account=my_acct_name'
`--container_opts`	string		Opções adicionais a serem passadas ao Apptainer, Docker ou Singularity. (ex.: Singularity: '-D `pwd`'
`--disable_scratch`	boolean	`false`	Todos os arquivos intermediários criados nos nós de trabalho serão transferidos para o nó principal.

Parâmetros Úteis

Parâmetros raramente usados que podem ser úteis.

Parâmetro	Tipo	Padrão	Descrição
`--monochrome_logs`	boolean		Não usar saídas de log coloridas.
`--nfdir`	boolean		Imprimir o diretório para o qual o Nextflow baixou o Bactopia
`--sleep_time`	integer	`5`	O tempo (em segundos) que o Nextflow aguardará após configurar os datasets antes da execução.
`--validate_params`	boolean	`true`	Booleano para validar os parâmetros em relação ao esquema em tempo de execução
`--help`	boolean		Exibir texto de ajuda.
`--wf`	string	`bactopia`	Especificar qual fluxo de trabalho ou Bactopia Tool executar
`--list_wfs`	boolean		Listar os fluxos de trabalho e Bactopia Tools disponíveis para uso com '--wf'
`--show_hidden_params`	boolean		Mostrar todos os parâmetros ao usar `--help`
`--help_all`	boolean		Um alias para --help --show_hidden_params
`--version`	boolean		Exibir texto de versão.

Composição

Este fluxo de trabalho usa os seguintes subworkflows:

bracken - Estimar a abundância de espécies a partir de reads metagenômicos.

Citações

Se você usar esta ferramenta em sua análise, por favor cite os seguintes trabalhos.

Bactopia
Petit III RA, Read TD Bactopia - a flexible pipeline for complete analysis of bacterial genomes. mSystems 5 (2020)
Bracken
Lu J, Breitwieser FP, Thielen P, and Salzberg SL Bracken: estimating species abundance in metagenomics data. PeerJ Computer Science, 3, e104. (2017)
Kraken2
Wood DE, Lu J, Langmead B Improved metagenomic analysis with Kraken 2. Genome Biology, 20(1), 257. (2019)
Krona
Ondov BD, Bergman NH, and Phillippy AM Interactive metagenomic visualization in a Web browser. BMC Bioinformatics, 12, 385. (2011)

Fonte

Ver fonte no GitHub

Uso​

Saídas​

Arquivos de Saída Esperados​

Resultados de Classificação​

Relatórios de Resumo​

Trilha de Auditoria​

Logs​

Relatórios do Nextflow​

Parâmetros​

Parâmetros Obrigatórios​

Parâmetros do Kraken2 e Bracken​

Parâmetros do csvtk concat​

Composição​

Citações​

Fonte​

Uso