scrubber

Tags: metagenomics decontamination human-removal read-filtering bactopia-tool

Remoção de sequências humanas e contaminantes de reads metagenômicos.

Esta Bactopia Tool remove sequências humanas e outras sequências contaminantes de reads metagenômicos usando deacon (padrão), nohuman, ou SRA Human Scrubber. A ferramenta oferece remoção flexível de contaminação com relatórios detalhados das estatísticas de classificação e filtragem de reads. Ela processa reads paired-end ou single-end, gerando arquivos FASTQ limpos com as sequências humanas removidas e relatórios abrangentes documentando o processo de descontaminação.

Uso

Bactopia CLI:

bactopia --wf scrubber \
  --bactopia /path/to/your/bactopia/results

Nextflow:

nextflow run bactopia/bactopia/workflows/bactopia-tools/scrubber/main.nf \
  --bactopia /path/to/your/bactopia/results

Saídas

Arquivos de Saída Esperados

<BACTOPIA_DIR>
├── <SAMPLE_NAME>
│   └── tools
│       └── scrubber-<TIMESTAMP>
│           ├── <SAMPLE_NAME>.deacon.json
│           ├── <SAMPLE_NAME>.scrub.report.tsv
│           ├── <SAMPLE_NAME>_R1.scrubbed.fastq.gz
│           ├── <SAMPLE_NAME>_R2.scrubbed.fastq.gz
│           └── logs
│               ├── nf.command.{begin,err,log,out,run,sh,trace}
│               └── versions.yml
└── bactopia-runs
    └── scrubber-<TIMESTAMP>
        ├── merged-results
        │   ├── logs
        │   │   └── scrubber-concat
        │   │       ├── nf.command.{begin,err,log,out,run,sh,trace}
        │   │       └── versions.yml
        │   └── scrubber.tsv
        └── nf-reports
            ├── scrubber-dag.dot
            ├── scrubber-report.html
            └── scrubber-timeline.html

Resultados por Amostra

Arquivo	Descrição
`*.scrubbed.fastq.gz`	Reads limpos após a remoção de sequências humanas
`*.scrub.report.tsv`	Relatório das estatísticas de classificação e remoção de reads

Resultados Consolidados

Arquivo	Descrição
`scrubber.tsv`	Arquivo TSV consolidado contendo os relatórios do scrubber de todas as amostras

Trilha de Auditoria

Abaixo estão os arquivos que podem ajudar você a entender quais parâmetros e versões de programas foram utilizados.

Logs

Cada processo executado terá uma pasta chamada logs. Nessa pasta há arquivos úteis para consulta caso necessário.

Extensão	Descrição
.begin	Arquivo vazio usado para indicar que o processo foi iniciado
.err	Contém as saídas STDERR do processo
.log	Contém as saídas STDERR e STDOUT do processo
.out	Contém as saídas STDOUT do processo
.run	O script que o Nextflow usa para preparar/desmontar arquivos e enfileirar processos com base no perfil definido
.sh	O script executado pelo bash para o processo
.trace	O relatório de rastreamento do Nextflow para o processo
versions.yml	Um arquivo no formato YAML com as versões dos programas

Relatórios do Nextflow

Esses relatórios do Nextflow fornecem um ótimo resumo da sua execução. Eles podem ser usados para otimizar o uso de recursos e estimar custos esperados ao utilizar plataformas em nuvem.

Arquivo	Descrição
scrubber-dag.dot	A visualização DAG do Nextflow
scrubber-report.html	O Relatório de Execução do Nextflow
scrubber-timeline.html	O Relatório de Linha do Tempo do Nextflow
scrubber-trace.txt	O relatório de Rastreamento do Nextflow

Parâmetros

Parâmetros Obrigatórios

Define onde o pipeline deve encontrar os dados de entrada e salvar os dados de saída.

Parâmetro	Tipo	Padrão	Descrição
`--bactopia`	string		O caminho para os resultados do bactopia a serem usados como entrada

Parâmetros do csvtk concat

Parâmetro	Tipo	Padrão	Descrição
`--csvtk_concat_opts`	string		Opções extras do csvtk concat entre aspas

Parâmetros do SRA Human Scrubber

Parâmetro	Tipo	Padrão	Descrição
`--use_srascrubber`	boolean	`false`	Usar SRAHumanScrubber para remover reads humanos

Parâmetros de Download do Nohuman

Parâmetro	Tipo	Padrão	Descrição
`--nohuman_db`	string		Caminho para o banco de dados do nohuman ou diretório para baixá-lo
`--nohuman_db_version`	string		Versão do banco de dados a ser baixado (padrão: última versão HPRC)
`--nohuman_save_as_tarball`	boolean	`false`	Salvar o banco de dados do nohuman como um tarball
`--download_nohuman`	boolean	`false`	Baixar o banco de dados do nohuman para o caminho definido por --nohuman_db

Parâmetros de Execução do Nohuman

Parâmetro	Tipo	Padrão	Descrição
`--nohuman_db`	string		Caminho para o diretório ou tarball do banco de dados do nohuman
`--nohuman_confidence`	number	`0.0`	Pontuação mínima de confiança do Kraken2 para classificação (0.0-1.0)
`--nohuman_human`	boolean	`false`	Inverter a saída para manter apenas reads humanos em vez de removê-los
`--nohuman_save_report`	boolean	`false`	Salvar o relatório de classificação do Kraken2

Parâmetros de Busca do Deacon

Parâmetro	Tipo	Padrão	Descrição
`--deacon_index_name`	string	`panhuman-1`	Nome do índice deacon pré-construído a ser baixado
`--download_deacon`	boolean	`false`	Baixar o índice do deacon para o cache de datasets
`--use_deacon`	boolean	`false`	Usar deacon para filtragem de reads do hospedeiro

Parâmetros de Filtragem do Deacon

Parâmetro	Tipo	Padrão	Descrição
`--deacon_abs_threshold`	integer	`2`	Número mínimo absoluto de hits de minimizadores para uma correspondência
`--deacon_db`	string		Caminho para um índice deacon pré-existente (.idx) para filtragem de reads do hospedeiro
`--deacon_deplete`	boolean	`true`	Descartar sequências correspondentes em vez de mantê-las
`--deacon_opts`	string		Opções adicionais do deacon filter não cobertas por outros parâmetros
`--deacon_prefix_length`	integer	`0`	Pesquisar apenas os primeiros N nucleotídeos por sequência (0 para todos)
`--deacon_rel_threshold`	number	`0.01`	Proporção relativa mínima (0.0-1.0) de hits de minimizadores para uma correspondência

Parâmetros de Filtragem

Use esses parâmetros para especificar quais amostras incluir ou excluir.

Parâmetro	Tipo	Padrão	Descrição
`--include`	string		Um arquivo de texto contendo nomes de amostras (um por linha) a serem incluídas na análise
`--exclude`	string		Um arquivo de texto contendo nomes de amostras (um por linha) a serem excluídas da análise

Parâmetros Opcionais

Esses parâmetros opcionais podem ser úteis em determinadas situações.

Parâmetro	Tipo	Padrão	Descrição
`--outdir`	string	`bactopia`	Diretório base para salvar os resultados
`--skip_compression`	boolean	`false`	Os arquivos de saída não serão comprimidos
`--datasets`	string		O caminho para armazenar em cache os datasets
`--keep_all_files`	boolean	`false`	Mantém todos os arquivos de análise criados

Parâmetros de Requisição Máxima de Recursos

Define o limite máximo de recursos solicitados para qualquer job individual.

Parâmetro	Tipo	Padrão	Descrição
`--max_retry`	integer	`3`	Número máximo de tentativas de um processo antes de permitir que ele falhe.
`--max_cpus`	integer	`4`	Número máximo de CPUs que podem ser solicitadas para qualquer job individual.
`--max_memory`	string	`128.GB`	Quantidade máxima de memória que pode ser solicitada para qualquer job individual.
`--max_time`	string	`240.h`	Tempo máximo que pode ser solicitado para qualquer job individual.
`--max_downloads`	integer	`3`	Número máximo de amostras a serem baixadas ao mesmo tempo

Parâmetros de Configuração do Nextflow

Parâmetros para ajustar a configuração do Nextflow.

Parâmetro	Tipo	Padrão	Descrição
`--nfconfig`	string		Um arquivo de configuração compatível com Nextflow para perfis personalizados, carregado por último e que sobrescreverá variáveis existentes se definido.
`--publish_dir_mode`	string	`copy`	Método usado para salvar os resultados do pipeline no diretório de saída. (opções: `symlink`, `rellink`, `link`, `copy`, `copyNoFollow`, `move`)
`--infodir`	string	`${params.outdir}/pipeline_info`	Diretório para manter os logs e relatórios do Nextflow do pipeline.
`--force`	boolean	`false`	O Nextflow sobrescreverá arquivos de saída existentes.
`--cleanup_workdir`	boolean	`false`	Após a execução bem-sucedida do Bactopia, o diretório `work` será excluído.

Opções de configuração institucional

Parâmetros usados para descrever perfis de configuração centralizados. Estes não devem ser editados.

Parâmetro	Tipo	Padrão	Descrição
`--custom_config_version`	string	`master`	ID do commit Git para configurações institucionais.
`--custom_config_base`	string	`https://raw.githubusercontent.com/nf-core/configs/master`	Diretório base para configurações institucionais.
`--config_profile_name`	string		Nome da configuração institucional.
`--config_profile_description`	string		Descrição da configuração institucional.
`--config_profile_contact`	string		Informações de contato da configuração institucional.
`--config_profile_url`	string		Link de URL da configuração institucional.

Parâmetros de Perfil do Nextflow

Parâmetros para ajustar a configuração do Nextflow.

Parâmetro	Tipo	Padrão	Descrição
`--condadir`	string		Diretório que o Nextflow deve usar para os ambientes Conda
`--registry`	string	`quay.io`	Registro para baixar os containers Docker.
`--datasets_cache`	string	`<HOME>/.bactopia/datasets`	Diretório onde os datasets baixados devem ser armazenados.
`--singularity_cache`	string		Diretório onde as imagens Singularity remotas são armazenadas.
`--singularity_pull_docker_container`	boolean		Em vez de baixar diretamente as imagens Singularity, forçar o fluxo de trabalho a baixar e converter containers Docker.
`--force_rebuild`	boolean	`false`	Forçar a sobrescrita de ambientes pré-construídos existentes.
`--queue`	string	`general,high-memory`	Nome(s) da(s) fila(s) separados por vírgula a serem usados por um agendador de jobs (ex.: AWS Batch ou SLURM)
`--cluster_opts`	string		Opções adicionais a serem passadas para o executor. (ex.: SLURM: '--account=my_acct_name'
`--container_opts`	string		Opções adicionais a serem passadas para Apptainer, Docker ou Singularity. (ex.: Singularity: '-D `pwd`'
`--disable_scratch`	boolean	`false`	Todos os arquivos intermediários criados nos nós de trabalho serão transferidos para o nó principal.

Parâmetros Úteis

Parâmetros pouco utilizados que podem ser úteis em alguns casos.

Parâmetro	Tipo	Padrão	Descrição
`--monochrome_logs`	boolean		Não usar saídas de log coloridas.
`--nfdir`	boolean		Exibir o diretório para o qual o Nextflow baixou o Bactopia
`--sleep_time`	integer	`5`	O tempo (em segundos) que o Nextflow aguardará após configurar os datasets antes da execução.
`--validate_params`	boolean	`true`	Booleano que define se os parâmetros devem ser validados em relação ao schema em tempo de execução
`--help`	boolean		Exibir texto de ajuda.
`--wf`	string	`bactopia`	Especificar qual fluxo de trabalho ou Bactopia Tool executar
`--list_wfs`	boolean		Listar os fluxos de trabalho e Bactopia Tools disponíveis para uso com '--wf'
`--show_hidden_params`	boolean		Mostrar todos os parâmetros ao usar `--help`
`--help_all`	boolean		Um alias para --help --show_hidden_params
`--version`	boolean		Exibir texto da versão.

Composição

Este fluxo de trabalho usa os seguintes subworkflows:

scrubber - Remover sequências contaminantes de dados metagenômicos.

Citações

Se você usar isso em sua análise, por favor cite o seguinte.

Bactopia
Petit III RA, Read TD Bactopia - a flexible pipeline for complete analysis of bacterial genomes. mSystems 5 (2020)
deacon
Bede N. deacon: SIMD-accelerated filtering of DNA sequences using minimizer-based comparison. (GitHub)
Kraken2
Wood DE, Lu J, Langmead B Improved metagenomic analysis with Kraken 2. Genome Biology, 20(1), 257. (2019)
SRA Human Scrubber
Katz KS, Shutov O, Lapoint R, Kimelman M, Brister JR, and O'Sullivan C STAT: a fast, scalable, MinHash-based k-mer tool to assess Sequence Read Archive next-generation sequence submissions. Genome Biology, 22(1), 270 (2021)

Fonte

Ver fonte no GitHub

Uso​

Saídas​

Arquivos de Saída Esperados​

Resultados por Amostra​

Resultados Consolidados​

Trilha de Auditoria​

Logs​

Relatórios do Nextflow​

Parâmetros​

Parâmetros Obrigatórios​

Parâmetros do csvtk concat​

Parâmetros do SRA Human Scrubber​

Parâmetros de Download do Nohuman​

Parâmetros de Execução do Nohuman​

Parâmetros de Busca do Deacon​

Parâmetros de Filtragem do Deacon​

Composição​

Citações​

Fonte​

Uso