Pular para o conteúdo principal

scrubber

Tags: metagenomics decontamination human-removal read-filtering bactopia-tool

Remoção de sequências humanas e contaminantes de reads metagenômicos.

Esta Bactopia Tool remove sequências humanas e outras sequências contaminantes de reads metagenômicos usando deacon (padrão), nohuman, ou SRA Human Scrubber. A ferramenta oferece remoção flexível de contaminação com relatórios detalhados das estatísticas de classificação e filtragem de reads. Ela processa reads paired-end ou single-end, gerando arquivos FASTQ limpos com as sequências humanas removidas e relatórios abrangentes documentando o processo de descontaminação.

Uso

Bactopia CLI:

bactopia --wf scrubber \
--bactopia /path/to/your/bactopia/results

Nextflow:

nextflow run bactopia/bactopia/workflows/bactopia-tools/scrubber/main.nf \
--bactopia /path/to/your/bactopia/results

Saídas

Arquivos de Saída Esperados

<BACTOPIA_DIR>
├── <SAMPLE_NAME>
│ └── tools
│ └── scrubber-<TIMESTAMP>
│ ├── <SAMPLE_NAME>.deacon.json
│ ├── <SAMPLE_NAME>.scrub.report.tsv
│ ├── <SAMPLE_NAME>_R1.scrubbed.fastq.gz
│ ├── <SAMPLE_NAME>_R2.scrubbed.fastq.gz
│ └── logs
│ ├── nf.command.{begin,err,log,out,run,sh,trace}
│ └── versions.yml
└── bactopia-runs
└── scrubber-<TIMESTAMP>
├── merged-results
│ ├── logs
│ │ └── scrubber-concat
│ │ ├── nf.command.{begin,err,log,out,run,sh,trace}
│ │ └── versions.yml
│ └── scrubber.tsv
└── nf-reports
├── scrubber-dag.dot
├── scrubber-report.html
└── scrubber-timeline.html

Resultados por Amostra

ArquivoDescrição
*.scrubbed.fastq.gzReads limpos após a remoção de sequências humanas
*.scrub.report.tsvRelatório das estatísticas de classificação e remoção de reads

Resultados Consolidados

ArquivoDescrição
scrubber.tsvArquivo TSV consolidado contendo os relatórios do scrubber de todas as amostras

Trilha de Auditoria

Abaixo estão os arquivos que podem ajudar você a entender quais parâmetros e versões de programas foram utilizados.

Logs

Cada processo executado terá uma pasta chamada logs. Nessa pasta há arquivos úteis para consulta caso necessário.

ExtensãoDescrição
.beginArquivo vazio usado para indicar que o processo foi iniciado
.errContém as saídas STDERR do processo
.logContém as saídas STDERR e STDOUT do processo
.outContém as saídas STDOUT do processo
.runO script que o Nextflow usa para preparar/desmontar arquivos e enfileirar processos com base no perfil definido
.shO script executado pelo bash para o processo
.traceO relatório de rastreamento do Nextflow para o processo
versions.ymlUm arquivo no formato YAML com as versões dos programas

Relatórios do Nextflow

Esses relatórios do Nextflow fornecem um ótimo resumo da sua execução. Eles podem ser usados para otimizar o uso de recursos e estimar custos esperados ao utilizar plataformas em nuvem.

ArquivoDescrição
scrubber-dag.dotA visualização DAG do Nextflow
scrubber-report.htmlO Relatório de Execução do Nextflow
scrubber-timeline.htmlO Relatório de Linha do Tempo do Nextflow
scrubber-trace.txtO relatório de Rastreamento do Nextflow

Parâmetros

Parâmetros Obrigatórios

Define onde o pipeline deve encontrar os dados de entrada e salvar os dados de saída.

ParâmetroTipoPadrãoDescrição
--bactopiastringO caminho para os resultados do bactopia a serem usados como entrada

Parâmetros do csvtk concat

ParâmetroTipoPadrãoDescrição
--csvtk_concat_optsstringOpções extras do csvtk concat entre aspas

Parâmetros do SRA Human Scrubber

ParâmetroTipoPadrãoDescrição
--use_srascrubberbooleanfalseUsar SRAHumanScrubber para remover reads humanos

Parâmetros de Download do Nohuman

ParâmetroTipoPadrãoDescrição
--nohuman_dbstringCaminho para o banco de dados do nohuman ou diretório para baixá-lo
--nohuman_db_versionstringVersão do banco de dados a ser baixado (padrão: última versão HPRC)
--nohuman_save_as_tarballbooleanfalseSalvar o banco de dados do nohuman como um tarball
--download_nohumanbooleanfalseBaixar o banco de dados do nohuman para o caminho definido por --nohuman_db

Parâmetros de Execução do Nohuman

ParâmetroTipoPadrãoDescrição
--nohuman_dbstringCaminho para o diretório ou tarball do banco de dados do nohuman
--nohuman_confidencenumber0.0Pontuação mínima de confiança do Kraken2 para classificação (0.0-1.0)
--nohuman_humanbooleanfalseInverter a saída para manter apenas reads humanos em vez de removê-los
--nohuman_save_reportbooleanfalseSalvar o relatório de classificação do Kraken2

Parâmetros de Busca do Deacon

ParâmetroTipoPadrãoDescrição
--deacon_index_namestringpanhuman-1Nome do índice deacon pré-construído a ser baixado
--download_deaconbooleanfalseBaixar o índice do deacon para o cache de datasets
--use_deaconbooleanfalseUsar deacon para filtragem de reads do hospedeiro

Parâmetros de Filtragem do Deacon

ParâmetroTipoPadrãoDescrição
--deacon_abs_thresholdinteger2Número mínimo absoluto de hits de minimizadores para uma correspondência
--deacon_dbstringCaminho para um índice deacon pré-existente (.idx) para filtragem de reads do hospedeiro
--deacon_depletebooleantrueDescartar sequências correspondentes em vez de mantê-las
--deacon_optsstringOpções adicionais do deacon filter não cobertas por outros parâmetros
--deacon_prefix_lengthinteger0Pesquisar apenas os primeiros N nucleotídeos por sequência (0 para todos)
--deacon_rel_thresholdnumber0.01Proporção relativa mínima (0.0-1.0) de hits de minimizadores para uma correspondência
Parâmetros de Filtragem

Use esses parâmetros para especificar quais amostras incluir ou excluir.

ParâmetroTipoPadrãoDescrição
--includestringUm arquivo de texto contendo nomes de amostras (um por linha) a serem incluídas na análise
--excludestringUm arquivo de texto contendo nomes de amostras (um por linha) a serem excluídas da análise
Parâmetros Opcionais

Esses parâmetros opcionais podem ser úteis em determinadas situações.

ParâmetroTipoPadrãoDescrição
--outdirstringbactopiaDiretório base para salvar os resultados
--skip_compressionbooleanfalseOs arquivos de saída não serão comprimidos
--datasetsstringO caminho para armazenar em cache os datasets
--keep_all_filesbooleanfalseMantém todos os arquivos de análise criados
Parâmetros de Requisição Máxima de Recursos

Define o limite máximo de recursos solicitados para qualquer job individual.

ParâmetroTipoPadrãoDescrição
--max_retryinteger3Número máximo de tentativas de um processo antes de permitir que ele falhe.
--max_cpusinteger4Número máximo de CPUs que podem ser solicitadas para qualquer job individual.
--max_memorystring128.GBQuantidade máxima de memória que pode ser solicitada para qualquer job individual.
--max_timestring240.hTempo máximo que pode ser solicitado para qualquer job individual.
--max_downloadsinteger3Número máximo de amostras a serem baixadas ao mesmo tempo
Parâmetros de Configuração do Nextflow

Parâmetros para ajustar a configuração do Nextflow.

ParâmetroTipoPadrãoDescrição
--nfconfigstringUm arquivo de configuração compatível com Nextflow para perfis personalizados, carregado por último e que sobrescreverá variáveis existentes se definido.
--publish_dir_modestringcopyMétodo usado para salvar os resultados do pipeline no diretório de saída. (opções: symlink, rellink, link, copy, copyNoFollow, move)
--infodirstring${params.outdir}/pipeline_infoDiretório para manter os logs e relatórios do Nextflow do pipeline.
--forcebooleanfalseO Nextflow sobrescreverá arquivos de saída existentes.
--cleanup_workdirbooleanfalseApós a execução bem-sucedida do Bactopia, o diretório work será excluído.
Opções de configuração institucional

Parâmetros usados para descrever perfis de configuração centralizados. Estes não devem ser editados.

ParâmetroTipoPadrãoDescrição
--custom_config_versionstringmasterID do commit Git para configurações institucionais.
--custom_config_basestringhttps://raw.githubusercontent.com/nf-core/configs/masterDiretório base para configurações institucionais.
--config_profile_namestringNome da configuração institucional.
--config_profile_descriptionstringDescrição da configuração institucional.
--config_profile_contactstringInformações de contato da configuração institucional.
--config_profile_urlstringLink de URL da configuração institucional.
Parâmetros de Perfil do Nextflow

Parâmetros para ajustar a configuração do Nextflow.

ParâmetroTipoPadrãoDescrição
--condadirstringDiretório que o Nextflow deve usar para os ambientes Conda
--registrystringquay.ioRegistro para baixar os containers Docker.
--datasets_cachestring<HOME>/.bactopia/datasetsDiretório onde os datasets baixados devem ser armazenados.
--singularity_cachestringDiretório onde as imagens Singularity remotas são armazenadas.
--singularity_pull_docker_containerbooleanEm vez de baixar diretamente as imagens Singularity, forçar o fluxo de trabalho a baixar e converter containers Docker.
--force_rebuildbooleanfalseForçar a sobrescrita de ambientes pré-construídos existentes.
--queuestringgeneral,high-memoryNome(s) da(s) fila(s) separados por vírgula a serem usados por um agendador de jobs (ex.: AWS Batch ou SLURM)
--cluster_optsstringOpções adicionais a serem passadas para o executor. (ex.: SLURM: '--account=my_acct_name'
--container_optsstringOpções adicionais a serem passadas para Apptainer, Docker ou Singularity. (ex.: Singularity: '-D pwd'
--disable_scratchbooleanfalseTodos os arquivos intermediários criados nos nós de trabalho serão transferidos para o nó principal.
Parâmetros Úteis

Parâmetros pouco utilizados que podem ser úteis em alguns casos.

ParâmetroTipoPadrãoDescrição
--monochrome_logsbooleanNão usar saídas de log coloridas.
--nfdirbooleanExibir o diretório para o qual o Nextflow baixou o Bactopia
--sleep_timeinteger5O tempo (em segundos) que o Nextflow aguardará após configurar os datasets antes da execução.
--validate_paramsbooleantrueBooleano que define se os parâmetros devem ser validados em relação ao schema em tempo de execução
--helpbooleanExibir texto de ajuda.
--wfstringbactopiaEspecificar qual fluxo de trabalho ou Bactopia Tool executar
--list_wfsbooleanListar os fluxos de trabalho e Bactopia Tools disponíveis para uso com '--wf'
--show_hidden_paramsbooleanMostrar todos os parâmetros ao usar --help
--help_allbooleanUm alias para --help --show_hidden_params
--versionbooleanExibir texto da versão.

Composição

Este fluxo de trabalho usa os seguintes subworkflows:

  • scrubber - Remover sequências contaminantes de dados metagenômicos.

Citações

Se você usar isso em sua análise, por favor cite o seguinte.

Fonte

Ver fonte no GitHub