Pular para o conteúdo principal

checkm2

Tags: assembly-quality microbial-genomes machine-learning completeness bactopia-tool

Avaliação baseada em aprendizado de máquina da qualidade de montagem de genomas microbianos.

Esta Ferramenta Bactopia utiliza o CheckM2 para avaliar a qualidade de genomas microbianos obtidos a partir de isolados, células individuais e metagenomas, usando abordagens avançadas de aprendizado de máquina.

Uso

Bactopia CLI:

bactopia --wf checkm2 \
--bactopia /path/to/your/bactopia/results

Nextflow:

nextflow run bactopia/bactopia/workflows/bactopia-tools/checkm2/main.nf \
--bactopia /path/to/your/bactopia/results

Saídas

Arquivos de Saída Esperados

<BACTOPIA_DIR>
├── <SAMPLE_NAME>
│ └── tools
│ └── checkm2-<TIMESTAMP>
│ ├── <SAMPLE_NAME>.tsv
│ ├── logs
│ │ ├── checkm2.log
│ │ ├── nf.command.{begin,err,log,out,run,sh,trace}
│ │ └── versions.yml
│ └── supplemental
│ ├── diamond_output
│ │ └── DIAMOND_RESULTS.tsv
│ └── protein_files
│ └── <SAMPLE_NAME>.faa.gz
└── bactopia-runs
└── checkm2-<TIMESTAMP>
├── merged-results
│ ├── checkm2.tsv
│ └── logs
│ └── checkm2-concat
│ ├── nf.command.{begin,err,log,out,run,sh,trace}
│ └── versions.yml
└── nf-reports
├── checkm2-dag.dot
├── checkm2-report.html
└── checkm2-timeline.html

Avaliação de Qualidade

ArquivoDescrição
diamond_output/**Diretório com resultados intermediários do processamento pelo CheckM2
protein_files/**Diretório contendo arquivos de proteínas usados na análise
quality_report.tsvArquivo de saída com estatísticas de completude

Resultados Combinados

ArquivoDescrição
checkm2.tsvArquivo TSV combinado com os resultados do CheckM2 de todas as amostras

Trilha de Auditoria

A seguir estão os arquivos que podem ajudar você a entender quais parâmetros e versões de programas foram utilizados.

Logs

Cada processo executado terá uma pasta chamada logs. Nessa pasta estão arquivos úteis para você revisar caso necessário.

ExtensãoDescrição
.beginUm arquivo vazio usado para indicar que o processo foi iniciado
.errContém as saídas STDERR do processo
.logContém as saídas STDERR e STDOUT do processo
.outContém as saídas STDOUT do processo
.runO script que o Nextflow usa para preparar/remover arquivos e enfileirar processos com base no perfil definido
.shO script executado pelo bash para o processo
.traceO relatório de rastreamento do Nextflow para o processo
versions.ymlUm arquivo no formato YAML com as versões dos programas

Relatórios do Nextflow

Esses relatórios do Nextflow fornecem um excelente resumo da sua execução. Eles podem ser usados para otimizar o uso de recursos e estimar custos esperados ao utilizar plataformas em nuvem.

Nome do arquivoDescrição
checkm2-dag.dotA visualização DAG do Nextflow
checkm2-report.htmlO Relatório de Execução do Nextflow
checkm2-timeline.htmlO Relatório de Linha do Tempo do Nextflow
checkm2-trace.txtO relatório de Rastreamento do Nextflow

Parâmetros

Parâmetros Obrigatórios

Define onde o pipeline deve encontrar os dados de entrada e salvar os dados de saída.

ParâmetroTipoPadrãoDescrição
--bactopiastringO caminho para os resultados do Bactopia a serem usados como entradas

Parâmetros de Download do Banco de Dados do CheckM2

ParâmetroTipoPadrãoDescrição
--checkm2_dbstringCaminho para uma pasta contendo o banco de dados do CheckM2 (ou onde ele deve ser baixado).
--download_checkm2booleanfalseBaixa o banco de dados do CheckM2 para o caminho indicado por --checkm2_db

Parâmetros do CheckM2

ParâmetroTipoPadrãoDescrição
--checkm2_lowmembooleanModo de baixo consumo de memória. Reduz o tamanho do bloco do DIAMOND para diminuir significativamente o uso de RAM, em troca de maior tempo de execução
--checkm2_generalbooleanForça o uso do modelo geral de predição de qualidade (gradient boost)
--checkm2_specificbooleanForça o uso do modelo específico de predição de qualidade (rede neural)
--checkm2_allmodelsbooleanGera a predição de qualidade para ambos os modelos para cada genoma.
--checkm2_genesbooleanTrata os arquivos de entrada como arquivos de proteínas. [Padrão: False]
--checkm2_optsstringOpções adicionais a serem passadas para o CheckM2

Parâmetros do csvtk concat

ParâmetroTipoPadrãoDescrição
--csvtk_concat_optsstringOpções extras do csvtk concat entre aspas
Parâmetros de Filtragem

Use esses parâmetros para especificar quais amostras incluir ou excluir.

ParâmetroTipoPadrãoDescrição
--includestringUm arquivo de texto contendo nomes de amostras (um por linha) a serem incluídas na análise
--excludestringUm arquivo de texto contendo nomes de amostras (um por linha) a serem excluídas da análise
Parâmetros Opcionais

Esses parâmetros opcionais podem ser úteis em determinadas situações.

ParâmetroTipoPadrãoDescrição
--outdirstringbactopiaDiretório base para salvar os resultados
--skip_compressionbooleanfalseOs arquivos de saída não serão comprimidos
--datasetsstringO caminho para armazenar em cache os datasets
--keep_all_filesbooleanfalseMantém todos os arquivos de análise criados
Parâmetros de Requisição Máxima de Jobs

Define o limite máximo de recursos solicitados para qualquer job individual.

ParâmetroTipoPadrãoDescrição
--max_retryinteger3Número máximo de tentativas de um processo antes de permitir que ele falhe.
--max_cpusinteger4Número máximo de CPUs que podem ser solicitadas para qualquer job individual.
--max_memorystring128.GBQuantidade máxima de memória que pode ser solicitada para qualquer job individual.
--max_timestring240.hTempo máximo que pode ser solicitado para qualquer job individual.
--max_downloadsinteger3Número máximo de amostras para baixar ao mesmo tempo
Parâmetros de Configuração do Nextflow

Parâmetros para ajustar a configuração do Nextflow.

ParâmetroTipoPadrãoDescrição
--nfconfigstringUm arquivo de configuração compatível com o Nextflow para perfis personalizados, carregado por último e que sobrescreverá variáveis existentes se definido.
--publish_dir_modestringcopyMétodo usado para salvar os resultados do pipeline no diretório de saída. (opções: symlink, rellink, link, copy, copyNoFollow, move)
--infodirstring${params.outdir}/pipeline_infoDiretório para manter os logs e relatórios do Nextflow do pipeline.
--forcebooleanfalseO Nextflow irá sobrescrever arquivos de saída existentes.
--cleanup_workdirbooleanfalseApós a execução bem-sucedida do Bactopia, o diretório work será excluído.
Opções de configuração institucional

Parâmetros usados para descrever perfis de configuração centralizados. Estes não devem ser editados.

ParâmetroTipoPadrãoDescrição
--custom_config_versionstringmasterID do commit Git para configurações institucionais.
--custom_config_basestringhttps://raw.githubusercontent.com/nf-core/configs/masterDiretório base para configurações institucionais.
--config_profile_namestringNome do perfil de configuração institucional.
--config_profile_descriptionstringDescrição do perfil de configuração institucional.
--config_profile_contactstringInformações de contato do perfil de configuração institucional.
--config_profile_urlstringLink de URL do perfil de configuração institucional.
Parâmetros de Perfil do Nextflow

Parâmetros para ajustar a configuração do Nextflow.

ParâmetroTipoPadrãoDescrição
--condadirstringDiretório que o Nextflow deve usar para os ambientes Conda
--registrystringquay.ioRegistro do qual os contêineres Docker serão baixados.
--datasets_cachestring<HOME>/.bactopia/datasetsDiretório onde os datasets baixados devem ser armazenados.
--singularity_cachestringDiretório onde as imagens Singularity remotas são armazenadas.
--singularity_pull_docker_containerbooleanEm vez de baixar diretamente as imagens Singularity, força o fluxo de trabalho a baixar e converter contêineres Docker.
--force_rebuildbooleanfalseForça a sobrescrita de ambientes pré-construídos existentes.
--queuestringgeneral,high-memoryNome(s) da(s) fila(s) separados por vírgula a serem usados por um agendador de jobs (ex.: AWS Batch ou SLURM)
--cluster_optsstringOpções adicionais a serem passadas para o executor. (ex.: SLURM: '--account=my_acct_name'
--container_optsstringOpções adicionais a serem passadas para Apptainer, Docker ou Singularity. (ex.: Singularity: '-D pwd'
--disable_scratchbooleanfalseTodos os arquivos intermediários criados nos nós de trabalho serão transferidos para o nó principal.
Parâmetros Úteis

Parâmetros raramente usados que podem ser úteis.

ParâmetroTipoPadrãoDescrição
--monochrome_logsbooleanNão utiliza saídas de log coloridas.
--nfdirbooleanExibe o diretório para o qual o Nextflow baixou o Bactopia
--sleep_timeinteger5O tempo (em segundos) que o Nextflow aguardará após configurar os datasets antes da execução.
--validate_paramsbooleantrueDefine se os parâmetros devem ser validados em relação ao esquema em tempo de execução
--helpbooleanExibe o texto de ajuda.
--wfstringbactopiaEspecifica qual fluxo de trabalho ou Ferramenta Bactopia executar
--list_wfsbooleanLista os fluxos de trabalho e Ferramentas Bactopia disponíveis para uso com '--wf'
--show_hidden_paramsbooleanMostra todos os parâmetros ao usar --help
--help_allbooleanUm alias para --help --show_hidden_params
--versionbooleanExibe o texto da versão.

Composição

Este fluxo de trabalho utiliza os seguintes subworkflows:

  • checkm2 - Avalia a completude de bins de metagenoma usando CheckM2.

Citações

Se você usar isso em sua análise, por favor cite o seguinte.

Fonte

Ver fonte no GitHub