Pular para o conteúdo principal

mashtree

Tags: phylogeny tree mash distance comparative-genomics bactopia-tool

Construção rápida de árvores filogenéticas usando distâncias Mash.

Esta Bactopia Tool utiliza o Mashtree para criar uma árvore filogenética das amostras usando distâncias Mash. É possível incluir genomas de referência do RefSeq realizando o download com NCBI genome download.

Uso

Bactopia CLI:

bactopia --wf mashtree \
--bactopia /path/to/your/bactopia/results

Nextflow:

nextflow run bactopia/bactopia/workflows/bactopia-tools/mashtree/main.nf \
--bactopia /path/to/your/bactopia/results

Saídas

Arquivos de Saída Esperados

<BACTOPIA_DIR>
└── <SAMPLE_NAME>
└── mashtree-<TIMESTAMP>
├── logs
│ ├── nf.command.{begin,err,log,out,run,sh,trace}
│ └── versions.yml
├── mashtree.dnd
├── mashtree.tsv
└── nf-reports
├── mashtree-dag.dot
├── mashtree-report.html
└── mashtree-timeline.html

Análise Filogenética

ArquivoDescrição
mashtree.dndArquivo de árvore no formato Newick
mashtree.tsvMatriz de distâncias delimitada por tabulação

Resultados Consolidados

ArquivoDescrição
mashtree-summary.tsvResumo consolidado de todos os resultados do Mashtree

Trilha de Auditoria

A seguir estão os arquivos que podem ajudá-lo a entender quais parâmetros e versões de programas foram utilizados.

Logs

Cada processo executado terá uma pasta chamada logs. Nessa pasta há arquivos úteis para você revisar caso necessário.

ExtensãoDescrição
.beginUm arquivo vazio usado para indicar que o processo foi iniciado
.errContém as saídas STDERR do processo
.logContém as saídas STDERR e STDOUT do processo
.outContém as saídas STDOUT do processo
.runO script que o Nextflow usa para preparar/remover arquivos e enfileirar processos com base no perfil definido
.shO script executado pelo bash para o processo
.traceO relatório de rastreamento do Nextflow para o processo
versions.ymlUm arquivo no formato YAML com as versões dos programas

Relatórios do Nextflow

Esses relatórios do Nextflow fornecem um excelente resumo da sua execução. Podem ser usados para otimizar o uso de recursos e estimar custos esperados ao utilizar plataformas em nuvem.

Nome do arquivoDescrição
mashtree-dag.dotA visualização DAG do Nextflow
mashtree-report.htmlO Relatório de Execução do Nextflow
mashtree-timeline.htmlO Relatório de Linha do Tempo do Nextflow
mashtree-trace.txtO relatório de Rastreamento do Nextflow

Parâmetros

Parâmetros Obrigatórios

Defina onde o pipeline deve encontrar os dados de entrada e salvar os dados de saída.

ParâmetroTipoPadrãoDescrição
--bactopiastringO caminho para os resultados do bactopia a serem usados como entradas

Parâmetros do Mashtree

ParâmetroTipoPadrãoDescrição
--mashtree_trunclengthinteger250Quantos caracteres manter no nome de um arquivo
--mashtree_sortorderstringABCPara neighbor-joining, a ordem de classificação pode fazer diferença. (opções: ABC, random, input-order)
--mashtree_genomesizeinteger5000000Tamanho do genoma das amostras de entrada
--mashtree_mindepthinteger5Se mindepth for zero, será escolhido de forma inteligente porém mais lenta, para descartar kmers de menor abundância.
--mashtree_kmerlengthinteger21Os hashes serão baseados em sequências com esse número de nucleotídeos
--mashtree_sketchsizeinteger10000Cada sketch terá no máximo esse número de min-hashes não redundantes
--mashtree_save_sketchesbooleanfalseSalvar os sketches criados durante o processo

Parâmetros do NCBI Genome Download

ParâmetroTipoPadrãoDescrição
--speciesstringNome da espécie para download das montagens
--accessionstringUm número de acesso NCBI Assembly para download
--accessionsstringUm arquivo de números de acesso NCBI Assembly (um por linha) para download
--formatstringfastaLista de formatos para download separada por vírgulas
--sectionstringrefseqSeção do NCBI para download
--assembly_levelstringcompleteLista de níveis de montagem para download separada por vírgulas
--kingdomstringbacteriaLista de formatos para download separada por vírgulas
--limitstringLimitar o número de montagens para download
--keep_downloadsbooleanfalseSalvar arquivos baixados na pasta bactopia-runs
Parâmetros de Filtragem

Use esses parâmetros para especificar quais amostras incluir ou excluir.

ParâmetroTipoPadrãoDescrição
--includestringUm arquivo de texto contendo nomes de amostras (um por linha) a incluir na análise
--excludestringUm arquivo de texto contendo nomes de amostras (um por linha) a excluir da análise
Parâmetros Opcionais

Esses parâmetros opcionais podem ser úteis em determinadas situações.

ParâmetroTipoPadrãoDescrição
--outdirstringbactopiaDiretório base para salvar os resultados
--skip_compressionbooleanfalseOs arquivos de saída não serão comprimidos
--datasetsstringO caminho para armazenar em cache os datasets
--keep_all_filesbooleanfalseMantém todos os arquivos de análise criados
Parâmetros de Requisição Máxima de Jobs

Defina o limite máximo de recursos solicitados para qualquer job individual.

ParâmetroTipoPadrãoDescrição
--max_retryinteger3Número máximo de tentativas de um processo antes de permitir que ele falhe.
--max_cpusinteger4Número máximo de CPUs que podem ser solicitadas para qualquer job individual.
--max_memorystring128.GBQuantidade máxima de memória que pode ser solicitada para qualquer job individual.
--max_timestring240.hTempo máximo que pode ser solicitado para qualquer job individual.
--max_downloadsinteger3Número máximo de amostras para download simultâneo
Parâmetros de Configuração do Nextflow

Parâmetros para ajustar a configuração do Nextflow.

ParâmetroTipoPadrãoDescrição
--nfconfigstringUm arquivo de configuração compatível com Nextflow para perfis personalizados, carregado por último e que substituirá variáveis existentes se definido.
--publish_dir_modestringcopyMétodo usado para salvar os resultados do pipeline no diretório de saída. (opções: symlink, rellink, link, copy, copyNoFollow, move)
--infodirstring${params.outdir}/pipeline_infoDiretório para manter os logs e relatórios do Nextflow do pipeline.
--forcebooleanfalseO Nextflow sobrescreverá arquivos de saída existentes.
--cleanup_workdirbooleanfalseApós a execução bem-sucedida do Bactopia, o diretório work será excluído.
Opções de configuração institucional

Parâmetros usados para descrever perfis de configuração centralizados. Estes não devem ser editados.

ParâmetroTipoPadrãoDescrição
--custom_config_versionstringmasterID do commit Git para configurações institucionais.
--custom_config_basestringhttps://raw.githubusercontent.com/nf-core/configs/masterDiretório base para configurações institucionais.
--config_profile_namestringNome da configuração institucional.
--config_profile_descriptionstringDescrição da configuração institucional.
--config_profile_contactstringInformações de contato da configuração institucional.
--config_profile_urlstringLink de URL da configuração institucional.
Parâmetros de Perfil do Nextflow

Parâmetros para ajustar a configuração do Nextflow.

ParâmetroTipoPadrãoDescrição
--condadirstringDiretório que o Nextflow deve usar para ambientes Conda
--registrystringquay.ioRegistro do qual extrair contêineres Docker.
--datasets_cachestring<HOME>/.bactopia/datasetsDiretório onde os datasets baixados devem ser armazenados.
--singularity_cachestringDiretório onde as imagens Singularity remotas são armazenadas.
--singularity_pull_docker_containerbooleanEm vez de baixar diretamente imagens Singularity para uso com Singularity, força o fluxo de trabalho a extrair e converter contêineres Docker.
--force_rebuildbooleanfalseForçar a sobrescrita de ambientes pré-construídos existentes.
--queuestringgeneral,high-memoryNome(s) da(s) fila(s) separados por vírgula a serem usados por um agendador de jobs (ex.: AWS Batch ou SLURM)
--cluster_optsstringOpções adicionais para passar ao executor. (ex.: SLURM: '--account=my_acct_name'
--container_optsstringOpções adicionais para passar ao Apptainer, Docker ou Singularity. (ex.: Singularity: '-D pwd'
--disable_scratchbooleanfalseTodos os arquivos intermediários criados nos nós de trabalho serão transferidos para o nó principal.
Parâmetros Úteis

Parâmetros raramente usados que podem ser úteis.

ParâmetroTipoPadrãoDescrição
--monochrome_logsbooleanNão usar saídas de log coloridas.
--nfdirbooleanExibir o diretório para o qual o Nextflow baixou o Bactopia
--sleep_timeinteger5O tempo (em segundos) que o Nextflow aguardará após configurar os datasets antes da execução.
--validate_paramsbooleantrueBooleano que indica se os parâmetros devem ser validados em relação ao esquema em tempo de execução
--helpbooleanExibir texto de ajuda.
--wfstringbactopiaEspecificar qual fluxo de trabalho ou Bactopia Tool executar
--list_wfsbooleanListar os fluxos de trabalho e Bactopia Tools disponíveis para uso com '--wf'
--show_hidden_paramsbooleanMostrar todos os parâmetros ao usar --help
--help_allbooleanUm alias para --help --show_hidden_params
--versionbooleanExibir texto de versão.

Composição

Este fluxo de trabalho utiliza os seguintes subworkflows:

  • mashtree - Criar árvores filogenéticas usando distâncias Mash.
  • ncbigenomedownload - Baixar genomas bacterianos do banco de dados RefSeq do NCBI.

Citações

Se você usar isso em sua análise, por favor cite o seguinte.

Fonte

Ver fonte no GitHub