Pular para o conteúdo principal

mashdist

Tags: mash distance similarity comparative-genomics bactopia-tool

Calcule distâncias Mash entre sequências e genomas de referência.

Esta Ferramenta Bactopia usa o Mash para determinar a distância Mash de amostras em relação a sketches de genomas de referência para comparação genômica rápida.

Uso

Bactopia CLI:

bactopia --wf mashdist \
--bactopia /path/to/your/bactopia/results

Nextflow:

nextflow run bactopia/bactopia/workflows/bactopia-tools/mashdist/main.nf \
--bactopia /path/to/your/bactopia/results

Saídas

Arquivos de Saída Esperados

<BACTOPIA_DIR>
├── <SAMPLE_NAME>
│ └── tools
│ └── mashdist-<TIMESTAMP>
│ └── mashdist-<TIMESTAMP>
│ ├── <SAMPLE_NAME>-dist.txt
│ └── logs
│ ├── nf.command.{begin,err,log,out,run,sh,trace}
│ └── versions.yml
└── bactopia-runs
└── mashdist-<TIMESTAMP>
├── merged-results
│ ├── logs
│ │ └── mashdist-concat
│ │ ├── nf.command.{begin,err,log,out,run,sh,trace}
│ │ └── versions.yml
│ └── mashdist.tsv
└── nf-reports
├── mashdist-dag.dot
├── mashdist-report.html
└── mashdist-timeline.html

Resultados por Amostra

ArquivoDescrição
*.txtResultados de distância Mash para cada amostra

Resultados Mesclados

ArquivoDescrição
mashdist.tsvArquivo TSV mesclado contendo as distâncias Mash de todas as amostras

Trilha de Auditoria

Abaixo estão os arquivos que podem ajudar você a entender quais parâmetros e versões de programas foram utilizados.

Logs

Cada processo executado terá uma pasta chamada logs. Nesta pasta estão arquivos úteis para revisão, caso necessário.

ExtensãoDescrição
.beginUm arquivo vazio usado para indicar que o processo foi iniciado
.errContém as saídas STDERR do processo
.logContém as saídas STDERR e STDOUT do processo
.outContém as saídas STDOUT do processo
.runO script que o Nextflow usa para preparar/desmontar arquivos e enfileirar processos com base no perfil definido
.shO script executado pelo bash para o processo
.traceO relatório de rastreamento do Nextflow para o processo
versions.ymlUm arquivo formatado em YAML com as versões dos programas

Relatórios do Nextflow

Estes relatórios do Nextflow fornecem um ótimo resumo da sua execução. Podem ser usados para otimizar o uso de recursos e estimar custos esperados ao utilizar plataformas de nuvem.

Nome do ArquivoDescrição
mashdist-dag.dotA visualização DAG do Nextflow
mashdist-report.htmlO Relatório de Execução do Nextflow
mashdist-timeline.htmlO Relatório de Linha do Tempo do Nextflow
mashdist-trace.txtO relatório de Rastreamento do Nextflow

Parâmetros

Parâmetros Obrigatórios

Defina onde o pipeline deve encontrar os dados de entrada e salvar os dados de saída.

ParâmetroTipoPadrãoDescrição
--bactopiastringO caminho para os resultados do Bactopia a serem usados como entradas

Parâmetros do mashdist

ParâmetroTipoPadrãoDescrição
--mash_sketchstringA sequência de referência como um Mash Sketch (arquivo .msh)
--mash_seedinteger42Semente fornecida à função de hash
--mash_tablebooleanfalseSaída em formato de tabela (os campos ficarão em branco se não atenderem ao limiar de p-valor)
--mash_minteger1Número mínimo de cópias de cada k-mer necessário para passar no filtro de ruído para reads
--mash_wnumber0.01Limiar de probabilidade para aviso sobre tamanho de k-mer baixo.
--mash_max_pnumber1.0Valor máximo de p-valor a reportar.
--mash_max_distnumber1.0Distância máxima a reportar.
--merlin_distnumber0.1Distância máxima a reportar ao usar Merlin.
--full_merlinbooleanfalseAtivar o modo completo do Merlin e executar todas as ferramentas específicas de espécie, independentemente da distância Mash
--mash_use_fastqsbooleanfalseConsultar usando FASTQs em vez das montagens

Parâmetros do csvtk concat

ParâmetroTipoPadrãoDescrição
--csvtk_concat_optsstringOpções extras do csvtk concat entre aspas
Parâmetros de Filtragem

Use estes parâmetros para especificar quais amostras incluir ou excluir.

ParâmetroTipoPadrãoDescrição
--includestringUm arquivo de texto contendo nomes de amostras (um por linha) a incluir na análise
--excludestringUm arquivo de texto contendo nomes de amostras (um por linha) a excluir da análise
Parâmetros Opcionais

Estes parâmetros opcionais podem ser úteis em determinadas situações.

ParâmetroTipoPadrãoDescrição
--outdirstringbactopiaDiretório base para gravar os resultados
--skip_compressionbooleanfalseOs arquivos de saída não serão comprimidos
--datasetsstringO caminho para armazenar em cache os datasets
--keep_all_filesbooleanfalseMantém todos os arquivos de análise criados
Parâmetros de Requisição Máxima de Jobs

Defina o limite máximo de recursos solicitados para qualquer job individual.

ParâmetroTipoPadrãoDescrição
--max_retryinteger3Número máximo de tentativas de um processo antes de permitir que ele falhe.
--max_cpusinteger4Número máximo de CPUs que podem ser solicitadas para qualquer job individual.
--max_memorystring128.GBQuantidade máxima de memória que pode ser solicitada para qualquer job individual.
--max_timestring240.hTempo máximo que pode ser solicitado para qualquer job individual.
--max_downloadsinteger3Número máximo de amostras para baixar ao mesmo tempo
Parâmetros de Configuração do Nextflow

Parâmetros para ajustar sua configuração do Nextflow.

ParâmetroTipoPadrãoDescrição
--nfconfigstringUm arquivo de configuração compatível com Nextflow para perfis personalizados, carregado por último e que substituirá variáveis existentes se definido.
--publish_dir_modestringcopyMétodo usado para salvar os resultados do pipeline no diretório de saída. (opções: symlink, rellink, link, copy, copyNoFollow, move)
--infodirstring${params.outdir}/pipeline_infoDiretório para manter os logs e relatórios do Nextflow do pipeline.
--forcebooleanfalseO Nextflow irá sobrescrever arquivos de saída existentes.
--cleanup_workdirbooleanfalseApós a execução bem-sucedida do Bactopia, o diretório work será excluído.
Opções de configuração institucional

Parâmetros usados para descrever perfis de configuração centralizados. Estes não devem ser editados.

ParâmetroTipoPadrãoDescrição
--custom_config_versionstringmasterID de commit Git para configurações institucionais.
--custom_config_basestringhttps://raw.githubusercontent.com/nf-core/configs/masterDiretório base para configurações institucionais.
--config_profile_namestringNome do perfil de configuração institucional.
--config_profile_descriptionstringDescrição do perfil de configuração institucional.
--config_profile_contactstringInformações de contato do perfil de configuração institucional.
--config_profile_urlstringURL do perfil de configuração institucional.
Parâmetros de Perfil do Nextflow

Parâmetros para ajustar sua configuração do Nextflow.

ParâmetroTipoPadrãoDescrição
--condadirstringDiretório que o Nextflow deve usar para ambientes Conda
--registrystringquay.ioRegistro de onde baixar os contêineres Docker.
--datasets_cachestring<HOME>/.bactopia/datasetsDiretório onde os datasets baixados devem ser armazenados.
--singularity_cachestringDiretório onde as imagens Singularity remotas são armazenadas.
--singularity_pull_docker_containerbooleanEm vez de baixar diretamente imagens Singularity, force o fluxo de trabalho a baixar e converter contêineres Docker.
--force_rebuildbooleanfalseForçar a substituição de ambientes pré-construídos existentes.
--queuestringgeneral,high-memoryNome(s) da(s) fila(s) separados por vírgula a serem usados por um agendador de jobs (ex.: AWS Batch ou SLURM)
--cluster_optsstringOpções adicionais a passar para o executor. (ex.: SLURM: '--account=my_acct_name'
--container_optsstringOpções adicionais a passar para Apptainer, Docker ou Singularity. (ex.: Singularity: '-D pwd'
--disable_scratchbooleanfalseTodos os arquivos intermediários criados nos nós de trabalho serão transferidos para o nó principal.
Parâmetros Úteis

Parâmetros raramente usados que podem ser úteis.

ParâmetroTipoPadrãoDescrição
--monochrome_logsbooleanNão usar saídas de log coloridas.
--nfdirbooleanExibir o diretório para o qual o Nextflow baixou o Bactopia
--sleep_timeinteger5A quantidade de tempo (em segundos) que o Nextflow aguardará após configurar os datasets antes da execução.
--validate_paramsbooleantrueBooleano para validar os parâmetros em relação ao schema em tempo de execução
--helpbooleanExibir texto de ajuda.
--wfstringbactopiaEspecificar qual fluxo de trabalho ou Ferramenta Bactopia executar
--list_wfsbooleanListar os fluxos de trabalho e Ferramentas Bactopia disponíveis para uso com '--wf'
--show_hidden_paramsbooleanMostrar todos os parâmetros ao usar --help
--help_allbooleanUm alias para --help --show_hidden_params
--versionbooleanExibir texto de versão.

Composição

Este fluxo de trabalho usa os seguintes subworkflows:

  • mashdist - Calcular distâncias Mash entre sequências e uma referência.

Citações

Se você usar isso em sua análise, por favor cite o seguinte.

Fonte

Ver fonte no GitHub