mash_dist
Tags: mash distance minhash ani comparison taxonomy sample-scope
Calcule distâncias genômicas usando sketches MinHash.
Usa o Mash para calcular a distância entre sequências de consulta e um banco de dados de referência. Utiliza sketches MinHash para estimar rapidamente o índice de Jaccard, fornecendo uma aproximação rápida da Identidade Nucleotídica Média (ANI).
Entradas
record (
meta: Record,
fna: Path
)
| Campo | Tipo | Descrição |
|---|---|---|
meta | Record | Registro Groovy contendo informações da amostra |
fna | Path | Arquivo FASTA, FASTQ ou sketch Mash a ser consultado |
reference: Path
| Nome | Tipo | Descrição |
|---|---|---|
reference | Path | O arquivo de referência (FASTA, FASTQ ou sketch Mash) para comparação |
Saídas
record (
meta: Record,
dist: Path,
results: Set<Path>,
logs: Set<Path?>,
nf_logs: Set<Path>,
versions: Set<Path>
)
| Campo | Tipo | Descrição |
|---|---|---|
meta | Record | Registro com informações da amostra |
dist | Path | Resumo delimitado por tabulação das distâncias Mash e valores-p |
results | Set<Path> | Todos os arquivos de saída a serem publicados |
logs | Set<Path?> | Arquivos de log opcionais específicos do programa |
nf_logs | Set<Path> | Arquivos de log específicos do Nextflow (ex.: .command.{begin |
versions | Set<Path> | Arquivo formatado em YAML com versões dos programas |
Parâmetros
Parâmetros mashdist
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
--mash_sketch | string | A sequência de referência como um Mash Sketch (arquivo .msh) | |
--mash_seed | integer | 42 | Semente fornecida à função de hash |
--mash_table | boolean | false | Saída em formato de tabela (campos ficarão em branco se não atenderem ao limiar do valor-p) |
--mash_m | integer | 1 | Número mínimo de cópias de cada k-mer necessário para passar no filtro de ruído para reads |
--mash_w | number | 0.01 | Limiar de probabilidade para aviso sobre tamanho baixo de k-mer |
--mash_max_p | number | 1.0 | Valor-p máximo a ser reportado |
--mash_max_dist | number | 1.0 | Distância máxima a ser reportada |
--merlin_dist | number | 0.1 | Distância máxima a ser reportada ao usar Merlin |
--full_merlin | boolean | false | Ativa o Merlin completo e executa todas as ferramentas específicas de espécie, independentemente da distância Mash |
--mash_use_fastqs | boolean | false | Consultar com FASTQs em vez das montagens |
Usado Por
Subworkflows
- mashdist - Calcula distâncias Mash entre sequências e uma referência.
Workflows
- mashdist - Calcula distâncias Mash entre sequências e genomas de referência.
Citações
Se você usar este módulo em sua análise, por favor cite os seguintes trabalhos.
-
Bactopia
Petit III RA, Read TD Bactopia - a flexible pipeline for complete analysis of bacterial genomes. mSystems 5 (2020) -
Mash
Ondov BD, Treangen TJ, Melsted P, Mallonee AB, Bergman NH, Koren S, Phillippy AM Mash: fast genome and metagenome distance estimation using MinHash. Genome Biol 17, 132 (2016)
Fonte
Versão
MASH_DIST:
- mash: 2.3