bactopia_assembler
Tags: bacteria assembly hybrid shovill dragonflye unicycler illumina nanopore sample-scope
Monte genomas bacterianos usando seleção automatizada de montador.
Este subworkflow seleciona automaticamente a estratégia de montagem ideal com base nos tipos de reads de entrada:
- Reads Paired-End Curtos: Usa Shovill (wrapper SKESA/SPAdes)
- Reads Single-End Curtos: Usa Shovill-SE (wrapper SKESA/SPAdes)
- Reads Longos: Usa Dragonflye (wrapper Flye/Miniasm)
- Montagem Híbrida: Usa Unicycler ou Dragonflye com polimento por reads curtos
O fluxo de trabalho realiza montagens individuais por amostra e agrega estatísticas de montagem de todas as amostras usando assembly-scan para avaliação abrangente de qualidade.
Entrada
samples: Channel<Record>
| Campo | Descrição |
|---|---|
meta | Registro Groovy contendo informações da amostra |
r1 | Reads Illumina R1 (paired-end forward) |
r2 | Reads Illumina R2 (paired-end reverse) |
se | Reads Illumina single-end |
lr | Reads longos (ONT/PacBio) para montagem de reads longos ou híbrida |
Saída
Publicado
As emissões sample_outputs e run_outputs são agregados de arquivos de saída que serão publicados no fluxo de trabalho de entrada.
sample_outputs
| Saída | Descrição |
|---|---|
tsv | Relatório delimitado por tabulação com estatísticas de montagem (N50, comprimento, cobertura) |
supplemental | Arquivos suplementares incluindo grafos de montagem e logs específicos da ferramenta |
error | Mensagens de erro capturadas caso a montagem falhe |
run_outputs
| Saída | Descrição |
|---|---|
csv | Estatísticas de montagem agregadas de todas as amostras |
Entradas para Downstream
As seguintes emissões destinam-se a ser usadas como entradas para subworkflows downstream.
assembly
| Saída | Descrição |
|---|---|
fna | Contigs montados para anotação e análise downstream |
assembly_reads
| Saída | Descrição |
|---|---|
fna | Contigs montados |
r1 | Reads Illumina R1 (paired-end forward) |
r2 | Reads Illumina R2 (paired-end reverse) |
se | Reads Illumina single-end |
lr | Reads longos (ONT/PacBio) |
Composição de Módulos
Este subworkflow chama os seguintes módulos:
- bactopia_assembler - Monta genomas bacterianos usando estratégias de reads curtos, reads longos ou híbridas.
- csvtk_concat - Concatena múltiplos arquivos CSV ou TSV em uma única tabela.
Usado Por
Este subworkflow é usado pelos seguintes fluxos de trabalho:
- bactopia - Pipeline abrangente de análise bacteriana para caracterização genômica completa.
- staphopia - Pipeline de análise abrangente para isolados de Staphylococcus aureus.
Citações
Se você usar este recurso em sua análise, por favor cite o seguinte.
-
Bactopia
Petit III RA, Read TD Bactopia - a flexible pipeline for complete analysis of bacterial genomes. mSystems 5 (2020) -
any2fasta
Seemann T any2fasta: Convert various sequence formats to FASTA (GitHub) -
assembly-scan
Petit III RA assembly-scan: generate basic stats for an assembly (GitHub) -
BWA
Li H Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv [q-bio.GN] (2013) -
Dragonflye
Petit III RA Dragonflye: Assemble bacterial isolate genomes from Nanopore reads. (GitHub) -
FLASH
Magoč T, Salzberg SL FLASH: fast length adjustment of short reads to improve genome assemblies. Bioinformatics 27.21 2957-2963 (2011) -
Flye
Kolmogorov M, Yuan J, Lin Y, Pevzner P Assembly of Long Error-Prone Reads Using Repeat Graphs Nature Biotechnology (2019) -
Medaka
ONT Research Medaka: Sequence correction provided by ONT Research (GitHub) -
MEGAHIT
Li D, Liu C-M, Luo R, Sadakane K, Lam T-W MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph. Bioinformatics 31.10 1674-1676 (2015) -
Miniasm
Li H Miniasm: Ultrafast de novo assembly for long noisy reads (GitHub) -
Minimap2
Li H Minimap2: pairwise alignment for nucleotide sequences. Bioinformatics 34:3094-3100 (2018) -
Nanoq
Steinig E Nanoq: Minimal but speedy controle de qualidade for nanopore reads in Rust (GitHub) -
Pigz
Adler M. pigz: A parallel implementation of gzip for modern multi-processor, multi-core machines. Jet Propulsion Laboratory (2015) -
Pilon
Walker BJ, Abeel T, Shea T, Priest M, Abouelliel A, Sakthikumar S, Cuomo CA, Zeng Q, Wortman J, Young SK, Earl AM Pilon: an integrated tool for comprehensive microbial variant detection and genome assembly improvement. PloS one 9.11 e112963 (2014) -
Racon
Vaser R, Sović I, Nagarajan N, Šikić M Fast and accurate de novo genome assembly from long uncorrected reads. Genome Res 27, 737-746 (2017) -
Rasusa
Hall MB Rasusa: Randomly subsample sequencing reads to a specified coverage. (2019). -
Raven
Vaser R, Šikić M Time- and memory-efficient genome assembly with Raven. Nat Comput Sci 1, 332-336 (2021) -
samclip
Seemann T Samclip: Filter SAM file for soft and hard clipped alignments (GitHub) -
Samtools
Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R The Sequence Alignment/Map format and SAMtools. Bioinformatics 25, 2078-2079 (2009) -
Shovill
Seemann T Shovill: De novo assembly pipeline for Illumina paired reads (GitHub) -
Shovill-SE
Petit III RA Shovill-SE: A fork of Shovill that includes support for single end reads. (GitHub) -
SKESA
Souvorov A, Agarwala R, Lipman DJ SKESA: strategic k-mer extension for scrupulous assemblies. Genome Biology 19:153 (2018) -
SPAdes
Bankevich A, Nurk S, Antipov D, Gurevich AA, Dvorkin M, Kulikov AS, Lesin VM, Nikolenko SI, Pham S, Prjibelski AD, Pyshkin AV, Sirotkin AV, Vyahhi N, Tesler G, Alekseyev MA, Pevzner PA SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing. Journal of computational biology 19.5 455-477 (2012) -
Unicycler
Wick RR, Judd LM, Gorrie CL, Holt KE Unicycler: Resolving bacterial genome assemblies from short and long sequencing reads. PLoS Comput. Biol. 13, e1005595 (2017) -
Velvet
Zerbino DR, Birney E Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome research 18.5 821-829 (2008)