bactopia_qc
Tags: quality-control adapters error-correction subsampling fastq illumina nanopore fastp bbduk nanoq sample-scope
Realize controle de qualidade abrangente em reads de sequenciamento.
Este subworkflow processa reads de sequenciamento brutas por meio de um pipeline completo de controle de qualidade. Ele se adapta a diferentes tipos de reads:
- Illumina: Remoção de adaptadores/PhiX (Fastp ou BBDuk), Correção de erros (Lighter) e Subsampling (Rasusa)
- Nanopore: Remoção de adaptadores (Porechop), Filtragem por qualidade (Nanoq) e Subsampling (Rasusa)
- Híbrido: Processa reads curtas e longas por meio de seus respectivos pipelines
- Montagem: Passa reads simuladas a partir de montagens
Gera métricas de qualidade usando fastq-scan e relatórios de qualidade opcionais usando FastQC (Illumina) e NanoPlot (ONT).
Entrada
samples: Channel<Record>
| Campo | Descrição |
|---|---|
meta | Groovy Record contendo informações da amostra (deve incluir runtype, genome_size, species) |
r1 | Reads R1 Illumina (pareadas - sentido direto) |
r2 | Reads R2 Illumina (pareadas - sentido reverso) |
se | Reads Illumina de extremidade única |
lr | Reads longas (ONT) |
assembly | Arquivo de montagem (FASTA) para simulações baseadas em montagem |
adapters: Path?
phix: Path?
| Nome | Tipo | Descrição |
|---|---|---|
adapters | Path? | Sequências de adaptadores opcionais no formato FASTA para remoção das reads Illumina |
phix | Path? | Sequências PhiX opcionais no formato FASTA para remoção das reads Illumina |
Saída
Publicados
As emissões sample_outputs e run_outputs são agregados de arquivos de saída que serão publicados no fluxo de trabalho de entrada.
sample_outputs
| Saída | Descrição |
|---|---|
reads_grouped | Todos os FASTQs de saída para publicação |
supplemental | Relatórios de QC (FastQC/NanoPlot), métricas JSON e FASTQs de erro caso o QC falhe |
error | Mensagens de erro capturadas caso o QC falhe (ex.: reads vazias após trimagem) |
run_outputs
Sem saídas de escopo de execução.
Entradas para Etapas Posteriores
As emissões a seguir são destinadas ao uso como entradas para subworkflows posteriores.
reads
| Saída | Descrição |
|---|---|
r1 | Reads R1 Illumina filtradas por QC |
r2 | Reads R2 Illumina filtradas por QC |
se | Reads de extremidade única filtradas por QC |
lr | Reads longas filtradas por QC |
fna | Arquivo de montagem (repassado para amostras baseadas em montagem) |
Composição de Módulos
Este subworkflow chama os seguintes módulos:
- bactopia_qc - Controle de qualidade automatizado, correção de erros e subsampling de reads.
Utilizado Por
Este subworkflow é utilizado pelos seguintes fluxos de trabalho:
- bactopia - Pipeline abrangente de análise bacteriana para caracterização genômica completa.
- cleanyerreads - Controle de qualidade e remoção opcional de reads do hospedeiro a partir de reads brutas de sequenciamento.
- staphopia - Pipeline de análise abrangente para isolados de Staphylococcus aureus.
Citações
Se você usar este subworkflow em sua análise, por favor cite os seguintes trabalhos.
-
Bactopia
Petit III RA, Read TD Bactopia - a flexible pipeline for complete analysis of bacterial genomes. mSystems 5 (2020) -
BBTools
Bushnell B BBMap short read aligner, and other bioinformatic tools. (Link) -
fastp
Chen S, Zhou Y, Chen Y, and Gu J fastp: an ultra-fast all-in-one FASTQ preprocessor. Bioinformatics, 34(17), i884-i890. (2018) -
FastQC
Andrews S FastQC: a controle de qualidade tool for high throughput sequence data. (WebLink) -
fastq-scan
Petit III RA fastq-scan: generate summary statistics of input FASTQ sequences. (GitHub) -
Lighter
Song L, Florea L, Langmead B Lighter: Fast and Memory-efficient Sequencing Error Correction without Counting. Genome Biol. 15(11):509 (2014) -
NanoPlot
De Coster W, D'Hert S, Schultz DT, Cruts M, Van Broeckhoven C NanoPack: visualizing and processing long-read sequencing data Bioinformatics Volume 34, Issue 15 (2018) -
Nanoq
Steinig E Nanoq: Minimal but speedy controle de qualidade for nanopore reads in Rust (GitHub) -
Porechop
Wick RR, Judd LM, Gorrie CL, Holt KE. Completing bacterial genome assemblies with multiplex MinION sequencing. Microb Genom. 3(10):e000132 (2017) -
Rasusa
Hall MB Rasusa: Randomly subsample sequencing reads to a specified coverage. (2019).