bactopia_gather
Tags: validation download merging simulation metadata fastq sra ena art sample-scope
Pesquise, valide, colete e padronize amostras de entrada.
Este subworkflow processa amostras de entrada brutas por meio de validação, padronização e coleta de metadados. Ele lida com diversos tipos de entrada, incluindo arquivos FASTQ locais, acessões SRA/ENA, acessões de montagem do NCBI e montagens. O fluxo de trabalho pode mesclar múltiplas execuções de sequenciamento, baixar dados remotos e simular reads a partir de montagens usando ART.
Utiliza campos de registro posicionais explícitos para reads:
- Entrada: record(meta, r1_files, r2_files, se_files, lr_files) com slots Set<Path> (pré-mesclagem)
- Saída: record(meta, r1, r2, se, lr) com slots Path? (pós-mesclagem, consolidado)
Take
samples: Channel<Record>
| Campo | Descrição |
|---|---|
meta | Registro Groovy contendo informações da amostra |
r1_files | Arquivos de reads Illumina R1 (Set, elementos podem ser nulos) |
r2_files | Arquivos de reads Illumina R2 (Set, elementos podem ser nulos) |
se_files | Arquivos de reads single-end (Set, elementos podem ser nulos) |
lr_files | Arquivos de reads longos (ONT/PacBio) ou montagem para simulação (Set, elementos podem ser nulos) |
Emit
Publicados
As emissões sample_outputs e run_outputs são agregados de arquivos de saída que serão publicados no fluxo de trabalho de entrada.
sample_outputs
| Saída | Descrição |
|---|---|
tsv | Um arquivo de metadados delimitado por tabulação descrevendo as amostras válidas |
run_outputs
| Saída | Descrição |
|---|---|
csv | Metadados agregados de todas as amostras |
Entradas para Downstream
As emissões a seguir são destinadas a serem usadas como entradas para subworkflows downstream.
reads
| Saída | Descrição |
|---|---|
r1 | Reads Illumina R1 (paired-end forward) |
r2 | Reads Illumina R2 (paired-end reverse) |
se | Reads Illumina single-end |
lr | Reads longos (ONT/PacBio) |
fna | Arquivo de montagem para amostras baseadas em montagem |
Composição do Módulo
Este subworkflow chama os seguintes módulos:
- bactopia_gather - Pesquisa, valida, coleta ou simula amostras de entrada.
- csvtk_concat - Concatena múltiplos arquivos CSV ou TSV em uma única tabela.
Usado Por
Este subworkflow é utilizado pelos seguintes fluxos de trabalho:
- bactopia - Pipeline abrangente de análise bacteriana para caracterização genômica completa.
- cleanyerreads - Controle de qualidade e remoção opcional de reads do hospedeiro a partir de reads de sequenciamento brutos.
- staphopia - Pipeline de análise abrangente para isolados de Staphylococcus aureus.
- teton - Classificação taxonômica e perfilamento de abundância de reads metagenômicos.
Citações
Se você usar isso em sua análise, cite o seguinte.
-
Bactopia
Petit III RA, Read TD Bactopia - a flexible pipeline for complete analysis of bacterial genomes. mSystems 5 (2020) -
ART
Huang W, Li L, Myers JR, Marth GT ART: a next-generation sequencing read simulator. Bioinformatics 28, 593-594 (2012) -
fastq-dl
Petit III RA fastq-dl: Download FASTQ files from SRA or ENA repositories. (GitHub) -
fastq-scan
Petit III RA fastq-scan: generate summary statistics of input FASTQ sequences. (GitHub) -
ncbi-genome-download
Blin K ncbi-genome-download: Scripts to download genomes from the NCBI FTP servers (GitHub) -
Pigz
Adler M. pigz: A parallel implementation of gzip for modern multi-processor, multi-core machines. Jet Propulsion Laboratory (2015)