bactopia_gather
Tags: fastq validation sra ena download merging simulation art ncbi sample-scope
Pesquise, valide, colete ou simule amostras de entrada.
Este processo é o ponto de entrada para a ingestão de dados. Ele realiza:
- Validação: Verifica a formatação de FASTQ e a integridade do gzip.
- Mesclagem: Combina múltiplas execuções (lanes) em uma única amostra.
- Download: Busca reads (SRA/ENA) ou montagens (NCBI) a partir de accessions.
- Simulação: Gera reads sintéticos a partir de montagens usando ART para permitir análises baseadas em reads.
Usa slots nomeados explicitamente para reads de entrada e saída:
- A entrada aceita Set<Path> para cada slot (pré-mesclagem, suporta múltiplos arquivos)
- A saída emite Path? para cada slot (pós-mesclagem, arquivo único consolidado ou null)
Entradas
record (
meta: Record,
r1_files: Set<Path?>,
r2_files: Set<Path?>,
se_files: Set<Path?>,
lr_files: Set<Path?>,
fna_files: Set<Path?>
)
| Campo | Tipo | Descrição |
|---|---|---|
meta | Record | Groovy Record contendo informações da amostra |
r1_files | Set<Path?> | Arquivos de reads Illumina R1 (Set, elementos podem ser null) |
r2_files | Set<Path?> | Arquivos de reads Illumina R2 (Set, elementos podem ser null) |
se_files | Set<Path?> | Arquivos de reads single-end (Set, elementos podem ser null) |
lr_files | Set<Path?> | Arquivos de reads longos (ONT) ou montagem para simulação (Set, elementos podem ser null) |
fna_files | Set<Path?> | Arquivo de montagem de entrada ou baixado (Set, elementos podem ser null) |
Saídas
record (
meta: Record,
r1: Path?,
r2: Path?,
se: Path?,
lr: Path?,
fna: Path?,
tsv: Path,
results: Set<Path>,
logs: Set<Path?>,
nf_logs: Set<Path>,
versions: Set<Path?>
)
| Campo | Tipo | Descrição |
|---|---|---|
meta | Record | Registro com informações da amostra |
r1 | Path? | Arquivo de reads Illumina R1 mesclado |
r2 | Path? | Arquivo de reads Illumina R2 mesclado |
se | Path? | Arquivo de reads single-end mesclado |
lr | Path? | Arquivo de reads longos (ONT) mesclado |
fna | Path? | Arquivo de montagem |
tsv | Path | Arquivo de metadados delimitado por tabulação descrevendo as amostras válidas |
results | Set<Path> | Todos os arquivos de saída a serem publicados |
logs | Set<Path?> | Arquivos de log opcionais específicos do programa |
nf_logs | Set<Path> | Arquivos de log específicos do Nextflow (ex.: .command.{begin |
versions | Set<Path?> | Arquivo no formato YAML com as versões dos programas |
Parâmetros
Parâmetros de Coleta
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
--skip_fastq_check | boolean | Ignora as verificações de requisitos mínimos para FASTQs de entrada | |
--min_basepairs | integer | 2241820 | A quantidade mínima de pares de bases necessária para continuar as análises downstream. |
--min_reads | integer | 7472 | A quantidade mínima de reads necessária para continuar as análises downstream. |
--min_coverage | integer | 10 | A cobertura mínima necessária para continuar as análises downstream. |
--min_proportion | number | 0.5 | A proporção mínima de pares de bases para reads paired-end para continuar as análises downstream. |
--min_genome_size | integer | 100000 | O tamanho mínimo estimado do genoma permitido para a sequência de entrada continuar as análises downstream. |
--max_genome_size | integer | 18040666 | O tamanho máximo estimado do genoma permitido para a sequência de entrada continuar as análises downstream. |
--attempts | integer | 3 | Número máximo de tentativas de download |
--use_ena | boolean | Baixa FASTQs do ENA | |
--no_cache | boolean | Ignora o cache do arquivo de resumo de montagem do ncbi-genome-download |
Usado Por
Subworkflows
- bactopia_gather - Pesquisa, valida, coleta e padroniza amostras de entrada.
Workflows
- bactopia - Pipeline abrangente de análise bacteriana para caracterização genômica completa.
- cleanyerreads - Controle de qualidade e remoção opcional de reads do hospedeiro a partir de reads de sequenciamento brutos.
- staphopia - Pipeline de análise abrangente para isolados de Staphylococcus aureus.
- teton - Classificação taxonômica e perfil de abundância de reads metagenômicos.
Citações
Se você usar este recurso em sua análise, por favor cite os seguintes trabalhos.
-
Bactopia
Petit III RA, Read TD Bactopia - a flexible pipeline for complete analysis of bacterial genomes. mSystems 5 (2020) -
ART
Huang W, Li L, Myers JR, Marth GT ART: a next-generation sequencing read simulator. Bioinformatics 28, 593-594 (2012) -
fastq-dl
Petit III RA fastq-dl: Download FASTQ files from SRA or ENA repositories. (GitHub) -
fastq-scan
Petit III RA fastq-scan: generate summary statistics of input FASTQ sequences. (GitHub) -
ncbi-genome-download
Blin K ncbi-genome-download: Scripts to download genomes from the NCBI FTP servers (GitHub) -
Pigz
Adler M. pigz: A parallel implementation of gzip for modern multi-processor, multi-core machines. Jet Propulsion Laboratory (2015)
Fonte
Versão
BACTOPIA_GATHER:
- bactopia-gather: 1.0.6