Pular para o conteúdo principal

bactopia_gather

Tags: fastq validation sra ena download merging simulation art ncbi sample-scope

Pesquise, valide, colete ou simule amostras de entrada.

Este processo é o ponto de entrada para a ingestão de dados. Ele realiza:

  • Validação: Verifica a formatação de FASTQ e a integridade do gzip.
  • Mesclagem: Combina múltiplas execuções (lanes) em uma única amostra.
  • Download: Busca reads (SRA/ENA) ou montagens (NCBI) a partir de accessions.
  • Simulação: Gera reads sintéticos a partir de montagens usando ART para permitir análises baseadas em reads.

Usa slots nomeados explicitamente para reads de entrada e saída:

  • A entrada aceita Set<Path> para cada slot (pré-mesclagem, suporta múltiplos arquivos)
  • A saída emite Path? para cada slot (pós-mesclagem, arquivo único consolidado ou null)

Entradas

record (
meta: Record,
r1_files: Set<Path?>,
r2_files: Set<Path?>,
se_files: Set<Path?>,
lr_files: Set<Path?>,
fna_files: Set<Path?>
)
CampoTipoDescrição
metaRecordGroovy Record contendo informações da amostra
r1_filesSet<Path?>Arquivos de reads Illumina R1 (Set, elementos podem ser null)
r2_filesSet<Path?>Arquivos de reads Illumina R2 (Set, elementos podem ser null)
se_filesSet<Path?>Arquivos de reads single-end (Set, elementos podem ser null)
lr_filesSet<Path?>Arquivos de reads longos (ONT) ou montagem para simulação (Set, elementos podem ser null)
fna_filesSet<Path?>Arquivo de montagem de entrada ou baixado (Set, elementos podem ser null)

Saídas

record (
meta: Record,
r1: Path?,
r2: Path?,
se: Path?,
lr: Path?,
fna: Path?,
tsv: Path,
results: Set<Path>,
logs: Set<Path?>,
nf_logs: Set<Path>,
versions: Set<Path?>
)
CampoTipoDescrição
metaRecordRegistro com informações da amostra
r1Path?Arquivo de reads Illumina R1 mesclado
r2Path?Arquivo de reads Illumina R2 mesclado
sePath?Arquivo de reads single-end mesclado
lrPath?Arquivo de reads longos (ONT) mesclado
fnaPath?Arquivo de montagem
tsvPathArquivo de metadados delimitado por tabulação descrevendo as amostras válidas
resultsSet<Path>Todos os arquivos de saída a serem publicados
logsSet<Path?>Arquivos de log opcionais específicos do programa
nf_logsSet<Path>Arquivos de log específicos do Nextflow (ex.: .command.{begin
versionsSet<Path?>Arquivo no formato YAML com as versões dos programas

Parâmetros

Parâmetros de Coleta

ParâmetroTipoPadrãoDescrição
--skip_fastq_checkbooleanIgnora as verificações de requisitos mínimos para FASTQs de entrada
--min_basepairsinteger2241820A quantidade mínima de pares de bases necessária para continuar as análises downstream.
--min_readsinteger7472A quantidade mínima de reads necessária para continuar as análises downstream.
--min_coverageinteger10A cobertura mínima necessária para continuar as análises downstream.
--min_proportionnumber0.5A proporção mínima de pares de bases para reads paired-end para continuar as análises downstream.
--min_genome_sizeinteger100000O tamanho mínimo estimado do genoma permitido para a sequência de entrada continuar as análises downstream.
--max_genome_sizeinteger18040666O tamanho máximo estimado do genoma permitido para a sequência de entrada continuar as análises downstream.
--attemptsinteger3Número máximo de tentativas de download
--use_enabooleanBaixa FASTQs do ENA
--no_cachebooleanIgnora o cache do arquivo de resumo de montagem do ncbi-genome-download

Usado Por

Subworkflows

  • bactopia_gather - Pesquisa, valida, coleta e padroniza amostras de entrada.

Workflows

  • bactopia - Pipeline abrangente de análise bacteriana para caracterização genômica completa.
  • cleanyerreads - Controle de qualidade e remoção opcional de reads do hospedeiro a partir de reads de sequenciamento brutos.
  • staphopia - Pipeline de análise abrangente para isolados de Staphylococcus aureus.
  • teton - Classificação taxonômica e perfil de abundância de reads metagenômicos.

Citações

Se você usar este recurso em sua análise, por favor cite os seguintes trabalhos.

Fonte

Ver fonte no GitHub

Versão

BACTOPIA_GATHER:
- bactopia-gather: 1.0.6