Pular para o conteúdo principal

bactopia_gather

Tags: validation download merging simulation metadata fastq sra ena art sample-scope

Pesquise, valide, colete e padronize amostras de entrada.

Este subworkflow processa amostras de entrada brutas por meio de validação, padronização e coleta de metadados. Ele lida com diversos tipos de entrada, incluindo arquivos FASTQ locais, acessões SRA/ENA, acessões de montagem do NCBI e montagens. O fluxo de trabalho pode mesclar múltiplas execuções de sequenciamento, baixar dados remotos e simular reads a partir de montagens usando ART.

Utiliza campos de registro posicionais explícitos para reads:

  • Entrada: record(meta, r1_files, r2_files, se_files, lr_files) com slots Set<Path> (pré-mesclagem)
  • Saída: record(meta, r1, r2, se, lr) com slots Path? (pós-mesclagem, consolidado)

Take

samples: Channel<Record>
CampoDescrição
metaRegistro Groovy contendo informações da amostra
r1_filesArquivos de reads Illumina R1 (Set, elementos podem ser nulos)
r2_filesArquivos de reads Illumina R2 (Set, elementos podem ser nulos)
se_filesArquivos de reads single-end (Set, elementos podem ser nulos)
lr_filesArquivos de reads longos (ONT/PacBio) ou montagem para simulação (Set, elementos podem ser nulos)

Emit

Publicados

As emissões sample_outputs e run_outputs são agregados de arquivos de saída que serão publicados no fluxo de trabalho de entrada.

sample_outputs

SaídaDescrição
tsvUm arquivo de metadados delimitado por tabulação descrevendo as amostras válidas

run_outputs

SaídaDescrição
csvMetadados agregados de todas as amostras

Entradas para Downstream

As emissões a seguir são destinadas a serem usadas como entradas para subworkflows downstream.

reads

SaídaDescrição
r1Reads Illumina R1 (paired-end forward)
r2Reads Illumina R2 (paired-end reverse)
seReads Illumina single-end
lrReads longos (ONT/PacBio)
fnaArquivo de montagem para amostras baseadas em montagem

Composição do Módulo

Este subworkflow chama os seguintes módulos:

  • bactopia_gather - Pesquisa, valida, coleta ou simula amostras de entrada.
  • csvtk_concat - Concatena múltiplos arquivos CSV ou TSV em uma única tabela.

Usado Por

Este subworkflow é utilizado pelos seguintes fluxos de trabalho:

  • bactopia - Pipeline abrangente de análise bacteriana para caracterização genômica completa.
  • cleanyerreads - Controle de qualidade e remoção opcional de reads do hospedeiro a partir de reads de sequenciamento brutos.
  • staphopia - Pipeline de análise abrangente para isolados de Staphylococcus aureus.
  • teton - Classificação taxonômica e perfilamento de abundância de reads metagenômicos.

Citações

Se você usar isso em sua análise, cite o seguinte.

Fonte

Ver fonte no GitHub