Pular para o conteúdo principal

ariba

Tags: fastq assembly resistance virulence gene-detection bactopia-tool

Identificação de genes por meio de montagens locais.

Esta Bactopia Tool utiliza o ARIBA para identificar rapidamente genes em um banco de dados, criando montagens locais a partir de dados de reads curtos. O ARIBA realiza montagem baseada em referência e chamada de variantes para detecção de genes.

Uso

Bactopia CLI:

bactopia --wf ariba \
--bactopia /path/to/your/bactopia/results

Nextflow:

nextflow run bactopia/bactopia/workflows/bactopia-tools/ariba/main.nf \
--bactopia /path/to/your/bactopia/results

Saídas

Arquivos de Saída Esperados

<BACTOPIA_DIR>
├── <SAMPLE_NAME>
│ └── tools
│ └── ariba
│ └── card
│ ├── <SAMPLE_NAME>-report.tsv
│ ├── <SAMPLE_NAME>-summary.csv
│ ├── logs
│ │ └── card
│ │ ├── nf.command.{begin,err,log,out,run,sh,trace}
│ │ └── versions.yml
│ └── supplemental
│ ├── assembled_genes.fa.gz
│ ├── assembled_seqs.fa.gz
│ ├── assemblies.fa.gz
│ ├── debug.report.tsv
│ ├── log.clusters.gz
│ └── version_info.txt
└── bactopia-runs
└── ariba-card-<TIMESTAMP>
├── merged-results
│ ├── card-report.tsv
│ ├── card-summary.csv
│ └── logs
│ ├── card-report-concat
│ │ ├── nf.command.{begin,err,log,out,run,sh,trace}
│ │ └── versions.yml
│ └── card-summary-concat
│ ├── nf.command.{begin,err,log,out,run,sh,trace}
│ └── versions.yml
└── nf-reports
├── ariba-dag.dot
├── ariba-report.html
└── ariba-timeline.html

Resultados por Amostra

ArquivoDescrição
*-report.tsvRelatório de detecção de genes para cada amostra
*-summary.csvResumo dos resultados de detecção de genes
assembled_genes.fa.gzGenes montados em formato FASTA comprimido
assembled_seqs.fa.gzSequências montadas que correspondem às referências
assemblies.fa.gzMontagens locais brutas
debug.report.tsvRelatório detalhado incluindo mutações sinônimas
log.clusters.gzArquivo de log da análise
version_info.txtInformações de versão do ARIBA e suas dependências

Resultados Consolidados

ArquivoDescrição
ariba-report.tsvRelatórios de detecção de genes consolidados de todas as amostras
ariba-summary.csvResumos consolidados de todas as amostras

Trilha de Auditoria

Abaixo estão os arquivos que podem ajudar a entender quais parâmetros e versões de programas foram utilizados.

Logs

Cada processo executado terá uma pasta chamada logs. Nessa pasta há arquivos úteis para consulta, caso necessário.

ExtensãoDescrição
.beginArquivo vazio usado para indicar que o processo foi iniciado
.errContém as saídas STDERR do processo
.logContém as saídas STDERR e STDOUT do processo
.outContém as saídas STDOUT do processo
.runO script que o Nextflow usa para preparar/desfazer o staging de arquivos e enfileirar processos com base no perfil definido
.shO script executado pelo bash para o processo
.traceO relatório de rastreamento do Nextflow para o processo
versions.ymlArquivo no formato YAML com as versões dos programas

Relatórios do Nextflow

Esses relatórios do Nextflow fornecem um ótimo resumo da sua execução. Eles podem ser usados para otimizar o uso de recursos e estimar custos esperados ao utilizar plataformas em nuvem.

Nome do arquivoDescrição
ariba-dag.dotA visualização DAG do Nextflow
ariba-report.htmlO Relatório de Execução do Nextflow
ariba-timeline.htmlO Relatório de Linha do Tempo do Nextflow
ariba-trace.txtO relatório de Rastreamento do Nextflow

Parâmetros

Parâmetros Obrigatórios

Define onde o pipeline deve encontrar os dados de entrada e salvar os dados de saída.

ParâmetroTipoPadrãoDescrição
--bactopiastringO caminho para os resultados do Bactopia a serem usados como entradas

Parâmetros de Execução do Ariba

ParâmetroTipoPadrãoDescrição
--ariba_dbstringUm banco de dados para consultar; se não estiver disponível, será baixado no caminho indicado por --datasets_cache (opções: argannot, card, ncbi, megares, plasmidfinder, resfinder, srst2_argannot, vfdb_core, vfdb_full, virulencefinder)
--ariba_nucmer_min_idinteger90Identidade mínima de alinhamento (delta-filter -i)
--ariba_nucmer_min_leninteger20Comprimento mínimo de alinhamento (delta-filter -i)
--ariba_nucmer_breakleninteger200Valor a ser usado para -breaklen ao executar o nucmer
--ariba_assembly_covinteger50Cobertura de reads alvo ao amostrar reads para montagem
--ariba_min_scaff_depthinteger10Número mínimo de pares de reads necessários como evidência para ligação de scaffold entre dois contigs
--ariba_spades_optionsstringOpções extras a serem passadas ao montador Spades
--ariba_assembled_thresholdnumber0.95Se a proporção do gene montado (independentemente de quantos contigs) for ao menos este valor, então a flag gene_assembled é definida
--ariba_gene_nt_extendinteger30Número máximo de nucleotídeos para estender as extremidades das correspondências de genes em busca de códons de início/parada
--ariba_unique_thresholdnumber0.03Se a proporção de bases no gene montadas mais de uma vez for <= este valor, então a flag unique_contig é definida
--ariba_no_cleanbooleanNão remover os arquivos intermediários criados pelo Ariba.

Parâmetros do csvtk concat

ParâmetroTipoPadrãoDescrição
--csvtk_concat_optsstringOpções extras do csvtk concat entre aspas
Parâmetros de Filtragem

Use estes parâmetros para especificar quais amostras incluir ou excluir.

ParâmetroTipoPadrãoDescrição
--includestringUm arquivo de texto contendo nomes de amostras (um por linha) a serem incluídas na análise
--excludestringUm arquivo de texto contendo nomes de amostras (um por linha) a serem excluídas da análise
Parâmetros Opcionais

Estes parâmetros opcionais podem ser úteis em determinadas situações.

ParâmetroTipoPadrãoDescrição
--outdirstringbactopiaDiretório base para salvar os resultados
--skip_compressionbooleanfalseOs arquivos de saída não serão comprimidos
--datasetsstringO caminho para armazenar em cache os conjuntos de dados
--keep_all_filesbooleanfalseMantém todos os arquivos de análise criados
Parâmetros de Requisição Máxima de Jobs

Define o limite máximo de recursos solicitados para qualquer job individual.

ParâmetroTipoPadrãoDescrição
--max_retryinteger3Número máximo de tentativas de um processo antes de permitir que ele falhe.
--max_cpusinteger4Número máximo de CPUs que podem ser solicitadas para qualquer job individual.
--max_memorystring128.GBQuantidade máxima de memória que pode ser solicitada para qualquer job individual.
--max_timestring240.hTempo máximo que pode ser solicitado para qualquer job individual.
--max_downloadsinteger3Número máximo de amostras para baixar ao mesmo tempo
Parâmetros de Configuração do Nextflow

Parâmetros para ajustar a configuração do Nextflow.

ParâmetroTipoPadrãoDescrição
--nfconfigstringUm arquivo de configuração compatível com Nextflow para perfis personalizados, carregado por último e que substituirá variáveis existentes se definido.
--publish_dir_modestringcopyMétodo usado para salvar os resultados do pipeline no diretório de saída. (opções: symlink, rellink, link, copy, copyNoFollow, move)
--infodirstring${params.outdir}/pipeline_infoDiretório para manter os logs e relatórios do Nextflow do pipeline.
--forcebooleanfalseO Nextflow sobrescreverá arquivos de saída existentes.
--cleanup_workdirbooleanfalseApós a execução bem-sucedida do Bactopia, o diretório work será excluído.
Opções de configuração institucional

Parâmetros usados para descrever perfis de configuração centralizados. Estes não devem ser editados.

ParâmetroTipoPadrãoDescrição
--custom_config_versionstringmasterID de commit Git para configurações institucionais.
--custom_config_basestringhttps://raw.githubusercontent.com/nf-core/configs/masterDiretório base para configurações institucionais.
--config_profile_namestringNome do perfil de configuração institucional.
--config_profile_descriptionstringDescrição do perfil de configuração institucional.
--config_profile_contactstringInformações de contato do perfil de configuração institucional.
--config_profile_urlstringURL do perfil de configuração institucional.
Parâmetros de Perfil do Nextflow

Parâmetros para ajustar a configuração do Nextflow.

ParâmetroTipoPadrãoDescrição
--condadirstringDiretório que o Nextflow deve usar para os ambientes Conda
--registrystringquay.ioRegistro de onde baixar os contêineres Docker.
--datasets_cachestring<HOME>/.bactopia/datasetsDiretório onde os conjuntos de dados baixados devem ser armazenados.
--singularity_cachestringDiretório onde as imagens Singularity remotas são armazenadas.
--singularity_pull_docker_containerbooleanEm vez de baixar diretamente imagens Singularity, força o fluxo de trabalho a baixar e converter contêineres Docker.
--force_rebuildbooleanfalseForça a substituição de ambientes pré-construídos existentes.
--queuestringgeneral,high-memoryNome(s) de fila(s) separados por vírgula a serem usados por um agendador de jobs (ex.: AWS Batch ou SLURM)
--cluster_optsstringOpções adicionais a serem passadas ao executor. (ex.: SLURM: '--account=my_acct_name'
--container_optsstringOpções adicionais a serem passadas ao Apptainer, Docker ou Singularity. (ex.: Singularity: '-D pwd'
--disable_scratchbooleanfalseTodos os arquivos intermediários criados nos nós de trabalho serão transferidos para o nó principal.
Parâmetros Úteis

Parâmetros pouco usados que podem ser úteis em algumas situações.

ParâmetroTipoPadrãoDescrição
--monochrome_logsbooleanNão usar saídas de log coloridas.
--nfdirbooleanExibe o diretório para o qual o Nextflow baixou o Bactopia
--sleep_timeinteger5O tempo (em segundos) que o Nextflow aguardará após configurar os conjuntos de dados antes da execução.
--validate_paramsbooleantrueDefine se os parâmetros devem ser validados em relação ao schema em tempo de execução
--helpbooleanExibe o texto de ajuda.
--wfstringbactopiaEspecifica qual fluxo de trabalho ou Bactopia Tool executar
--list_wfsbooleanLista os fluxos de trabalho e Bactopia Tools disponíveis para uso com '--wf'
--show_hidden_paramsbooleanMostra todos os parâmetros ao usar --help
--help_allbooleanUm atalho para --help --show_hidden_params
--versionbooleanExibe o texto da versão.

Composição

Este fluxo de trabalho utiliza os seguintes subworkflows:

  • ariba - Identifica rapidamente genes criando montagens locais a partir de reads pareados.

Citações

Se você usar este fluxo de trabalho em sua análise, por favor cite o seguinte.

Fonte

Ver fonte no GitHub