Pular para o conteúdo principal

fastani

Tags: ani average-nucleotide-identity similarity comparative-genomics bactopia-tool

Cálculo rápido e sem alinhamento da Identidade Nucleotídica Média (ANI) em escala genômica.

Esta Ferramenta Bactopia utiliza o FastANI para calcular a identidade nucleotídica média (ANI) entre amostras. Também é possível calcular o ANI em relação a genomas de referência, baixando montagens do RefSeq via NCBI genome download.

Uso

Bactopia CLI:

bactopia --wf fastani \
--bactopia /path/to/your/bactopia/results

Nextflow:

nextflow run bactopia/bactopia/workflows/bactopia-tools/fastani/main.nf \
--bactopia /path/to/your/bactopia/results

Saídas

Arquivos de Saída Esperados

<BACTOPIA_DIR>
└── <SAMPLE_NAME>
└── fastani-<TIMESTAMP>
├── GCF_020736045.1_ASM2073604v1_genomic
│ ├── GCF_020736045.1_ASM2073604v1_genomic.tsv
│ └── logs
│ ├── nf.command.{begin,err,log,out,run,sh,trace}
│ └── versions.yml
├── merged-results
│ ├── fastani.tsv
│ └── logs
│ └── fastani-concat
│ ├── nf.command.{begin,err,log,out,run,sh,trace}
│ └── versions.yml
└── nf-reports
├── fastani-dag.dot
├── fastani-report.html
└── fastani-timeline.html

Resultados por Amostra

ArquivoDescrição
*.tsvResultados do FastANI das amostras em relação à referência

Resultados Consolidados

ArquivoDescrição
fastani.tsvArquivo TSV consolidado com os resultados de ANI de todas as amostras

Trilha de Auditoria

Abaixo estão os arquivos que podem ajudar a entender quais parâmetros e versões de programas foram utilizados.

Logs

Cada processo executado terá uma pasta chamada logs. Nessa pasta estão arquivos úteis para consulta caso necessário.

ExtensãoDescrição
.beginArquivo vazio usado para indicar que o processo foi iniciado
.errContém as saídas STDERR do processo
.logContém as saídas STDERR e STDOUT do processo
.outContém as saídas STDOUT do processo
.runO script que o Nextflow usa para preparar/remover arquivos e enfileirar processos com base no perfil definido
.shO script executado pelo bash para o processo
.traceO relatório de rastreamento do Nextflow para o processo
versions.ymlArquivo no formato YAML com as versões dos programas

Relatórios do Nextflow

Esses relatórios do Nextflow fornecem um excelente resumo da execução. Podem ser usados para otimizar o uso de recursos e estimar custos esperados em plataformas de nuvem.

ArquivoDescrição
fastani-dag.dotA visualização DAG do Nextflow
fastani-report.htmlO Relatório de Execução do Nextflow
fastani-timeline.htmlO Relatório de Linha do Tempo do Nextflow
fastani-trace.txtO relatório de Rastreamento do Nextflow

Parâmetros

Parâmetros Obrigatórios

Define onde o pipeline deve buscar os dados de entrada e salvar os dados de saída.

ParâmetroTipoPadrãoDescrição
--bactopiastringO caminho para os resultados do Bactopia a serem usados como entradas

Parâmetros do fastANI

ParâmetroTipoPadrãoDescrição
--fastani_referencestringCaminho para o genoma de referência no formato FASTA
--fastani_kmerinteger16Tamanho do kmer (<= 16) para cálculo do ANI
--fastani_min_fractionnumber0.2Fração mínima do genoma que deve ser compartilhada para confiar no ANI.
--fastani_frag_leninteger3000Tamanho do fragmento
--fastani_skip_pairwisebooleanfalseUsar apenas montagens do RefSeq ou locais para cálculos de ANI

Parâmetros do csvtk concat

ParâmetroTipoPadrãoDescrição
--csvtk_concat_optsstringOpções extras do csvtk concat entre aspas

Parâmetros do NCBI Genome Download

ParâmetroTipoPadrãoDescrição
--speciesstringNome da espécie para baixar as montagens
--accessionstringUm número de acesso de montagem do NCBI a ser baixado
--accessionsstringUm arquivo com números de acesso de montagens do NCBI (um por linha) a serem baixados
--formatstringfastaLista de formatos a serem baixados, separados por vírgula
--sectionstringrefseqSeção do NCBI para download
--assembly_levelstringcompleteLista de níveis de montagem a serem baixados, separados por vírgula
--kingdomstringbacteriaLista de formatos a serem baixados, separados por vírgula
--limitstringLimitar o número de montagens a serem baixadas
--keep_downloadsbooleanfalseSalvar os arquivos baixados na pasta bactopia-runs
Parâmetros de Filtragem

Use estes parâmetros para especificar quais amostras incluir ou excluir.

ParâmetroTipoPadrãoDescrição
--includestringUm arquivo de texto com nomes de amostras (um por linha) a serem incluídas na análise
--excludestringUm arquivo de texto com nomes de amostras (um por linha) a serem excluídas da análise
Parâmetros Opcionais

Estes parâmetros opcionais podem ser úteis em determinadas situações.

ParâmetroTipoPadrãoDescrição
--outdirstringbactopiaDiretório base para salvar os resultados
--skip_compressionbooleanfalseOs arquivos de saída não serão comprimidos
--datasetsstringO caminho para armazenar datasets em cache
--keep_all_filesbooleanfalseMantém todos os arquivos de análise criados
Parâmetros de Limite Máximo de Jobs

Define o limite máximo de recursos solicitados para qualquer job individual.

ParâmetroTipoPadrãoDescrição
--max_retryinteger3Número máximo de tentativas de um processo antes de permitir que falhe.
--max_cpusinteger4Número máximo de CPUs que podem ser solicitadas para qualquer job individual.
--max_memorystring128.GBQuantidade máxima de memória que pode ser solicitada para qualquer job individual.
--max_timestring240.hTempo máximo que pode ser solicitado para qualquer job individual.
--max_downloadsinteger3Número máximo de amostras a serem baixadas por vez
Parâmetros de Configuração do Nextflow

Parâmetros para ajustar a configuração do Nextflow.

ParâmetroTipoPadrãoDescrição
--nfconfigstringUm arquivo de configuração compatível com Nextflow para perfis personalizados, carregado por último e que sobrescreverá variáveis existentes se definido.
--publish_dir_modestringcopyMétodo usado para salvar os resultados do pipeline no diretório de saída. (opções: symlink, rellink, link, copy, copyNoFollow, move)
--infodirstring${params.outdir}/pipeline_infoDiretório para manter os logs e relatórios do Nextflow do pipeline.
--forcebooleanfalseO Nextflow sobrescreverá arquivos de saída existentes.
--cleanup_workdirbooleanfalseApós a execução bem-sucedida do Bactopia, o diretório work será excluído.
Opções de configuração institucional

Parâmetros usados para descrever perfis de configuração centralizados. Estes não devem ser editados.

ParâmetroTipoPadrãoDescrição
--custom_config_versionstringmasterID do commit Git para configurações institucionais.
--custom_config_basestringhttps://raw.githubusercontent.com/nf-core/configs/masterDiretório base para configurações institucionais.
--config_profile_namestringNome do perfil de configuração institucional.
--config_profile_descriptionstringDescrição do perfil de configuração institucional.
--config_profile_contactstringInformações de contato do perfil de configuração institucional.
--config_profile_urlstringLink de URL do perfil de configuração institucional.
Parâmetros de Perfil do Nextflow

Parâmetros para ajustar a configuração do Nextflow.

ParâmetroTipoPadrãoDescrição
--condadirstringDiretório que o Nextflow deve usar para ambientes Conda
--registrystringquay.ioRegistro de onde baixar containers Docker.
--datasets_cachestring<HOME>/.bactopia/datasetsDiretório onde os datasets baixados devem ser armazenados.
--singularity_cachestringDiretório onde as imagens Singularity remotas são armazenadas.
--singularity_pull_docker_containerbooleanEm vez de baixar imagens Singularity diretamente, força o fluxo de trabalho a baixar e converter containers Docker.
--force_rebuildbooleanfalseForça a sobrescrita de ambientes pré-construídos existentes.
--queuestringgeneral,high-memoryNome(s) da(s) fila(s) a serem usadas pelo agendador de jobs, separados por vírgula (ex.: AWS Batch ou SLURM)
--cluster_optsstringOpções adicionais a serem passadas ao executor. (ex.: SLURM: '--account=my_acct_name'
--container_optsstringOpções adicionais a serem passadas ao Apptainer, Docker ou Singularity. (ex.: Singularity: '-D pwd'
--disable_scratchbooleanfalseTodos os arquivos intermediários criados nos nós de trabalho serão transferidos para o nó principal.
Parâmetros Úteis

Parâmetros raramente usados que podem ser úteis.

ParâmetroTipoPadrãoDescrição
--monochrome_logsbooleanNão usar saídas de log coloridas.
--nfdirbooleanExibir o diretório para o qual o Nextflow baixou o Bactopia
--sleep_timeinteger5O tempo (em segundos) que o Nextflow aguardará após configurar os datasets antes de executar.
--validate_paramsbooleantrueDefine se os parâmetros devem ser validados em relação ao esquema em tempo de execução
--helpbooleanExibir texto de ajuda.
--wfstringbactopiaEspecificar qual fluxo de trabalho ou Ferramenta Bactopia executar
--list_wfsbooleanListar os fluxos de trabalho e Ferramentas Bactopia disponíveis para uso com '--wf'
--show_hidden_paramsbooleanMostrar todos os parâmetros ao usar --help
--help_allbooleanUm alias para --help --show_hidden_params
--versionbooleanExibir texto de versão.

Composição

Este fluxo de trabalho utiliza os seguintes subworkflows:

  • fastani - Calcula a Identidade Nucleotídica Média (ANI) entre genomas.
  • ncbigenomedownload - Baixa genomas bacterianos do banco de dados RefSeq do NCBI.

Citações

Se você usar este fluxo de trabalho em sua análise, por favor cite os seguintes trabalhos.

Fonte

Ver fonte no GitHub