Pular para o conteúdo principal

busco

Tags: assembly completeness assessment orthologs quality-control bactopia-tool

Avaliação da completude da montagem genômica usando expectativas informadas por evolução.

Esta Bactopia Tool utiliza o BUSCO (Benchmarking Universal Single-Copy Orthologs) para avaliar a completude de montagens genômicas buscando ortólogos de cópia única. O fluxo de trabalho processa cada montagem em relação a um conjunto de dados de linhagem especificado e fornece métricas abrangentes de completude.

Uso

Bactopia CLI:

bactopia --wf busco \
--bactopia /path/to/your/bactopia/results

Nextflow:

nextflow run bactopia/bactopia/workflows/bactopia-tools/busco/main.nf \
--bactopia /path/to/your/bactopia/results

Saídas

Arquivos de Saída Esperados

<BACTOPIA_DIR>
├── <SAMPLE_NAME>
│ └── tools
│ └── busco
│ └── bacteria_odb10
│ ├── <SAMPLE_NAME>-summary.txt
│ ├── logs
│ │ ├── bbtools_err.log
│ │ ├── bbtools_out.log
│ │ ├── busco.log
│ │ ├── hmmsearch_err.log
│ │ ├── hmmsearch_out.log
│ │ ├── nf.command.{begin,err,log,out,run,sh,trace}
│ │ ├── prodigal_err.log
│ │ ├── prodigal_mode_single_code_11_err.log
│ │ ├── prodigal_mode_single_code_11_out.log
│ │ ├── prodigal_mode_single_code_4_err.log
│ │ ├── prodigal_mode_single_code_4_out.log
│ │ ├── prodigal_out.log
│ │ └── versions.yml
│ └── supplemental
│ ├── prodigal_output
│ │ └── predicted_genes
│ │ ├── predicted.faa.gz
│ │ ├── predicted.fna.gz
│ │ └── tmp
│ │ ├── prodigal_mode_single_code_11.faa.gz
│ │ ├── prodigal_mode_single_code_11.fna.gz
│ │ ├── prodigal_mode_single_code_4.faa.gz
│ │ └── prodigal_mode_single_code_4.fna.gz
│ ├── run_bacteria_odb10
│ │ ├── .bbtools_output
│ │ ├── busco_sequences
│ │ │ ├── fragmented_busco_sequences
│ │ │ │ ├── 1540940at2.faa.gz
│ │ │ │ ├── 1540940at2.fna.gz
│ │ │ │ ├── 1827334at2.faa.gz
│ │ │ │ ├── 1827334at2.fna.gz
│ │ │ │ ├── 1830156at2.faa.gz
│ │ │ │ ├── 1830156at2.fna.gz
│ │ │ │ ├── 1874945at2.faa.gz
│ │ │ │ ├── 1874945at2.fna.gz
│ │ │ │ ├── 1937072at2.faa.gz
│ │ │ │ ├── 1937072at2.fna.gz
│ │ │ │ ├── 1971380at2.faa.gz
│ │ │ │ ├── 1971380at2.fna.gz
│ │ │ │ ├── 226836at2.faa.gz
│ │ │ │ ├── 226836at2.fna.gz
│ │ │ │ ├── 4421at2.faa.gz
│ │ │ │ ├── 4421at2.fna.gz
│ │ │ │ ├── 469058at2.faa.gz
│ │ │ │ ├── 469058at2.fna.gz
│ │ │ │ ├── 837522at2.faa.gz
│ │ │ │ ├── 837522at2.fna.gz
│ │ │ │ ├── 9601at2.faa.gz
│ │ │ │ ├── 9601at2.fna.gz
│ │ │ │ ├── 981870at2.faa.gz
│ │ │ │ └── 981870at2.fna.gz
│ │ │ ├── multi_copy_busco_sequences
│ │ │ └── single_copy_busco_sequences
│ │ │ ├── 1132353at2.faa.gz
│ │ │ ├── 1132353at2.fna.gz
│ │ │ ├── 1211060at2.faa.gz
│ │ │ ├── 1211060at2.fna.gz
│ │ │ ├── 1456375at2.faa.gz
│ │ │ ├── 1456375at2.fna.gz
│ │ │ ├── 1505038at2.faa.gz
│ │ │ ├── 1505038at2.fna.gz
│ │ │ ├── 1567535at2.faa.gz
│ │ │ ├── 1567535at2.fna.gz
│ │ │ ├── 1666043at2.faa.gz
│ │ │ ├── 1666043at2.fna.gz
│ │ │ ├── 1692188at2.faa.gz
│ │ │ ├── 1692188at2.fna.gz
│ │ │ ├── 1698718at2.faa.gz
│ │ │ ├── 1698718at2.fna.gz
│ │ │ ├── 1707228at2.faa.gz
│ │ │ ├── 1707228at2.fna.gz
│ │ │ ├── 1713391at2.faa.gz
│ │ │ ├── 1713391at2.fna.gz
│ │ │ ├── 1772647at2.faa.gz
│ │ │ ├── 1772647at2.fna.gz
│ │ │ ├── 1786618at2.faa.gz
│ │ │ ├── 1786618at2.fna.gz
│ │ │ ├── 1799923at2.faa.gz
│ │ │ ├── 1799923at2.fna.gz
│ │ │ ├── 1838961at2.faa.gz
│ │ │ ├── 1838961at2.fna.gz
│ │ │ ├── 1893906at2.faa.gz
│ │ │ ├── 1893906at2.fna.gz
│ │ │ ├── 1904463at2.faa.gz
│ │ │ ├── 1904463at2.fna.gz
│ │ │ ├── 1963491at2.faa.gz
│ │ │ ├── 1963491at2.fna.gz
│ │ │ ├── 1978865at2.faa.gz
│ │ │ ├── 1978865at2.fna.gz
│ │ │ ├── 2005443at2.faa.gz
│ │ │ ├── 2005443at2.fna.gz
│ │ │ ├── 2012682at2.faa.gz
│ │ │ ├── 2012682at2.fna.gz
│ │ │ ├── 2035880at2.faa.gz
│ │ │ ├── 2035880at2.fna.gz
│ │ │ ├── 2040741at2.faa.gz
│ │ │ ├── 2040741at2.fna.gz
│ │ │ ├── 2063644at2.faa.gz
│ │ │ ├── 2063644at2.fna.gz
│ │ │ ├── 353391at2.faa.gz
│ │ │ ├── 353391at2.fna.gz
│ │ │ ├── 430176at2.faa.gz
│ │ │ ├── 430176at2.fna.gz
│ │ │ ├── 662686at2.faa.gz
│ │ │ ├── 662686at2.fna.gz
│ │ │ ├── 665824at2.faa.gz
│ │ │ ├── 665824at2.fna.gz
│ │ │ ├── 761140at2.faa.gz
│ │ │ ├── 761140at2.fna.gz
│ │ │ ├── 776861at2.faa.gz
│ │ │ ├── 776861at2.fna.gz
│ │ │ ├── 961486at2.faa.gz
│ │ │ └── 961486at2.fna.gz
│ │ ├── full_table.tsv
│ │ ├── hmmer_output
│ │ │ ├── 1009041at2.out.gz
│ │ │ ├── 1024388at2.out.gz
│ │ │ ├── 1036075at2.out.gz
│ │ │ ├── 1043239at2.out.gz
│ │ │ ├── 1049662at2.out.gz
│ │ │ ├── 1054741at2.out.gz
│ │ │ ├── 1069591at2.out.gz
│ │ │ ├── 1074831at2.out.gz
│ │ │ ├── 1080436at2.out.gz
│ │ │ ├── 1093223at2.out.gz
│ │ │ ├── 1132353at2.out.gz
│ │ │ ├── 1151822at2.out.gz
│ │ │ ├── 1166299at2.out.gz
│ │ │ ├── 1211060at2.out.gz
│ │ │ ├── 1257362at2.out.gz
│ │ │ ├── 1266295at2.out.gz
│ │ │ ├── 1270636at2.out.gz
│ │ │ ├── 1272633at2.out.gz
│ │ │ ├── 1346419at2.out.gz
│ │ │ ├── 1395197at2.out.gz
│ │ │ ├── 1398618at2.out.gz
│ │ │ ├── 1419877at2.out.gz
│ │ │ ├── 143460at2.out.gz
│ │ │ ├── 1456375at2.out.gz
│ │ │ ├── 1470978at2.out.gz
│ │ │ ├── 1490892at2.out.gz
│ │ │ ├── 1491686at2.out.gz
│ │ │ ├── 1497415at2.out.gz
│ │ │ ├── 1502854at2.out.gz
│ │ │ ├── 1504821at2.out.gz
│ │ │ ├── 1505038at2.out.gz
│ │ │ ├── 1540940at2.out.gz
│ │ │ ├── 1567535at2.out.gz
│ │ │ ├── 1572673at2.out.gz
│ │ │ ├── 1574817at2.out.gz
│ │ │ ├── 1590629at2.out.gz
│ │ │ ├── 1592033at2.out.gz
│ │ │ ├── 1595498at2.out.gz
│ │ │ ├── 1623045at2.out.gz
│ │ │ ├── 1661836at2.out.gz
│ │ │ ├── 1666043at2.out.gz
│ │ │ ├── 1671455at2.out.gz
│ │ │ ├── 1674344at2.out.gz
│ │ │ ├── 1676462at2.out.gz
│ │ │ ├── 1692188at2.out.gz
│ │ │ ├── 1698718at2.out.gz
│ │ │ ├── 1701531at2.out.gz
│ │ │ ├── 1702697at2.out.gz
│ │ │ ├── 1707228at2.out.gz
│ │ │ ├── 1713391at2.out.gz
│ │ │ ├── 1720952at2.out.gz
│ │ │ ├── 1758685at2.out.gz
│ │ │ ├── 1760144at2.out.gz
│ │ │ ├── 1766414at2.out.gz
│ │ │ ├── 1772647at2.out.gz
│ │ │ ├── 1776954at2.out.gz
│ │ │ ├── 1786618at2.out.gz
│ │ │ ├── 1799923at2.out.gz
│ │ │ ├── 182107at2.out.gz
│ │ │ ├── 1822215at2.out.gz
│ │ │ ├── 1822695at2.out.gz
│ │ │ ├── 1827295at2.out.gz
│ │ │ ├── 1827334at2.out.gz
│ │ │ ├── 1830156at2.out.gz
│ │ │ ├── 1838961at2.out.gz
│ │ │ ├── 1842956at2.out.gz
│ │ │ ├── 1844275at2.out.gz
│ │ │ ├── 1846503at2.out.gz
│ │ │ ├── 1874945at2.out.gz
│ │ │ ├── 1890943at2.out.gz
│ │ │ ├── 1893906at2.out.gz
│ │ │ ├── 1904463at2.out.gz
│ │ │ ├── 1906715at2.out.gz
│ │ │ ├── 1932144at2.out.gz
│ │ │ ├── 1937072at2.out.gz
│ │ │ ├── 1937493at2.out.gz
│ │ │ ├── 1940575at2.out.gz
│ │ │ ├── 1949059at2.out.gz
│ │ │ ├── 1959318at2.out.gz
│ │ │ ├── 1963491at2.out.gz
│ │ │ ├── 1971380at2.out.gz
│ │ │ ├── 1978865at2.out.gz
│ │ │ ├── 1990141at2.out.gz
│ │ │ ├── 1990650at2.out.gz
│ │ │ ├── 2005443at2.out.gz
│ │ │ ├── 2012682at2.out.gz
│ │ │ ├── 2035880at2.out.gz
│ │ │ ├── 2040741at2.out.gz
│ │ │ ├── 2046660at2.out.gz
│ │ │ ├── 2063644at2.out.gz
│ │ │ ├── 2066663at2.out.gz
│ │ │ ├── 2075502at2.out.gz
│ │ │ ├── 219876at2.out.gz
│ │ │ ├── 223233at2.out.gz
│ │ │ ├── 226836at2.out.gz
│ │ │ ├── 232152at2.out.gz
│ │ │ ├── 26038at2.out.gz
│ │ │ ├── 267682at2.out.gz
│ │ │ ├── 353391at2.out.gz
│ │ │ ├── 384865at2.out.gz
│ │ │ ├── 402899at2.out.gz
│ │ │ ├── 430176at2.out.gz
│ │ │ ├── 4421at2.out.gz
│ │ │ ├── 462069at2.out.gz
│ │ │ ├── 469058at2.out.gz
│ │ │ ├── 504464at2.out.gz
│ │ │ ├── 505485at2.out.gz
│ │ │ ├── 533698at2.out.gz
│ │ │ ├── 662686at2.out.gz
│ │ │ ├── 665824at2.out.gz
│ │ │ ├── 761140at2.out.gz
│ │ │ ├── 776861at2.out.gz
│ │ │ ├── 837522at2.out.gz
│ │ │ ├── 841869at2.out.gz
│ │ │ ├── 874197at2.out.gz
│ │ │ ├── 91428at2.out.gz
│ │ │ ├── 923547at2.out.gz
│ │ │ ├── 932854at2.out.gz
│ │ │ ├── 932993at2.out.gz
│ │ │ ├── 95696at2.out.gz
│ │ │ ├── 9601at2.out.gz
│ │ │ ├── 961486at2.out.gz
│ │ │ ├── 981870at2.out.gz
│ │ │ └── 984717at2.out.gz
│ │ ├── missing_busco_list.tsv
│ │ ├── short_summary.json
│ │ └── short_summary.txt
│ ├── short_summary.specific.bacteria_odb10.<SAMPLE_NAME>.fna.json
│ └── short_summary.specific.bacteria_odb10.<SAMPLE_NAME>.fna.txt
└── bactopia-runs
└── busco-bacteria_odb10-<TIMESTAMP>
├── merged-results
│ ├── busco-bacteria_odb10.tsv
│ └── logs
│ └── busco-bacteria_odb10-concat
│ ├── nf.command.{begin,err,log,out,run,sh,trace}
│ └── versions.yml
└── nf-reports
├── busco-dag.dot
├── busco-report.html
└── busco-timeline.html

Resultados por Amostra

ArquivoDescrição
run_Diretório de saída da análise BUSCO para cada linhagem
run_/full_table.tsvResultados completos com pontuações e comprimentos dos matches do BUSCO
run_/missing_busco_list.tsvLista de genes BUSCO ausentes
run_/short_summary.txtResumo dos resultados da avaliação BUSCO
run_/short_summary.jsonResumo da avaliação BUSCO em formato JSON
*-summary.txtArquivo de resumo BUSCO por amostra
*-summary.jsonResumo BUSCO por amostra em formato JSON

Resultados Consolidados

ArquivoDescrição
busco.tsvArquivo TSV consolidado contendo os resumos BUSCO de todas as amostras

Trilha de Auditoria

A seguir estão os arquivos que podem ajudar a entender quais parâmetros e versões de programas foram utilizados.

Logs

Cada processo executado terá uma pasta chamada logs. Nessa pasta há arquivos úteis para consulta caso necessário.

ExtensãoDescrição
.beginArquivo vazio usado para indicar que o processo foi iniciado
.errContém as saídas STDERR do processo
.logContém as saídas STDERR e STDOUT do processo
.outContém as saídas STDOUT do processo
.runO script que o Nextflow usa para preparar/encerrar arquivos e enfileirar processos conforme o perfil definido
.shO script executado pelo bash para o processo
.traceO relatório de rastreamento do Nextflow para o processo
versions.ymlUm arquivo no formato YAML com as versões dos programas

Relatórios do Nextflow

Esses relatórios do Nextflow fornecem um ótimo resumo da sua execução. Podem ser usados para otimizar o uso de recursos e estimar custos esperados ao usar plataformas em nuvem.

Nome do arquivoDescrição
busco-dag.dotA visualização DAG do Nextflow
busco-report.htmlO Relatório de Execução do Nextflow
busco-timeline.htmlO Relatório de Linha do Tempo do Nextflow
busco-trace.txtO relatório de Rastreamento do Nextflow

Parâmetros

Parâmetros Obrigatórios

Defina onde o pipeline deve encontrar os dados de entrada e salvar os dados de saída.

ParâmetroTipoPadrãoDescrição
--bactopiastringO caminho para os resultados do Bactopia a serem usados como entrada

Parâmetros do BUSCO

ParâmetroTipoPadrãoDescrição
--busco_lineagestringbacteria_odb10Especifica o nome da linhagem BUSCO a ser utilizada
--busco_evaluestring1e-03Limite de E-value para buscas BLAST. Formatos aceitos: 0.001 ou 1e-03
--busco_limitinteger3Total de regiões candidatas a considerar por BUSCO
--busco_metaeuk_parametersstringArgumentos adicionais para a primeira passagem do Metaeuk, entre aspas, separados por vírgulas
--busco_metaeuk_rerun_parametersstringArgumentos adicionais para a segunda passagem do Metaeuk, entre aspas, separados por vírgulas
--busco_use_augustusbooleanfalseUsa o preditor de genes Augustus para execuções em eucariotos
--busco_augustus_parametersstringArgumentos adicionais para o Augustus, entre aspas, separados por vírgulas
--busco_augustus_speciesstringEspecifica uma espécie para o treinamento do Augustus
--busco_augustus_longbooleanfalseModo de auto-treinamento otimizado do Augustus

Parâmetros do csvtk concat

ParâmetroTipoPadrãoDescrição
--csvtk_concat_optsstringOpções extras do csvtk concat entre aspas
Parâmetros de Filtragem

Use estes parâmetros para especificar quais amostras incluir ou excluir.

ParâmetroTipoPadrãoDescrição
--includestringUm arquivo de texto contendo nomes de amostras (um por linha) a incluir na análise
--excludestringUm arquivo de texto contendo nomes de amostras (um por linha) a excluir da análise
Parâmetros Opcionais

Estes parâmetros opcionais podem ser úteis em determinadas situações.

ParâmetroTipoPadrãoDescrição
--outdirstringbactopiaDiretório base para salvar os resultados
--skip_compressionbooleanfalseOs arquivos de saída não serão comprimidos
--datasetsstringO caminho para armazenar em cache os conjuntos de dados
--keep_all_filesbooleanfalseMantém todos os arquivos de análise criados
Parâmetros de Limite Máximo de Recursos

Define o limite máximo de recursos solicitados para qualquer job individual.

ParâmetroTipoPadrãoDescrição
--max_retryinteger3Número máximo de tentativas de um processo antes de permitir que ele falhe.
--max_cpusinteger4Número máximo de CPUs que podem ser solicitadas para qualquer job individual.
--max_memorystring128.GBQuantidade máxima de memória que pode ser solicitada para qualquer job individual.
--max_timestring240.hTempo máximo que pode ser solicitado para qualquer job individual.
--max_downloadsinteger3Número máximo de amostras para baixar simultaneamente
Parâmetros de Configuração do Nextflow

Parâmetros para ajustar a configuração do Nextflow.

ParâmetroTipoPadrãoDescrição
--nfconfigstringUm arquivo de configuração compatível com Nextflow para perfis personalizados, carregado por último e que sobrescreverá variáveis existentes se definido.
--publish_dir_modestringcopyMétodo usado para salvar os resultados do pipeline no diretório de saída. (opções: symlink, rellink, link, copy, copyNoFollow, move)
--infodirstring${params.outdir}/pipeline_infoDiretório para manter os logs e relatórios do Nextflow do pipeline.
--forcebooleanfalseO Nextflow sobrescreverá arquivos de saída existentes.
--cleanup_workdirbooleanfalseApós a execução bem-sucedida do Bactopia, o diretório work será excluído.
Opções de configuração institucional

Parâmetros usados para descrever perfis de configuração centralizados. Estes não devem ser editados.

ParâmetroTipoPadrãoDescrição
--custom_config_versionstringmasterID do commit Git para configurações institucionais.
--custom_config_basestringhttps://raw.githubusercontent.com/nf-core/configs/masterDiretório base para configurações institucionais.
--config_profile_namestringNome do perfil de configuração institucional.
--config_profile_descriptionstringDescrição do perfil de configuração institucional.
--config_profile_contactstringInformações de contato do perfil de configuração institucional.
--config_profile_urlstringLink URL do perfil de configuração institucional.
Parâmetros de Perfil do Nextflow

Parâmetros para ajustar a configuração do Nextflow.

ParâmetroTipoPadrãoDescrição
--condadirstringDiretório que o Nextflow deve usar para ambientes Conda
--registrystringquay.ioRegistro de onde baixar os containers Docker.
--datasets_cachestring<HOME>/.bactopia/datasetsDiretório onde os conjuntos de dados baixados devem ser armazenados.
--singularity_cachestringDiretório onde as imagens Singularity remotas são armazenadas.
--singularity_pull_docker_containerbooleanEm vez de baixar diretamente as imagens Singularity, força o fluxo de trabalho a baixar e converter containers Docker.
--force_rebuildbooleanfalseForça a sobrescrita de ambientes pré-construídos existentes.
--queuestringgeneral,high-memoryNome(s) da(s) fila(s) separados por vírgula a serem usados pelo agendador de jobs (ex.: AWS Batch ou SLURM)
--cluster_optsstringOpções adicionais para passar ao executor. (ex.: SLURM: '--account=my_acct_name'
--container_optsstringOpções adicionais para passar ao Apptainer, Docker ou Singularity. (ex.: Singularity: '-D pwd'
--disable_scratchbooleanfalseTodos os arquivos intermediários criados nos nós de trabalho serão transferidos para o nó principal.
Parâmetros Úteis

Parâmetros raramente utilizados que podem ser convenientes em alguns casos.

ParâmetroTipoPadrãoDescrição
--monochrome_logsbooleanNão usar saídas de log coloridas.
--nfdirbooleanExibe o diretório para o qual o Nextflow baixou o Bactopia
--sleep_timeinteger5Tempo (em segundos) que o Nextflow aguardará após configurar os conjuntos de dados antes da execução.
--validate_paramsbooleantrueDefine se os parâmetros devem ser validados em relação ao esquema em tempo de execução
--helpbooleanExibe o texto de ajuda.
--wfstringbactopiaEspecifica qual fluxo de trabalho ou Bactopia Tool executar
--list_wfsbooleanLista os fluxos de trabalho e Bactopia Tools disponíveis para uso com '--wf'
--show_hidden_paramsbooleanMostra todos os parâmetros ao usar --help
--help_allbooleanUm alias para --help --show_hidden_params
--versionbooleanExibe o texto da versão.

Composição

Este fluxo de trabalho utiliza os seguintes subworkflows:

  • busco - Avalia a completude da montagem genômica usando BUSCO.

Citações

Se você usar isto em sua análise, por favor cite os seguintes trabalhos.

Fonte

Ver fonte no GitHub