Genomic repeats, misassembly and reannotation: a case study with long-read resequencing of Porphyromonas gingivalis reference strains Artículo académico uri icon

Abstracto

  • Antecedentes: Sin el conocimiento de sus secuencias genómicas, es imposible hacer modelos funcionales de las bacterias que forman la microbiota humana y animal. Desafortunadamente, la gran mayoría de los genomas disponibles al público son solo borradores de trabajo, un estado incompleto que causa numerosos problemas y constituye un obstáculo importante para la interpretación genotípica y fenotípica. En este trabajo, comenzamos con un ejemplo de la clase Bacteroidia en el phylum Bacteroidetes, que es preponderante entre la microbiota orodigestiva humana. Identificamos con éxito los loci genéticos responsables de las interrupciones de ensamblaje y los desensamblajes y demostramos la importancia y utilidad de la secuenciación de lectura larga y la reanotación curada. Resultados: Demostramos que la fragmentación en el proyecto de genomas de Bacteroidia ensamblados a partir de secuenciación masivamente paralela se correlaciona linealmente con repeticiones genómicas del mismo tamaño o mayor que las lecturas. También demostramos que algunas de estas repeticiones, especialmente las largas, corresponden a loci mal ensamblados en tres genomas de Porphyromonas gingivalis de referencia marcados como circulares (así completos o terminados). Probamos que incluso con una cobertura modesta (30X), la resecuenciación de lectura larga junto con la verificación de contigüidad de PCR ( rrn operones y un elemento integrador y conjugativo o ICE) se puede utilizar para identificar y corregir las regiones mal combinadas o ensambladas. Finalmente, aunque requiere una biocuración manual consistente, que requiere mucho tiempo y trabajo, de tres P. gingivalis Las cepas nos permitieron comparar y corregir las anotaciones genómicas existentes, lo que resultó en una interpretación más precisa de las diferencias genómicas entre estas cepas. Conclusiones: En este estudio, demostramos la utilidad e importancia de la secuenciación de lectura larga para verificar los genomas publicados (incluso cuando están completos) y generar conjuntos para nuevas cepas / especies bacterianas con alta plasticidad genómica. También mostramos que cuando se combina con procesos de validación biológica y anotación diligente biocurada, esta estrategia ayuda a reducir la propagación de errores en bases de datos compartidas, lo que limita las conclusiones falsas basadas en información incompleta o engañosa.

fecha de publicación

  • 2018