{"id":22394,"date":"2021-04-28T11:32:44","date_gmt":"2021-04-28T17:32:44","guid":{"rendered":"https:\/\/otech.uaeh.edu.mx\/noti\/?p=22394"},"modified":"2021-04-28T11:33:44","modified_gmt":"2021-04-28T17:33:44","slug":"hacia-conjuntos-genomicos-completos-y-sin-errores-de-todas-las-especies-de-vertebrados","status":"publish","type":"post","link":"https:\/\/otech.uaeh.edu.mx\/noti\/ciencia\/hacia-conjuntos-genomicos-completos-y-sin-errores-de-todas-las-especies-de-vertebrados\/","title":{"rendered":"Hacia conjuntos gen\u00f3micos completos y sin errores de todas las especies de vertebrados"},"content":{"rendered":"
\n
\n
\n

Los genomas de referencia a nivel cromos\u00f3mico sustentan el estudio de la gen\u00f3mica funcional, comparativa y poblacional dentro y entre especies. <\/span><\/span><\/span><\/span>\u00a0Los primeros conjuntos de genomas de alta calidad de humanos\u00a0 <\/span><\/span><\/span><\/span>1<\/span><\/span><\/span><\/span><\/a><\/sup> \u00a0y otras especies modelo (por ejemplo,\u00a0 <\/span><\/span><\/span><\/span>Caenorhabditis elegans\u00a0 <\/span><\/span><\/span><\/span><\/i>2<\/span><\/span><\/span><\/span><\/a><\/sup> \u00a0, rat\u00f3n\u00a0 <\/span><\/span><\/span><\/span>3<\/span><\/span><\/span><\/span><\/a><\/sup> \u00a0y pez cebra\u00a0 <\/span><\/span><\/span><\/span>4<\/span><\/span><\/span><\/span><\/a><\/sup> \u00a0) se reunieron utilizando lecturas de secuenciaci\u00f3n de Sanger de 500 a 1000 pares de bases (pb) de millas de lecturas organizadas jer\u00e1rquicamente clones con inserciones de 200-300 kilobase (kb) y mapas gen\u00e9ticos de cromosomas. <\/span><\/span><\/span>Este enfoque requiri\u00f3 un gran esfuerzo manual, ingenier\u00eda de software y costos, en proyectos de una d\u00e9cada.<\/span><\/span><\/span>Los enfoques de escopeta de genoma completo simplificaron la log\u00edstica (por ejemplo, en humanos\u00a0 <\/span><\/span><\/span><\/span>7<\/span><\/span><\/span><\/span><\/a><\/sup> \u00a0y\u00a0 <\/span><\/span><\/span><\/span>Drosophila\u00a0 <\/span><\/span><\/span><\/span><\/i>8<\/span><\/span><\/span><\/span><\/a><\/sup>), y la secuenciaci\u00f3n posterior de pr\u00f3xima generaci\u00f3n con lecturas de secuenciaci\u00f3n m\u00e1s cortas (30-150 pb) y tama\u00f1os de inserto cortos (por ejemplo, 1 kb) marc\u00f3 el comienzo de una secuenciaci\u00f3n del genoma m\u00e1s asequible y escalable\u00a0 <\/span><\/span><\/span><\/span>9<\/span><\/span><\/span><\/span><\/a><\/sup> \u00a0. <\/span><\/span><\/span>Sin embargo, las lecturas m\u00e1s cortas dieron como resultado ensamblajes de menor calidad, fragmentados en millas de piezas, donde faltaban muchos genes, estaban truncados o ensamblados incorrectamente, lo que result\u00f3ba en anotaciones y otros errores\u00a0 <\/span><\/span><\/span><\/span>10<\/span><\/span><\/span><\/span><\/a><\/sup> Tales errores pueden requerir meses de esfuerzo manual para corregir genes individuales y a\u00f1os para corregir un ensamblaje completo.<\/span><\/span><\/span><\/span> \u00a0.<\/span><\/span><\/span>La heterocigosidad gen\u00f3mica plante\u00f3 problemas adicionales, porque los haplotipos hom\u00f3logos en un genoma diploide o poliploide son forzados a unirse en un \u00fanico consenso por ensambladores est\u00e1ndar, creando a veces duplicaciones de genes falsas\u00a0 <\/span><\/span><\/span><\/span>11<\/span><\/span><\/span><\/span><\/a> \u00a0,\u00a0 <\/span><\/span><\/span><\/span>12<\/span><\/span><\/span><\/span><\/a> ,\u00a0 <\/span><\/span><\/span><\/span>13<\/span><\/span><\/span><\/span><\/a> \u00a0,\u00a0 <\/span><\/span><\/span><\/span>14<\/span><\/span><\/span><\/span><\/a><\/sup> \u00a0.<\/span><\/span><\/span><\/span><\/span><\/p>\n

Para abordar estos problemas, el consorcio G10K\u00a0 <\/span><\/span>5<\/span><\/span><\/a> \u00a0,\u00a0 <\/span><\/span>6<\/span><\/span><\/a><\/sup> \u00a0inici\u00f3 el Proyecto de Genomas de Vertebrados (VGP;\u00a0 <\/span><\/span>https:\/\/vertebrategenomesproject.org<\/span><\/span><\/a> \u00a0) con el objetivo final de producir al menos un cromosoma de alta calidad, casi libre de errores y sin espacios . <\/span>, ensamblaje del genoma de referencia anotado y en fase de haplotipos para cada una de las 71.657 especies de vertebrados nombradas existentes y el uso de estos genomas para abordar cuestiones fundamentales en biolog\u00eda, enfermedades y conservaci\u00f3n de la biodiversidad. <\/span>Con este fin, habiendo aprendido las lecciones de tener demasiadas variables que hacen que las conclusiones sean m\u00e1s dif\u00edciles de alcanzar en el G10K del esfuerzo del G10K Assemblathon 2\u00a0 <\/span><\/span>15<\/span><\/span><\/a><\/sup>, primero evaluamos enfoques de secuenciaci\u00f3n y ensamblaje del genoma extensamente en una especie, el colibr\u00ed de Anna (\u00a0 <\/span><\/span>Calypte anna<\/span><\/span><\/i> \u00a0). <\/span>Luego implementamos el m\u00e9todo de mejor rendimiento en diecis\u00e9is especies que representan seis clases principales de vertebrados, con una amplia diversidad de caracter\u00edsticas gen\u00f3micas. <\/span>Bas\u00e1ndonos en los principios aprendidos, mejoramos a\u00fan m\u00e1s estos m\u00e9todos, descubrimos par\u00e1metros y enfoques que funcionan mejor para especies con diferentes caracter\u00edsticas gen\u00f3micas y realizamos descubrimientos biol\u00f3gicos que no han sido posibles con los ensamblajes anteriores.<\/span><\/span><\/span><\/p>\n<\/div>\n<\/div>\n<\/section>\n

\n
\n

Los ensamblajes completos y precisos requieren lecturas largas<\/span><\/span><\/span><\/h2>\n
\n

Elegimos una hembra de colibr\u00ed de Anna porque tiene un genoma relativamente peque\u00f1o (alrededor de 1 Gb), es heterogam\u00e9tico (tiene cromosomas sexuales Z y W) y tiene una referencia anotada del mismo individuo construida a partir de lecturas cortas\u00a016<\/a><\/sup>\u00a0.\u00a0Obtuvimos 12 nuevos tipos de datos de secuenciaci\u00f3n, incluidas lecturas cortas y largas (80 bp a 100 kb) e informaci\u00f3n de enlace de largo alcance (40 kb a m\u00e1s de 100 Mb), generada utilizando ocho tecnolog\u00edas (Tabla complementaria\u00a01<\/a>\u00a0).\u00a0Comparamos todas las tecnolog\u00edas y algoritmos de ensamblaje (Tabla complementaria\u00a02<\/a>\u00a0) de forma aislada y en muchas combinaciones (Tabla complementaria\u00a03<\/a>).\u00a0Hasta donde sabemos, este fue el primer an\u00e1lisis sistem\u00e1tico de muchas tecnolog\u00edas de secuencia, algoritmos de ensamblaje y par\u00e1metros de ensamblaje aplicados al mismo individuo.\u00a0Encontramos que las secuencias contiguas primarias (contigs) (pseudohaplotipo; Nota complementaria\u00a0\u00a01<\/a>\u00a0) ensambladas a partir de lecturas largas continuas (CLR) de Pacific Biosciences o lecturas largas de Oxford Nanopore (ONT) eran aproximadamente de 30 a 300 veces m\u00e1s largas que las ensambladas de Illumina lecturas cortas (SR), independientemente de la combinaci\u00f3n de tipos de datos o el algoritmo de ensamblaje utilizado (Fig.\u00a01a<\/a>\u00a0, Tabla complementaria\u00a03<\/a>\u00a0).\u00a0Los contig NG50 m\u00e1s altos para ensamblajes de solo lectura cortos fueron de aproximadamente 0.025 a 0.169 Mb, mientras que para lecturas largas fueron de aproximadamente 4.6 a 7.66 Mb (Fig.\u00a01a<\/a>);\u00a0contig NG50 es una m\u00e9trica de ensamblaje basada en una mediana ponderada de las longitudes de sus secuencias sin espacios en relaci\u00f3n con el tama\u00f1o estimado del genoma.\u00a0Despu\u00e9s de fijar una funci\u00f3n en el software PacBio FALCON\u00a017<\/a><\/sup>\u00a0que causaba roturas artificiales en contigs entre tramos de secuencias de haplotipos altamente homocigotos y heterozigotos (Nota complementaria\u00a0\u00a01<\/a>\u00a0, Tabla complementaria\u00a02<\/a>\u00a0), contig NG50 casi se triplic\u00f3 a 12,77 Mb (Fig.\u00a01a<\/a>\u00a0).\u00a0Estos hallazgos son consistentes con las predicciones te\u00f3ricas\u00a018<\/a><\/sup>\u00a0y demostrar que, dada la tecnolog\u00eda de secuenciaci\u00f3n actual y los algoritmos de ensamblaje, no es posible lograr una alta continuidad de contig solo con lecturas cortas, ya que normalmente es imposible hacer un puente a trav\u00e9s de repeticiones que son m\u00e1s largas que la longitud de lectura.<\/span><\/p>\n

\n
Fig. 1: An\u00e1lisis comparativos de los conjuntos del genoma del colibr\u00ed de Anna con varios tipos de datos.<\/b><\/span><\/figcaption>
\n
\"Figura<\/picture><\/a><\/span><\/div>\n
\n

a<\/b>\u00a0, Valores de Contig NG50 del pseudohaplotipo primario.\u00a0b<\/b>\u00a0, Valores del andamio NG50.\u00a0c<\/b>\u00a0, N\u00famero de uniones (huecos).\u00a0d<\/b>\u00a0, N\u00famero de errores de uni\u00f3n incorrecta en comparaci\u00f3n con el ensamblaje seleccionado.\u00a0El ensamblado curado no tiene conflictos restantes con los datos sin procesar y, por lo tanto, no se conocen errores de combinaci\u00f3n.\u00a0* Igual que CLR + vinculado + Opc.\u00a0+ Hi-C, pero con contigs generados con una\u00a0versi\u00f3n\u00a0actualizada de FALCON\u00a017<\/a><\/sup>\u00a0y una versi\u00f3n anterior de Hi-C Salsa (v2.0 versus v2.2; Tabla complementaria\u00a02<\/a>\u00a0) para uniones de contig menos agresivas.\u00a0e<\/b>\u00a0,\u00a0f<\/b>, Mapas de calor de interacci\u00f3n Hi-C antes y despu\u00e9s de la curaci\u00f3n manual, que identificaron 34 cromosomas.\u00a0Las l\u00edneas de cuadr\u00edcula indican los l\u00edmites del andamio.\u00a0Flecha roja, ejemplo de combinaci\u00f3n incorrecta que se corrigi\u00f3 durante la curaci\u00f3n.\u00a0g<\/b>\u00a0, Cariotipo de los cromosomas identificados (\u00a0n<\/i>\u00a0\u00a0= 36 + ZW), consistente con hallazgos previos\u00a070<\/a><\/sup>\u00a0.\u00a0h<\/b>\u00a0, Correlaci\u00f3n entre los tama\u00f1os de cromosomas estimados (en Mb) basados \u200b\u200ben im\u00e1genes de cariotipo en\u00a0gy<\/b>\u00a0andamios ensamblados en la Tabla complementaria\u00a04<\/a>\u00a0(bCalAna1) en una escala logar\u00edtmica.\u00a0v1.0, tuber\u00eda de ensamblaje VGP v1.0;\u00a0lecturas vinculadas 10X Genomics;\u00a0Ligadura de proximidad Hi-C, Hi-C;\u00a0Lecturas largas 1D, 2D, Oxford Nanopore;\u00a0Lecturas de Illumina de extremo emparejado NRGene, NRGene;\u00a0SR, lecturas cortas de Illumina de extremo emparejado.<\/span><\/p>\n<\/div>\n<\/div>\n

Imagen de tama\u00f1o completo<\/a><\/span><\/div>\n<\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/section>\n
\n
\n

Tuber\u00eda de montaje iterativa<\/span><\/h2>\n
\n

Los andamios generados con las tres tecnolog\u00edas de andamios (es decir, lecturas vinculadas 10X Genomics (10XG), mapas \u00f3pticos Bionano (Opt.) Y Arima Genomics, Dovetail Genomics o Phase Genomics Hi-C) fueron aproximadamente 50% a 150% m\u00e1s largos que los generados usando una o dos tecnolog\u00edas, independientemente de si comenzamos con contigs de lectura corta o larga (Fig.\u00a01b<\/a>\u00a0, Datos extendidos Fig.\u00a01a<\/a>\u00a0, Tabla complementaria\u00a03<\/a>\u00a0).\u00a0Estos hallazgos incluyen mejoras que hicimos en cada enfoque (Nota complementaria\u00a0\u00a01<\/a>\u00a0, Tablas complementarias\u00a04<\/a>\u00a0,\u00a05<\/a>\u00a0, Figura complementaria\u00a01<\/a>).\u00a0A pesar de una continuidad similar del andamio, los conjuntos de s\u00f3lo lectura corta ten\u00edan entre 18.000 y 70.000 espacios, mientras que los conjuntos de lectura larga ten\u00edan sustancialmente menos espacios (entre 400 y 4.000) (figura\u00a01c<\/a>\u00a0).\u00a0Muchas lagunas en los ensamblajes de lectura corta estaban en regiones repetidas o ricas en GC.\u00a0Teniendo en cuenta que la versi\u00f3n seleccionada de este ensamblaje es m\u00e1s precisa, tambi\u00e9n identificamos aproximadamente entre 5.000 y 8.000 combinaciones incorrectas en ensamblajes de lectura corta, mientras que los ensamblajes basados \u200b\u200ben lecturas largas solo ten\u00edan entre 20 y alrededor de 700 combinaciones incorrectas (Fig.\u00a01d<\/a>\u00a0).\u00a0Estas uniones err\u00f3neas incluyeron uniones e inversiones quim\u00e9ricas.\u00a0Despu\u00e9s de que curamos este ensamblaje para detectar contaminaci\u00f3n, errores de ensamblaje y asignaciones de cromosomas basados \u200b\u200ben Hi-C (\u00a0Fig.1e, f<\/a>), el ensamblaje final del colibr\u00ed ten\u00eda 33 andamios que coincid\u00edan estrechamente con el cariotipo cromos\u00f3mico en n\u00famero (33 de 36 autosomas m\u00e1s cromosomas sexuales) y tama\u00f1os estimados (aproximadamente 2 a 200 Mb; Fig.\u00a01g, h<\/a>\u00a0), con solo 1 a 30 espacios por autosoma (bCalAnn1 en la Tabla complementaria\u00a06<\/a>\u00a0).\u00a0De los cinco autosomas con s\u00f3lo una brecha cada uno, tres (cromosomas 14, 15, y 19) ten\u00edan soporte completo spanning por al menos dos tecnolog\u00edas (bloques fiables, Extended Data Fig.\u00a01c<\/a>\u00a0; bCalAnn1 en el cuadro complementario\u00a06<\/a>\u00a0), lo que indica que el cromosoma los contigs estaban casi completos.\u00a0Sin embargo, que se estaban perdiendo largas series de repeticiones telom\u00e9ricas de vertebrado dentro de 1 kb de sus extremos (Extended Data Fig.\u00a01c<\/a>\u00a0; bCalAnn1 en los cuadros suplementarios6<\/a>\u00a0,\u00a07<\/a>\u00a0).<\/span><\/p>\n<\/div>\n<\/div>\n<\/section>\n

\n
\n

L\u00ednea de ensamblaje a trav\u00e9s de la diversidad de vertebrados<\/span><\/h2>\n
\n

Utilizando la f\u00f3rmula que proporcion\u00f3 el genoma de colibr\u00ed de la m\u00e1s alta calidad, construimos una tuber\u00eda de ensamblaje de VGP iterativa (v1.0) con contigs CLR separados por haplotipos, seguido de andamios con lecturas vinculadas, mapas \u00f3pticos y Hi-C, y luego relleno de espacios , pulido de llamadas de base y finalmente curado manual (Datos extendidos, Figs.\u00a02<\/a>\u00a0a,\u00a03a<\/a>\u00a0).\u00a0Probamos sistem\u00e1ticamente nuestra l\u00ednea en 15 especies adicionales que abarcan todas las clases principales de vertebrados: mam\u00edferos, aves, reptiles no aviares, anfibios, peces tele\u00f3steos y peces cartilaginosos (Tablas complementarias\u00a08<\/a>\u00a0,\u00a09<\/a>\u00a0, Nota complementaria\u00a0\u00a02<\/a>\u00a0).\u00a0Para el pinz\u00f3n cebra, usamos ADN del mismo macho que se us\u00f3 para generar el genoma de referencia anterior\u00a019<\/a><\/sup>, e incluy\u00f3 un tr\u00edo de hembras para la evaluaci\u00f3n comparativa de la completitud del haplotipo, donde las lecturas secuenciadas de los padres se utilizaron para agrupar las lecturas del haplotipo parental de la descendencia antes del ensamblaje\u00a020<\/a><\/sup>\u00a0(Datos extendidos, Figuras\u00a02<\/a>\u00a0a,\u00a03b<\/a>\u00a0).\u00a0Establecimos metas m\u00e9tricas de ensamblaje m\u00ednimo inicial de: 1 Mb contig NG50;\u00a0Andamio de 10 Mb NG50;\u00a0asignar el 90% de la secuencia a los cromosomas, validado estructuralmente por al menos dos l\u00edneas independientes de evidencia;\u00a0Q40 calidad base media;\u00a0y haplotipos ensamblados de la manera m\u00e1s completa y correcta posible.\u00a0Cuando se lograron estas m\u00e9tricas, la mayor\u00eda de los genes se ensamblaron con estructuras\u00a0de<\/a><\/sup>\u00a0exones e intrones sin espacios\u00a011<\/a><\/sup>y menos del 3% ten\u00eda errores de base de desplazamiento de fotogramas identificados en la anotaci\u00f3n.\u00a0Q40 es el punto de inflexi\u00f3n matem\u00e1tica en el que los genes pasan de que normalmente contienen un error a que normalmente no contienen\u00a021<\/a><\/sup>\u00a0.\u00a0De los ensamblajes seleccionados (Tabla complementaria\u00a010<\/a>\u00a0, Nota complementaria\u00a0\u00a02<\/a>\u00a0), 16 de 17 lograron las m\u00e9tricas de continuidad deseadas (Tabla de datos ampliados\u00a01<\/a>\u00a0).\u00a0El andamio NG50 se correlacion\u00f3 significativamente con el tama\u00f1o del genoma (Fig.\u00a02a<\/a>\u00a0), lo que sugiere que los genomas m\u00e1s grandes tienden a tener cromosomas m\u00e1s grandes.\u00a0En promedio, el 98,3% de las bases ensambladas ten\u00edan NG50 de bloque confiables que van desde 2,3 a 40,2 Mb;\u00a0bases de repetici\u00f3n colapsadas\u00a022<\/a><\/sup>con una cobertura de lectura de CLR anormalmente alta (m\u00e1s de 3 sd) oscil\u00f3 entre 0,7 y 31,4 Mb por Gb;\u00a0y la integridad de los ensamblajes del genoma oscil\u00f3 entre 87,2 y 98,1%, con menos del 4,9% de regiones duplicadas falsamente, lo que coincide con la tasa de duplicaci\u00f3n falsa que encontramos para el conjunto de genes de vertebrados BUSCO conservados (Tabla de datos ampliados\u00a01<\/a>\u00a0, Tablas complementarias\u00a011<\/a>\u00a0,\u00a012<\/a>\u00a0) .<\/span><\/p>\n

\n
Fig. 2: Impacto de las repeticiones y la heterocigosidad en la calidad del ensamblaje.<\/b><\/span><\/figcaption>
\n
\"Figura<\/picture><\/a><\/span><\/div>\n
\n

a<\/b>\u00a0, Correlaci\u00f3n entre el andamio NG50 y el tama\u00f1o del genoma de los ensamblajes seleccionados.\u00a0b<\/b>\u00a0, Correlaci\u00f3n no lineal entre contig NG50 y contenido repetido, antes y despu\u00e9s de la curaci\u00f3n.\u00a0c<\/b>\u00a0, Correlaci\u00f3n entre el n\u00famero de huecos por Gb reunidos y el contenido repetido.\u00a0d<\/b>\u00a0, Correlaci\u00f3n entre el tama\u00f1o del ensamblaje primario en relaci\u00f3n con el tama\u00f1o estimado del genoma (\u00a0\u00a0eje\u00a0y<\/i>\u00a0) y la heterocigosidad del genoma (\u00a0\u00a0eje\u00a0x<\/i>\u00a0), antes y despu\u00e9s de la purga de duplicaciones falsas.\u00a0Los tama\u00f1os de ensamblaje superiores al 100% indican la presencia de duplicaciones falsas y los inferiores al 100% indican repeticiones colapsadas.\u00a0e<\/b>\u00a0,\u00a0f<\/b>\u00a0, Correlaciones entre la tasa de duplicaci\u00f3n del genoma utilizando\u00a0k<\/i>\u00a0-mers\u00a023<\/a><\/sup>(\u00a0e<\/b>\u00a0) y conjunto de genes de vertebrados BUSCO conservados (\u00a0f<\/b>\u00a0), y heterocigosidad del genoma antes y despu\u00e9s de la purga de duplicaciones falsas.\u00a0g<\/b>\u00a0,\u00a0h<\/b>\u00a0, como en\u00a0e<\/b>\u00a0,\u00a0f<\/b>\u00a0, pero con contenido de repetici\u00f3n del genoma completo antes y despu\u00e9s de la purga de duplicaciones falsas.\u00a0El tama\u00f1o del genoma, la heterocigosidad y el contenido de repetici\u00f3n se estimaron a partir de recuentos de 31 meros usando GenomeScope\u00a071<\/a><\/sup>\u00a0, excepto para el canal bull blenny, ya que las estimaciones no eran confiables (ver\u00a0\u00a0M\u00e9todos<\/a>\u00a0).\u00a0El contenido repetido se midi\u00f3 modelando la\u00a0multiplicidad de\u00a0k-<\/i>\u00a0mer a partir de lecturas de secuenciaci\u00f3n.\u00a0Las tasas de duplicaci\u00f3n de secuencia se estimaron con Merqury\u00a023<\/a><\/sup>\u00a0utilizando 21-mers.\u00a0*P<\/i>\u00a0\u00a0<0,05;\u00a0**\u00a0P<\/i>\u00a0\u00a0<0,01;\u00a0***\u00a0P<\/i>\u00a0\u00a0<0,001, del coeficiente de correlaci\u00f3n:\u00a0P<\/i>\u00a0valores y ajustado\u00a0r\u00a0<\/i>2<\/i><\/sup>\u00a0de\u00a0F<\/i>\u00a0-estad\u00edsticas.\u00a0n<\/i>\u00a0\u00a0= 17 conjuntos de 16 especies.<\/span><\/p>\n<\/div>\n<\/div>\n

Imagen de tama\u00f1o completo<\/a><\/span><\/div>\n<\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/section>\n
\n
\n

Las repeticiones afectan notablemente la continuidad.<\/span><\/h2>\n
\n

Para los ensamblajes generados usando nuestra tuber\u00eda automatizada (Datos extendidos Fig.\u00a03a<\/a>\u00a0) antes de la curaci\u00f3n manual, todos menos 2 (el pat\u00edn espinoso y el canal toro blenny) de los 17 ensambles excedieron las m\u00e9tricas de continuidad deseadas (Tabla complementaria\u00a013<\/a>\u00a0).\u00a0En la b\u00fasqueda de una explicaci\u00f3n de estos resultados, encontramos que contig NG50 disminuy\u00f3 exponencialmente con el aumento del contenido de repetici\u00f3n, con la raya espinosa teniendo el mayor contenido de repetici\u00f3n (Fig.\u00a02b<\/a>\u00a0, Tabla complementaria\u00a013<\/a>\u00a0).\u00a0En consecuencia, despu\u00e9s del andamio y el llenado de huecos, observamos una correlaci\u00f3n positiva significativa entre el contenido repetido y el n\u00famero de huecos (\u00a0Fig.2c<\/a>).\u00a0El loro k\u0101k\u0101p\u014d, que ten\u00eda un 15% de contenido repetido, ten\u00eda aproximadamente 325 espacios por Gb, incluidos 2 de 26 cromosomas sin espacios (cromosomas 16 y 18) y sin evidencia de colapso o bajo soporte, lo que sugiere que los contigs cromos\u00f3micos estaban completos (bStrHab1 en la Tabla complementaria\u00a06<\/a>\u00a0).\u00a0Por el contrario, la raya espinosa, con un contenido de repetici\u00f3n del 54%, ten\u00eda alrededor de 1.400 huecos por Gb (Tabla de datos ampliados\u00a01<\/a>\u00a0);\u00a0ninguno de sus 49 andamios a nivel cromos\u00f3mico conten\u00eda menos de ocho espacios, y todos ten\u00edan algunas regiones que conten\u00edan colapsos o poco apoyo (sAmbRad1 en la Tabla complementaria\u00a06<\/a>\u00a0).\u00a0Incluso despu\u00e9s de la conservaci\u00f3n y otras modificaciones para aumentar la calidad del ensamblaje (Nota complementaria\u00a0\u00a02<\/a>), el n\u00famero de colapsos, su tama\u00f1o total, las bases que faltan y el n\u00famero de genes en los colapsos se correlacionan con el contenido repetido (Datos extendidos Fig.\u00a04a-d<\/a>\u00a0).\u00a0Sin embargo, la longitud de colapso promedio se correlacion\u00f3 con las longitudes de lectura de CLR promedio (10\u201335 kb; Datos extendidos Fig.\u00a04e<\/a>\u00a0).\u00a0No hubo correlaciones entre el n\u00famero de bases colapsadas y la heterocigosidad o el tama\u00f1o del genoma (Datos extendidos Fig.\u00a04f, g<\/a>\u00a0).\u00a0Dependiendo de la especie, del 77,4 al 99,2% de las regiones colapsadas consistieron en duplicaciones segmentarias no resueltas (Datos extendidos, Fig.\u00a04h<\/a>\u00a0).\u00a0El resto fueron repeticiones de alto n\u00famero de copias, en su mayor\u00eda de tipos previamente desconocidos (Datos extendidos,\u00a0Fig.4i<\/a>), y de tipos conocidos como matrices de sat\u00e9lites, repeticiones simples, repeticiones terminales largas (LTR) y elementos nucleares intercalados cortos y largos (SINE y LINE), seg\u00fan la especie (Datos extendidos, Fig.\u00a04j<\/a>\u00a0).\u00a0Descubrimos que el enmascaramiento repetido antes de generar contigs imped\u00eda que algunas repeticiones llegaran al ensamblaje final (Nota complementaria\u00a0\u00a03<\/a>\u00a0).\u00a0Todos los hallazgos anteriores demuestran cuantitativamente el efecto que tiene el contenido repetido en la capacidad de producir ensamblajes muy continuos y completos.<\/span><\/p>\n<\/div>\n<\/div>\n<\/section>\n

\n
\n

Detecci\u00f3n y eliminaci\u00f3n de falsas duplicaciones<\/span><\/h2>\n
\n

Durante la curaci\u00f3n, descubrimos que uno de los errores de ensamblaje m\u00e1s comunes era la introducci\u00f3n de duplicaciones falsas, que pueden malinterpretarse como duplicaciones de ex\u00f3n, gen completo o grandes segmentos.\u00a0Observamos dos tipos de duplicaciones falsas: 1) duplicaciones de heterotipos, que ocurrieron en regiones de mayor divergencia de secuencia entre los haplotipos paternos y maternos, donde los contigs de haplotipos separados se colocaron incorrectamente en el ensamblaje primario (Datos extendidos Fig.\u00a05a<\/a>\u00a0);\u00a0y 2) duplicaciones de homotipos, que ocurrieron cerca de los l\u00edmites de contig o secuencias sub-colapsadas causadas por errores de secuenciaci\u00f3n (Datos extendidos Fig.\u00a05b<\/a>).\u00a0Parec\u00edan ocurrir duplicaciones de heterotipos falsos con mayor heterocigosidad.\u00a0Por ejemplo, durante la curaci\u00f3n del genoma del pinz\u00f3n cebra hembra, encontramos una secuencia heterocig\u00f3tica falsamente duplicada de aproximadamente 1 Mb (Datos extendidos Fig.\u00a06a<\/a>\u00a0).\u00a0Este individuo pinz\u00f3n cebra ten\u00eda la mayor heterocigosidad (1,6%) en relaci\u00f3n con todos los dem\u00e1s genomas (0,1-1,1%).\u00a0Las duplicaciones de homotipos a menudo se produc\u00edan en los l\u00edmites de los contig, y ten\u00edan aproximadamente la misma longitud que la secuencia se lee (Datos extendidos Fig.\u00a06b, c<\/a>\u00a0).\u00a0Identificamos y eliminamos duplicaciones falsas durante la curaci\u00f3n usando cobertura de lectura, auto-, transcripci\u00f3n-, mapa \u00f3ptico- y alineaciones Hi-C, y\u00a0perfiles\u00a0k<\/i>\u00a0-mer (Figura\u00a06 de<\/a>\u00a0datos extendidos\u00a0, Figura\u00a02<\/a>\u00a0complementaria\u00a0).<\/span><\/p>\n

Antes de purgar las duplicaciones falsas, el tama\u00f1o del genoma del ensamblaje primario se correlacion\u00f3 positivamente con el porcentaje estimado de heterocigosidad; <\/span>m\u00e1s genomas heterocigotos tend\u00edan a tener tama\u00f1os de ensamblaje mayores que el tama\u00f1o estimado del genoma haploide (Fig.\u00a0 <\/span><\/span>2d<\/span><\/span><\/a> ). <\/span>De manera similar, la tasa de duplicaci\u00f3n adicional en el ensamblaje primario, medida con\u00a0 <\/span><\/span>k<\/span><\/span><\/i>-mers ). <\/span>Para eliminar estas falsas duplicaciones autom\u00e1ticamente, inicialmente usamos Purge_Haplotigs <\/span>13<\/span><\/a><\/sup><\/span>23<\/a><\/sup>\u00a0or conserved vertebrate BUSCO genes24<\/a><\/sup>, varied from 0.3% to 30% and trended towards correlation with heterozygosity (Fig.\u00a02e, f<\/a>, Supplementary Table\u00a013<\/a>). Apparent false gene duplication rates correlated more strongly with the overall repeat rate in the assemblies (Fig.\u00a02g, h<\/a><\/a>, which removed retained falsely duplicated contigs that were not scaffolded (Extended Data Fig.\u00a05<\/a>; VGP v1.0\u20131.5). Later, we developed Purge_Dups14<\/a><\/sup>\u00a0to remove both falsely retained contigs and end-to-end duplicated contigs within scaffolds (Extended Data Fig.\u00a05<\/a>; VGP v1.6), which reduced the amount of manual curation. After we applied these tools, the primary assembly sizes and the\u00a0k<\/i>-mer and BUSCO gene duplication rates were all reduced, and their correlations with heterozygosity and repeat content were also reduced or eliminated (Fig.\u00a02d\u2013h<\/a>). These findings indicate that it is essential to properly phase haplotypes and to obtain high consensus sequence accuracy in order to prevent false duplications and associated biologically false conclusions.<\/span><\/p>\n<\/div>\n<\/div>\n<\/section>\n

\n
\n

Curation is needed for a high-quality reference<\/span><\/h2>\n
\n

Each automated scaffolding method introduced tens to thousands of unique joins and breaks in contigs or scaffolds (Supplementary Table\u00a014<\/a>). Depending on species, the first scaffolding step with linked reads introduced about 50\u2013900 joins between CLR-generated contigs. Optical maps introduced a further roughly 30\u20133,500 joins, followed by Hi-C with about 30\u2013700 more joins, and each identified up to several dozen joins that were inconsistent with the previous scaffolding step. Manual curation resulted in an additional 7,262 total interventions for 19 genome assemblies or 236 interventions per Gb of sequence (Supplementary Table\u00a015<\/a>). When a genome assembly was available for the same or a closely related species, it was used to confirm putative chromosomal breakpoints or rearrangements (Supplementary Table\u00a015<\/a>). These interventions indicate that even with current state-of-the-art assembly algorithms, curation is essential for completing high-quality reference assemblies and for providing iterative feedback to improve assembly algorithms. A further description of our curation approach and analyses of VGP genomes are presented elsewhere25<\/a><\/sup>.<\/span><\/p>\n<\/div>\n<\/div>\n<\/section>\n

\n
\n

Hi-C scaffolding and cytological mapping<\/span><\/h2>\n
\n

Most large assembled scaffolds of each species spanned entire chromosomes, as shown by the relatively clean Hi-C heat\u00a0map plots across each scaffold after curation (Extended Data Fig.\u00a07<\/a>), near perfect correlation between chromosomal scaffold length and karyotypically determined chromosome length (Fig.\u00a01h<\/a>), and the presence of telomeric repeat motifs on some scaffold ends (Supplementary Table\u00a07<\/a>). In our VGP zebra finch assembly, all inferred chromosomes were consistent with previously identified linkage groups in the Sanger-based reference, except for chromosomes 1 and 1B (Extended Data Fig.\u00a08a<\/a>). Their join in the VGP assembly was supported by both single CLR reads and optical maps through the junction. We also corrected nine inversion errors and filled in large gaps at some chromosome ends. In the platypus, we identified 18 structural differences in 13 scaffolds between the VGP assembly and the previous Sanger-based reference anchored to chromosomes using fluorescence in situ hybridization (FISH) physical mapping (Extended Data Fig.\u00a08b<\/a>, Supplementary Table\u00a016<\/a>). Of these 18, all were supported with Hi-C, and seven were also supported by both CLR and optical maps in the VGP assembly. Our platypus assembly also filled in many large (approximately 1\u201330\u00a0Mb) gaps and corrected many inversion errors (Extended Data Fig.\u00a08b<\/a>). Furthermore, we identified seven additional chromosomes (chromosomes 30\u201336) in the zebra finch, and eight (chromosomes 8, 9, 14, 15, 17, 19, 21, and X4; Extended Data Fig.\u00a08a, b<\/a>) in the platypus26<\/a>,27<\/a><\/sup>. Relative to the VGP assembly, the earlier short-read Anna\u2019s hummingbird assembly was highly fragmented (Extended Data Fig.\u00a08c<\/a>), despite being scaffolded with seven different Illumina libraries spanning a wide range of insert sizes (0.2\u201320\u00a0kb). The previous climbing perch assembled chromosomes were even more fragmented and also had large gaps of missing sequence (Extended Data Fig.\u00a08d<\/a>). On average, 97%\u00a0\u00b1\u00a03% (s.d.) of the assembled bases were assigned to chromosomes (Extended Data Table\u00a01<\/a>), compared with 76% and 32% in the prior zebra finch and platypus references, respectively. We believe the comparable or higher accuracy of Hi-C relative to genetic linkage or FISH physical mapping is due to the higher sampling rate of Hi-C pairs across the genome. Nonetheless, visual karyotyping is useful for complementary validation of chromosome count and structure28<\/a><\/sup>.<\/span><\/p>\n<\/div>\n<\/div>\n<\/section>\n

\n
\n

Trios help to resolve haplotypes<\/span><\/h2>\n
\n

Pudimos ensamblar los contigs de pinz\u00f3n cebra hembra basados \u200b\u200ben tr\u00edo en andamios separados a nivel de cromosomas materno y paterno (Datos extendidos Fig.\u00a09a<\/a>\u00a0) utilizando nuestra tuber\u00eda de tr\u00edo VGP (Datos extendidos Fig.\u00a03b<\/a>\u00a0).\u00a0En comparaci\u00f3n con el ensamblaje no tr\u00edo del mismo individuo, la versi\u00f3n tr\u00edo ten\u00eda de siete a ocho veces menos duplicaciones falsas (\u00a0k<\/i>\u00a0-mer y BUSCO dups en las Tablas complementarias\u00a011<\/a>\u00a0,\u00a012<\/a>\u00a0), variantes espec\u00edficas de haplotipo bien conservadas (\u00a0precisi\u00f3n\u00a0k<\/i>\u00a0-mer \/ recall 99.99 \/ 97.08%), y una mayor precisi\u00f3n de llamada base, excediendo Q43 para ambos haplotipos (Tabla de datos extendidos\u00a01<\/a>).\u00a0El ensamblaje basado en tr\u00edo fue el \u00fanico ensamblaje con una separaci\u00f3n casi perfecta (99,99%) de los haplotipos maternos y paternos, determinada utilizando\u00a0k<\/i>\u00a0-mers espec\u00edficos para cada\u00a023<\/a><\/sup>\u00a0.\u00a0Identificamos variantes estructurales espec\u00edficas de haplotipo, incluidas inversiones de 4,5 a 12,5 Mb en los cromosomas 5, 11 y 13 que no eran f\u00e1cilmente identificables en la versi\u00f3n sin tr\u00edo (Datos extendidos Fig.\u00a010a-e<\/a>\u00a0).\u00a0En el futuro, la VGP est\u00e1 priorizando la colecci\u00f3n de tr\u00edos madre-padre-descendencia cuando sea posible, o d\u00faos monoparentales-descendientes, para ayudar con el ensamblaje y la fase diploide, as\u00ed como el desarrollo de m\u00e9todos mejorados para el ensamblaje de genomas diploides en el ausencia de datos gen\u00f3micos de los padres, como se describe en otro estudio\u00a029<\/a><\/sup>\u00a0.<\/span><\/p>\n<\/div>\n<\/div>\n<\/section>\n

\n
\n

Efectos del pulido en la precisi\u00f3n<\/span><\/h2>\n
\n

A pesar de su mayor continuidad y precisi\u00f3n estructural, los ensamblajes basados \u200b\u200ben CLR requirieron al menos dos rondas de pulido por consenso de lectura corta para alcanzar una precisi\u00f3n de nivel base del 99,99% (un error por 10 kb, Phred\u00a030<\/a><\/sup>\u00a0Q40; Tabla complementaria\u00a05<\/a>\u00a0).\u00a0Antes del pulido, la precisi\u00f3n por base era Q30\u201335 (calculada utilizando\u00a0k<\/i>\u00a0-mers).\u00a0Los errores m\u00e1s comunes fueron indeles cortos de llamadas de consenso inexactas durante la formaci\u00f3n de contig CLR, lo que result\u00f3 en errores de desplazamiento de marco de amino\u00e1cidos.\u00a0Utilizando nuestro enfoque combinado de pulido de lectura larga y lectura corta aplicado en secuencias de haplotipos primarias y alternas juntas, pulimos del 82% al 99,7% del ensamblaje primario y aproximadamente el 91,3% del conjunto alternativo (Tabla complementaria\u00a017<\/a>).\u00a0De la secuencia restante sin pulir, a veces se reconstruy\u00f3 un haplotipo con una calidad sustancialmente inferior, porque la mayor\u00eda de las lecturas se alinearon con el haplotipo de mayor calidad (Datos extendidos, Fig.\u00a011a<\/a>\u00a0).\u00a0Las falsas duplicaciones tuvieron efectos similares, donde la secuencia duplicada actu\u00f3 como un atractor durante el mapeo de lectura.\u00a0Los haplotipos en las regiones m\u00e1s homocigotas tend\u00edan a colapsarse con FALCON-Unzip\u00a017<\/a><\/sup>\u00a0.\u00a0Todos estos casos reclutaron lecturas de ambos haplotipos y, por lo tanto, causaron errores de cambio, que confirmamos en el ensamblaje basado en tr\u00edo y corregimos al excluir los pares de lectura del otro haplotipo durante el pulido (Datos extendidos, Fig.\u00a011b<\/a>).\u00a0Estos hallazgos indican que tanto la precisi\u00f3n de lectura de la secuencia como la cuidadosa separaci\u00f3n de haplotipos son importantes para producir ensamblajes precisos.<\/span><\/p>\n<\/div>\n<\/div>\n<\/section>\n

\n
\n

Cromosomas sexuales y genomas mitocondriales<\/span><\/h2>\n
\n

Los cromosomas sexuales han sido notoriamente dif\u00edciles de ensamblar, debido a su mayor divergencia con respecto a los autosomas y su alto contenido de repetici\u00f3n\u00a031<\/a><\/sup>\u00a0.\u00a0Hemos reunido con \u00e9xito los dos cromosomas sexuales (Z, W) para las tres especies de aves, el primer cromosoma W (hasta donde sabemos) para las aves vocales de aprendizaje (Extended Data Figs.\u00a07<\/a>\u00a0,\u00a09b<\/a>\u00a0), el X y \/ o cromosoma Y en los mam\u00edferos placentarios (Lince de Canad\u00e1 y dos especies de murci\u00e9lagos), el cromosoma X en la raya espinosa, y por primera vez, hasta donde sabemos, los diez cromosomas sexuales (5X y 5Y) en el ornitorrinco\u00a026<\/a><\/sup>\u00a0(Datos extendidos Fig.\u00a09c<\/a>\u00a0).\u00a0La integridad y la continuidad de los cromosomas Z y W del pinz\u00f3n cebra se mejoraron a\u00fan m\u00e1s mediante el ensamblaje basado en tr\u00edo (Datos extendidos, Fig.9b<\/a>\u00a0).\u00a0Sin embargo, los conjuntos de cromosomas sexuales estaban a\u00fan m\u00e1s fragmentados que los autosomas, probablemente debido a su menor profundidad de secuenciaci\u00f3n y alto contenido de repetici\u00f3n.<\/span><\/p>\n

Los genomas mitocondriales (MT), que se espera que sean de 11 a 28 kb de tama\u00f1o\u00a032<\/a><\/sup>\u00a0, se encontraron inicialmente en solo seis conjuntos (Tabla complementaria\u00a018<\/a>\u00a0).\u00a0Las lecturas sin procesar derivadas de MT estaban presentes, pero no se ensamblaron, en parte debido a los l\u00edmites m\u00ednimos de longitud de lectura para el ensamblaje de contig inicial.\u00a0Adem\u00e1s, si el genoma de MT no estaba presente durante el pulido del genoma nuclear, las lecturas de MT sin procesar se sent\u00edan atra\u00eddas por las secuencias de MT nucleares (NuMT), convirti\u00e9ndolas incorrectamente en la secuencia de MT del org\u00e1nulo completo (Datos extendidos Fig.\u00a011c<\/a>\u00a0).\u00a0Para abordar estos problemas, desarrollamos una tuber\u00eda MT guiada por referencias e incluimos el genoma MT durante el pulido\u00a033<\/a><\/sup>\u00a0(Datos extendidos, Fig.\u00a03c<\/a>;\u00a0VGP v1.6).\u00a0Con estas mejoras, reunimos de manera confiable 16 de 17 genomas de MT (Tabla complementaria\u00a018<\/a>\u00a0) y descubrimos 2 kb de una expansi\u00f3n repetida de 83 pb dentro de la regi\u00f3n de control en el k\u0101k\u0101p\u014d (Datos extendidos Fig.\u00a09d<\/a>\u00a0), y\u00a0duplicaciones de genes\u00a0Nad1<\/i>\u00a0y\u00a0trnL2<\/i>\u00a0en la percha trepadora (Datos extendidos Fig.\u00a09e<\/a>\u00a0).\u00a0Estas duplicaciones se verificaron utilizando lecturas CLR de una sola mol\u00e9cula que abarcaban las uniones de duplicaci\u00f3n o incluso todo el genoma de MT.\u00a0Su ausencia en referencias anteriores de MT\u00a034<\/a>\u00a0,\u00a035<\/a><\/sup>es probable que resulte de la incapacidad de Sanger o de lecturas breves para resolver correctamente grandes duplicaciones.\u00a0En otro lugar se informan m\u00e1s detalles sobre la tuber\u00eda MT-VGP y los nuevos descubrimientos biol\u00f3gicos\u00a033<\/a><\/sup>\u00a0.<\/span><\/p>\n<\/div>\n<\/div>\n<\/section>\n

\n
\n

Mejoras en la alineaci\u00f3n y la anotaci\u00f3n de lectura<\/span><\/h2>\n
\n

En comparaci\u00f3n con los ensamblajes anteriores de Sanger (pinz\u00f3n cebra y ornitorrinco) e Illumina (colibr\u00ed de Anna y percha trepadora), agregamos alrededor de 42-176 Mb de secuencia faltante y colocamos 68.5 Mb (pinz\u00f3n cebra) a 1.8 Gb (ornitorrinco) de secuencia previamente no colocada dentro cromosomas.\u00a0Corregimos alrededor de 7,800 a 64,000 combinaciones err\u00f3neas y cerramos 55,177\u2013193,137 brechas por genoma (Tabla complementaria\u00a019<\/a>\u00a0).\u00a0De acuerdo con estas mejoras, tanto los datos de secuenciaci\u00f3n del ARN del transcriptoma (RNA-seq) (Fig.\u00a03a<\/a>\u00a0) como el ensayo del genoma para la cromatina accesible a la transposasa utilizando datos de secuenciaci\u00f3n (ATAC-seq) (Fig.\u00a03b)<\/a>) alineados con un 5 a 10% m\u00e1s de mapeo para nuestros nuevos ensambles VGP en comparaci\u00f3n con los ensamblajes anteriores.\u00a0Las anotaciones NCBI RefSeq y EBI Ensembl revelaron: 5.434 a 14.073 m\u00e1s transcripciones codificantes de prote\u00ednas por especie, con un 94,1 a un 97,8% de soporte completo (Fig.\u00a03c<\/a>\u00a0, Tabla complementaria\u00a020<\/a>\u00a0);\u00a0s\u00f3lo alrededor de 100 a 300 genes codificantes parcialmente ensamblados, en comparaci\u00f3n con alrededor de 1.600 a 5.600 (Fig.\u00a03d<\/a>\u00a0);\u00a0genes codificantes m\u00e1s ort\u00f3logos compartidos con humanos;\u00a0y menos transcripciones que requirieran correcciones para compensar los codones de parada prematuros o los errores de indel de cambio de marco (Cuadro de datos extendido\u00a02<\/a>\u00a0).\u00a0El n\u00famero total de genes anotados disminuy\u00f3 en los ensamblajes de VGP (Cuadro de datos extendido\u00a02<\/a>), en parte porque hubo menos duplicaciones falsas (Tabla complementaria\u00a019<\/a>\u00a0).\u00a0Respaldando estos resultados, las asambleas de VGP tuvieron de 0 a 13% m\u00e1s de\u00a0completitud de\u00a0k-<\/i>\u00a0mer (95% de media \u00b1 3,5% sd versus 88 \u00b1 4,3%; Tabla de datos extendidos\u00a02<\/a>\u00a0, Tabla complementaria\u00a019<\/a>\u00a0;\u00a0P<\/i>\u00a0\u00a0= 0,0047,\u00a0n<\/i>\u00a0\u00a0= 4 antes y 17 Ensambles VGP, prueba\u00a0t<\/i>\u00a0no emparejada\u00a0).<\/span><\/p>\n

\n
Fig. 3: Mejoras en alineaciones y anotaciones en ensamblajes VGP con respecto a referencias anteriores.<\/b><\/span><\/figcaption>
\n
\"figura<\/picture><\/a><\/span><\/div>\n
\n

a<\/b>\u00a0,\u00a0b<\/b>\u00a0, Porcentaje promedio de muestras de transcriptoma de secuencia de ARN (\u00a0a<\/b>\u00a0;\u00a0n<\/i>\u00a0\u00a0= 44, media \u00b1 sem) y lecturas de genoma de secuencia de ATAC (\u00a0b<\/b>\u00a0;\u00a0n<\/i>\u00a0\u00a0= 12) que se alinean con los ensamblajes de pinz\u00f3n cebra anteriores y VGP.\u00a0Lecturas \u00fanicas asignadas a una sola ubicaci\u00f3n en el ensamblaje.\u00a0El total es la suma de las lecturas \u00fanicas y de m\u00faltiples mapas.\u00a0Los<\/i>\u00a0\u00a0valores de\u00a0p<\/i>\u00a0son de la\u00a0prueba\u00a0t<\/i>\u00a0pareada\u00a0.\u00a0c<\/b>\u00a0,\u00a0d<\/b>\u00a0, n\u00famero total de transcripciones de secuencias de codificaci\u00f3n (CDS) (barra completa) y parte totalmente compatible (barra interior) (\u00a0c<\/b>\u00a0) y el n\u00famero de genes codificantes de RefSeq anotados como parciales (\u00a0d<\/b>) en los ensamblajes anterior y VGP utilizando los mismos datos de entrada.\u00a0e<\/b>\u00a0–\u00a0h<\/b>\u00a0, Ejemplos de ensamblaje y errores de anotaci\u00f3n asociados en ensamblajes de referencia anteriores corregidos en los nuevos ensamblajes de VGP.\u00a0Consulte el texto principal para obtener descripciones.\u00a0i<\/b>\u00a0, synteny gen alrededor del\u00a0VTR2C<\/i>\u00a0receptor en los espect\u00e1culos platypus completamente faltan genes (\u00a0NUDT16<\/i>\u00a0), truncado y duplicada\u00a0ARHGAP4<\/i>\u00a0, y muchas lagunas en la anterior Sanger basado en conjunto en comparaci\u00f3n con los rellenos y expandido longitudes de genes en el nuevo VGP montaje.\u00a0Las adhesiones de la asamblea se encuentran en la Tabla complementaria\u00a019<\/a>\u00a0.<\/span><\/p>\n<\/div>\n<\/div>\n

Imagen de tama\u00f1o completo<\/a><\/span><\/div>\n<\/figure>\n<\/div>\n

Un ejemplo de una duplicaci\u00f3n falsa de un heterotipo de gen completo en la anotaci\u00f3n RefSeq de la referencia\u00a019<\/a><\/sup>\u00a0del pinz\u00f3n cebra anterior\u00a0es el gen BUSCO\u00a0SPC25\u00a0<\/i>36<\/a><\/sup>\u00a0, para el cual cada haplotipo se coloc\u00f3 correctamente en los ensamblajes primario y alternativo de VGP (Fig.\u00a03e<\/a>\u00a0).\u00a0El\u00a0receptor\u00a0GABRG2<\/i>\u00a0, que muestra una expresi\u00f3n especializada en los circuitos de aprendizaje vocal\u00a037<\/a><\/sup>\u00a0, ten\u00eda una duplicaci\u00f3n parcial en t\u00e1ndem de cuatro de sus diez exones, lo que resultaba en duplicaciones parciales anotadas de genes en falso t\u00e1ndem (\u00a0similares a GABRG2<\/i>\u00a0y\u00a0GABRG2<\/i>\u00a0; Fig.\u00a03f<\/a>\u00a0).\u00a0El\u00a0gen de la\u00a0vitelogenina-2 (\u00a0VTG2<\/i>\u00a0), un componente de la yema de huevo en todas las especies que ponen huevos\u00a038<\/a><\/sup>, se distribuy\u00f3 en 14 contigs en 3 andamios diferentes en el ensamblaje de ornitorrinco anterior (Fig.\u00a03g<\/a>\u00a0).\u00a0Dos de estos andamios recibieron dos\u00a0anotaciones g\u00e9nicas similares a\u00a0VTG2<\/i>\u00a0correspondientes\u00a0, y el tercero se incluy\u00f3 como intr\u00f3n duplicado falso en\u00a0CAPN-13<\/i>\u00a0(rojo), que juntos causaron secuencias de amino\u00e1cidos falsas en cinco exones (azul).\u00a0El\u00a0gen\u00a0BUSCO\u00a0YIPF6<\/i>\u00a0, que est\u00e1 asociado con la enfermedad inflamatoria intestinal\u00a039<\/a><\/sup>\u00a0, se dividi\u00f3 entre dos andamios diferentes y, por lo tanto, se presume que es una p\u00e9rdida gen\u00e9tica en el montaje anterior de la percha trepadora\u00a040<\/a><\/sup>\u00a0(Fig.\u00a03h<\/a>).\u00a0Cada uno de estos genes est\u00e1 ahora presente en contigs VGP largos, dentro de bloques validados, sin espacios ni p\u00e9rdidas o ganancias de genes falsos (Tabla complementaria\u00a021<\/a>\u00a0).<\/span><\/p>\n

M\u00e1s all\u00e1 de los genes individuales, una ventana de s\u00edntesis de diez genes que rodea al gen del receptor de vasotocina 2C (\u00a0VTR2C<\/i>\u00a0; tambi\u00e9n conocido como\u00a0AVPR2<\/i>\u00a0), que participa en la homeostasis de la presi\u00f3n arterial y la funci\u00f3n cerebral\u00a041<\/a>\u00a0,\u00a042<\/a><\/sup>\u00a0, se dividi\u00f3 en 34 contigs en cuatro andamios, de los cuales conten\u00eda una duplicaci\u00f3n de haplotipos falsos de\u00a0ARHGAP4<\/i>\u00a0en el ensamblaje previo de ornitorrincos\u00a043<\/a><\/sup>\u00a0(\u00a0Fig.3i<\/a>).\u00a0En nuestro ensamblaje de VGP, los once genes estaban en un contig de 37 Mb de largo dentro del andamio del cromosoma 6 de aproximadamente 50 Mb.\u00a0Adem\u00e1s, ocho de los once genes aumentaron notablemente de tama\u00f1o debido a la adici\u00f3n de secuencias faltantes previamente desconocidas.\u00a0Esta regi\u00f3n cromos\u00f3mica era m\u00e1s rica en GC (54%) que todo el cromosoma 6 (46%).\u00a0Miles de tales ganancias y p\u00e9rdidas falsas en ensamblajes de referencia anteriores se han corregido en nuestros ensamblajes VGP (m\u00e1s detalles en las referencias\u00a027<\/a>\u00a0,\u00a044<\/a><\/sup>\u00a0), lo que demuestra que la calidad del ensamblaje tiene un efecto cr\u00edtico en las anotaciones posteriores y la gen\u00f3mica funcional.<\/span><\/p>\n<\/div>\n<\/div>\n<\/section>\n

\n
\n

Regiones reguladoras ricas en GC de genes codificantes<\/span><\/h2>\n
\n

Probamos si los ensamblajes VGP de mayor calidad permit\u00edan nuevos descubrimientos biol\u00f3gicos.\u00a0En particular, comenzando alrededor de 1,5 kb corriente arriba de los genes que codifican prote\u00ednas, en bloques de 100 pb, hubo un aumento constante de aproximadamente 6-20% a aproximadamente 30-55% de genes a los que les faltaba la secuencia en referencias anteriores (Fig.\u00a04a<\/a>\u00a0);\u00a0proporciones igualmente elevadas de genes carec\u00edan de sus regiones 5 ‘no traducidas (UTR) subsiguientes y de sus primeros exones.\u00a0Esta fluctuaci\u00f3n en la secuencia faltante fue directamente proporcional al contenido de GC (\u00a0Fig.4a<\/a>).\u00a0Por lo tanto, estudiamos el patr\u00f3n de contenido de GC en todos los genes que codifican prote\u00ednas en los 16 nuevos ensamblajes de VGP y encontramos una firma en todo el genoma: un r\u00e1pido aumento en el contenido de GC en aproximadamente 1,5 kb antes del sitio de inicio de la transcripci\u00f3n, en el 5 \u2032 UTR, y en el primer ex\u00f3n, seguido de una disminuci\u00f3n constante en los exones posteriores y el retorno a niveles de fondo casi interg\u00e9nicos en la UTR 3 ‘y aproximadamente 1,5 kb despu\u00e9s del sitio de terminaci\u00f3n de la transcripci\u00f3n (Fig.\u00a04b<\/a>\u00a0).\u00a0Los intrones ten\u00edan menor contenido de GC, m\u00e1s cerca del fondo interg\u00e9nico.\u00a0El contenido de GC interg\u00e9nico se mantuvo estable dentro de los 30 kb a cada lado de cada gen (Fig.\u00a04b<\/a>).\u00a0Los mam\u00edferos, aves y reptiles tuvieron el mayor aumento (alrededor del 20%) en el contenido de GC cerca del sitio de inicio, seguidos por los anfibios y las rayas con niveles medios (alrededor del 10%).\u00a0Los peces tele\u00f3steos mostraron una disminuci\u00f3n inicial, seguida de un aumento m\u00e1s d\u00e9bil (alrededor del 5%) de un contenido de GC ya m\u00e1s bajo (Fig.\u00a04b<\/a>\u00a0).\u00a0Dado que la raya representa la rama hermana de todos los dem\u00e1s linajes de vertebrados secuenciados, estos hallazgos sugieren que los tele\u00f3steos perdieron al menos el 5% del contenido de GC en todo el genoma, mientras que mantuvieron la mayor parte del patr\u00f3n de contenido de GC en los genes que codifican prote\u00ednas.\u00a0Aunque se sabe que las regiones promotoras pueden ser ricas en CpG y el contenido de GC puede variar entre exones e intrones\u00a045<\/a>\u00a0,\u00a0 <\/span><\/span><\/span><\/span>46<\/span><\/span><\/span><\/span><\/a><\/sup> Seg\u00fan nuestro conocimiento, las diferencias espec\u00edficas de linaje dentro de los patrones vertebrados y la magnitud de estas diferencias no se describen en la descripci\u00f3n. <\/span><\/span><\/span>previamente.<\/span><\/span><\/span><\/span><\/span><\/p>\n

Fuente:<\/span><\/span><\/span><\/span><\/p>\n

Rhie, A. (28 de abril de 2021). <\/span><\/span><\/span>Hacia conjuntos gen\u00f3micos completos y sin errores de todas las especies de vertebrados. <\/span><\/span><\/span>Recuperado 28 de abril de 2021, de https:\/\/www.nature.com\/articles\/s41586-021-03451-0<\/span><\/span><\/span><\/span><\/p>\n<\/div>\n<\/div>\n<\/section>\n","protected":false},"excerpt":{"rendered":"

Los genomas de referencia a nivel cromos\u00f3mico sustentan el estudio de la gen\u00f3mica funcional, comparativa y poblacional dentro y entre especies.<\/p>\n","protected":false},"author":1,"featured_media":22395,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[56],"tags":[],"class_list":["post-22394","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ciencia"],"_links":{"self":[{"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/posts\/22394"}],"collection":[{"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/comments?post=22394"}],"version-history":[{"count":3,"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/posts\/22394\/revisions"}],"predecessor-version":[{"id":22398,"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/posts\/22394\/revisions\/22398"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/media\/22395"}],"wp:attachment":[{"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/media?parent=22394"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/categories?post=22394"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/tags?post=22394"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}