Na początku roku 2020, kilka miesięcy po rozpoczęciu pandemii COVID-19, naukowcom udało się zsekwencjonować pełny genom wirusa SARS-CoV-2. Chociaż wiele z jego genów było znanych już w tamtym momencie, dokładna identyfikacja genów kodujących białka wymagała dalszych badań.
Teraz, po przeprowadzeniu szeroko zakrojonych badań porównawczych z zakresu genomiki naukowcy z MIT stworzyli - jak twierdzą - najdokładniejszą i najbardziej kompletną adnotację genów genomu SARS-CoV-2. Adnotacja to określanie funkcji każdego odcinka DNA – trzeba nie tylko wyjaśnić, jakie białko on koduje, ale także dokładnie zbadać strukturę i funkcję tego białka.
Genom wirusa SARS-CoV-2 składa się z prawie 30 000 zasad RNA. Naukowcy zidentyfikowali kilka regionów, o których wiadomo, że są tam geny kodujące białka, na podstawie ich podobieństwa do kodujących białka genów występujących w pokrewnych wirusach. Jednocześnie kilka innych regionów, które uważano za kodujące białka okazało się nie kodować żadnych białek.
Badacze przeprowadzili genomikę porównawczą
Aby ustalić, które części genomu SARS-CoV-2 faktycznie zawierają geny, naukowcy przeprowadzili rodzaj badania zwanego genomiką porównawczą, w którym porównują genomy podobnych wirusów. Wirus SARS-CoV-2 należy do podrodzaju wirusów zwanych Sarbecovirus, z których większość infekuje nietoperze. Naukowcy przeprowadzili analizę na SARS-CoV-2, SARS-CoV (który spowodował wybuch epidemii SARS w 2003 r.) i 42 szczepów sarbecowirusów nietoperzy.
„Byliśmy w stanie wykorzystać podejście genomiki porównawczej do sygnatur ewolucyjnych, aby odkryć prawdziwą kodującą białka zawartość tego niezwykle ważnego genomu” - mówił Manolis Kellis, starszy autor badania i profesor informatyki na MIT.
Zespół badawczy przeanalizował również prawie 2000 mutacji, które pojawiły się w różnych izolatach SARS-CoV-2, odkąd zaczął on zakażać ludzi. To pozwoliło ocenić, jak ważną rolę mogą odegrać mutacje w zmianie zdolności wirusa do unikania układu odpornościowego lub stania się bardziej zakaźnym.
Kellis wcześniej opracował techniki obliczeniowe do przeprowadzania tego typu analiz, które jego zespół wykorzystał również do porównania ludzkiego genomu z genomami innych ssaków. Techniki te opierają się na analizie, czy pewne zasady DNA lub RNA są zachowane między gatunkami oraz na porównywaniu ich wzorców ewolucji w czasie.
Korzystając z tych technik, naukowcy potwierdzili sześć genów kodujących białka w genomie SARS-CoV-2 oprócz pięciu, które są dobrze ugruntowane we wszystkich koronawirusach. Ustalili również, że region kodujący gen zwany ORF3a koduje również dodatkowy gen, który nazywają ORF3c. Gen ma zasady RNA, które pokrywają się z ORF3a, ale występują w innej ramce odczytu. Rola nowego genu, a także kilku innych genów SARS-CoV-2, nie jest jeszcze znana.
Naukowcy wykazali również, że pięć innych regionów, które zaproponowano jako możliwe geny, nie koduje funkcjonalnych białka. Dzięki temu inni naukowcy nie będą musieli tracić czasu na prace związane z sekwencjami, które niczego sensownego nie kodują.
„Przeanalizowaliśmy cały genom i jesteśmy pewni, że nie ma innych konserwatywnych genów kodujących białka” - mówi Irwin Jungreis, główny autor badania i naukowiec z MIT Computer Science & Artificial Intelligence Laboratory. „Potrzebne są badania eksperymentalne, aby poznać funkcje niescharakteryzowanych genów, a ustalając, które z nich są prawdziwe, pozwalamy innym badaczom skupić się na tych genach, zamiast spędzać czas na czymś, co nawet nie jest tłumaczone na białko”.
Naukowcy zauważyli również, że w wielu wcześniejszych pracach wykorzystano nie tylko nieprawidłowe zestawy genów, ale czasami także sprzeczne nazwy genów. Aby zaradzić tej sytuacji, przedstawili społeczności zajmującej się SARS-CoV-2 zestaw zaleceń dotyczących nazewnictwa genów SARS-CoV-2 w osobnym artykule opublikowanym kilka tygodni temu w Virology.
Przedstawiono ponad 1800 mutacji, które pojawiły się w SARS-CoV-2 od czasu jego pierwszej identyfikacji
Nowe badanie przedstawia również ponad 1800 mutacji, które pojawiły się w SARS-CoV-2 od czasu jego pierwszej identyfikacji. Dla każdego genu porównano, jak szybko ten konkretny gen ewoluował w przeszłości z tym, jak bardzo ewoluował od początku obecnej pandemii.
W większości przypadków geny, które ewoluowały szybko na długo przed obecną pandemią, nadal to robiły, a te, które ewoluowały powoli, utrzymały ten trend. Jednak naukowcy zidentyfikowali również wyjątki od tych wzorców, co może rzucić światło na ewolucję wirusa, gdy przystosował się do nowego, ludzkiego gospodarza.
W jednym z przykładów naukowcy zidentyfikowali region białka nukleokapsydu - osłonki, która otacza materiał genetyczny wirusa. Występuje w nim o wiele więcej mutacji, niż oczekiwano na podstawie historycznych wzorców ewolucji. Ten region białkowy jest również klasyfikowany jako cel ludzkich limfocytów B. Dlatego mutacje w tym regionie mogą pomóc wirusowi uniknąć ludzkiego układu odpornościowego.
„Najbardziej przyspieszony region w całym genomie SARS-CoV-2 znajduje się pośrodku tego białka nukleokapsydu - powiedział Kelis. - Spekulujemy, że warianty z tego regionu, które nie mutują są rozpoznawane przez ludzki układ odpornościowy i eliminowane, podczas gdy warianty, które losowo gromadzą mutacje w tym regionie, są w rzeczywistości zdolne lepiej wymykać się ludzkiemu układowi odpornościowemu i pozostają w obiegu”.
Naukowcy przeanalizowali również mutacje, które pojawiły się w wariantach budzących obawy, takich jak szczep B.1.1.7 z Wielkiej Brytanii, P.1 z Brazylii oraz B.1.351 z Republiki Południowej Afryki. Wiele mutacji, które czynią te warianty bardziej niebezpiecznymi, znajduje się w białku kolca i pomaga wirusowi szybciej rozprzestrzeniać się i omijać układ odpornościowy. Jednak każdy z tych wariantów niesie również inne mutacje.
"Każdy z tych wariantów ma ponad 20 innych mutacji i ważne jest, aby wiedzieć, które z nich prawdopodobnie coś robią, a które nie - mówi Jungreis. - Wykorzystaliśmy naszą porównawczą genomikę, aby zgadnąć w pierwszej kolejności, które z nich mogą być ważne, na podstawie tego, które z nich znajdowały się na zachowanych pozycjach”.
Zdaniem autorów uzyskane dane mogą pomóc innym naukowcom skupić się na mutacjach, które wydają się mieć znaczący wpływ na zakaźność wirusa. Udostępnili innym badaczom zestaw genów z adnotacjami i klasyfikacją ich mutacji za pośrednictwem University of California at Santa Cruz Genome Browser.
„Możemy teraz zbadać kontekst ewolucyjny tych wariantów i zrozumieć, w jaki sposób obecna pandemia wpisuje się w szerszą historię - mówi Kellis. - W przypadku szczepów, które mają wiele mutacji, możemy zobaczyć, które z tych mutacji będą prawdopodobnie adaptacjami specyficznymi dla gospodarza, a które prawdopodobnie nie mają znaczenia”. (PAP)
Autor: Paweł Wernicki
est/