Официальный сайт журнала "Экология и Жизнь"

Всё об экологии ищите здесь:

   
Сервисы:
Каналы:
Каналы:
Блоги:
Дайджесты,
Доклады:

ЭКО-ВИДЕО



Реклама


Translate this page
into English

Translate.Ru PROMT©


Система Orphus


Главная О НАС / ABOUT US Статьи Происхождение короновируса /Рекомбинация как научный консенсус

Происхождение короновируса /Рекомбинация как научный консенсус

Мацей Ф. Бони , Филипп Лемей, Сяовей Цзян, Томми Цан-Юк Лам, Блэр Перри, Тодд Кастоу, Эндрю Рамбаут, Дэвид Л. Робертсон

doi:https://doi.org/10.1101/2020.03.30.015008
Опубликовано в Nature Microbiology doi: 10.1038 / s41564-020-0771-4

Аннотация

Существуют нерешенные эволюционные вопросы относительно недавнего появления коронавируса SARS-CoV-2 / hCoV-19 в провинции Хубэй, который вызвал пандемию COVID-19, включая (1) связь нового вируса с коронавирусами, связанными с SARS, (2)) роль летучих мышей как вида-резервуара, (3) потенциальная роль других млекопитающих в событии вылета и (4) роль рекомбинации в возникновении вирусов. Здесь мы отвечаем на эти вопросы и обнаруживаем, что сарбековирусы — вирусный подрод, ответственный за возникновение SARS-CoV и SARS-CoV-2, — часто рекомбинируют, но сама линия SARS-CoV-2 не является рекомбинантой каких-либо вирусов. обнаружено на сегодняшний день. Чтобы использовать филогенетические методы для определения даты расхождения между SARS-CoV-2 и резервуаром сарбековируса летучих мышей, рекомбинантные области 68-геномного выравнивания сарбековируса были удалены тремя независимыми методами. Байесовские оценки скорости эволюции и даты расхождения были согласованы для всех трех выравниваний без рекомбинации и устойчивы к двум различным предшествующим спецификациям, основанным на скоростях эволюции HCoV-OC43 и MERS-CoV. Даты расхождения между SARS-CoV-2 и резервуаром сарбековируса летучих мышей были оценены как 1948 (95% HPD: 1879-1999), 1969 (95% HPD: 1930-2000) и 1982 (95% HPD: 1948-2009). Несмотря на усиленную характеристику сарбековирусов после SARS, линия, дающая начало SARS-CoV-2, в течение десятилетий незаметно циркулировала у летучих мышей и передавалась другим хозяевам, таким как панголины.

Вкратце Бетакоронавирус SARS-CoV-2 является представителем подрода сарбековирусов, который в своей эволюционной истории показывает частую рекомбинацию. Мы характеризуем степень этого генетического обмена и идентифицируем нерекомбинирующие области генома сарбековируса, используя три независимых метода для устранения эффектов рекомбинации. Используя эти нерекомбинирующие области генома и предварительную информацию о темпах эволюции коронавируса, мы получаем оценки с помощью трех подходов, согласно которым наиболее вероятная дата расхождения SARS-CoV-2 с его наиболее близкими доступными последовательностями летучих мышей находится в диапазоне с 1948 по 1982 год.

Ключевые моменты

  • RaTG13 — ближайший доступный вирус летучих мышей к SARS-CoV-2; часть этих вирусов летучих мышей способна инфицировать людей. Две сестринские линии линии RaTG13 / SARS-CoV-2 заражают малайских панголинов.

  • Сарбековирусы демонстрируют структуру событий глубокой рекомбинации, что указывает на высокий уровень коинфекции у подковообразных летучих мышей и что вирусный пул может генерировать новые комбинации аллелей и значительное генетическое разнообразие; сарбековирусы — эффективные «исследователи» фенотипического пространства.

  • Линия SARS-CoV-2 не является недавним рекомбинантным вирусом, по крайней мере, не включает ни один из вирусов летучих мышей или панголинов, взятых на сегодняшний день.

  • Нерекомбинантные области сарбековирусов могут быть идентифицированы, что позволяет сделать филогенетический вывод и датирование. Мы построили три таких региона разными методами.

  • По нашим оценкам, RaTG13 и SARS-CoV-2 разошлись от 40 до 70 лет назад. У подковообразных летучих мышей обнаружен разнообразный неизбираемый резервуар универсальных вирусов.

  • Хотя нельзя исключать промежуточного хозяина, ответственного за зоонозное событие, соответствующая эволюция распространения на человека, скорее всего, произошла у подковообразных летучих мышей.

Введение

В декабре 2019 года группа случаев пневмонии, эпидемиологически связанных с открытым сырым рынком в городе Ухань (провинция Хубэй), Китай ( Li et al., 2020aZhou et al., 2020b), побудила местных чиновников здравоохранения выпустить эпидемиологическое предупреждение для Китайского центра по контролю и профилактике заболеваний (China CDC) и странового офиса Всемирной организации здравоохранения (ВОЗ) в Китае. В начале января этиологическим агентом случаев пневмонии был обнаружен коронавирус ( Всемирная организация здравоохранения, 2020a), впоследствии названный SARS-CoV-2 исследовательской группой Международного комитета по таксономии вирусов (ICTV) ( Gorbalenya et al., 2020), (также названный hCoV-19 ( Wu et al., 2020b)). Первые доступные данные последовательности (Wu et al., 2020a) поместили этот новый патоген для человека в ), тот же что и вирус SARS, который вызвал глобальную вспышку почти 8000 случаев в 2002-2003 годах. К середине января вирус широко распространился в провинции Хубэй, а к началу марта SARS-CoV-2 достиг статуса пандемии (Всемирная организация здравоохранения, 2020b). Подрод Sarbecovirus Coronaviridae ( Lu et al., 2020

При вспышках зоонозных патогенов идентификация источника инфекции имеет решающее значение, поскольку это может позволить органам здравоохранения отделить человеческие популяции от дикой природы или резервуаров домашних животных, представляющих зоонозный риск ( Stegeman et al., 2004Yu et al., 2013).  Если контролировать вспышку на ранних стадиях невозможно — как это было в случае эпидемии COVID-19 в провинции Хубэй, — определение источников и точечных источников, тем не менее, важно для целей сдерживания в других провинциях и предотвращения будущих вспышек. Когда первая последовательность генома SARS-CoV-2, Wuhan-Hu-1, была опубликована 10 января 2020 года на Virological.org консорциумом во главе с Юн-Чжэнь Чжаном ( Wu et al., 2020a), это позволило немедленно проанализировать его происхождение. На большом участке его генома, приблизительно соответствующем ORF1b, он не сгруппировался ни с одним из известных коронавирусов летучих мышей, что указывает на то, что рекомбинация, вероятно, сыграла роль в эволюционной истории этих вирусов ( Lu et al., 2020Wu et al. 2020b).  Впоследствии сарбековирус летучих мышей — RaTG13, взятый из Rhinolophus affinisподковообразная летучая мышь в 2013 году в провинции Юньнань — сообщалось, что кластеры с SARS-CoV-2 почти во всех геномных регионах с приблизительно 96% идентичностью геномных последовательностей ( Zhou et al., 2020b).  Чжоу и др.  (2020b)на основании генетической близости SARS-CoV-2 к вирусу летучих мышей пришли к выводу, что текущая вспышка COVID-19 является вероятным источником летучих мышей. Недавние данные также определили панголинов как потенциальных промежуточных видов для появления SARS-CoV-2 или самих потенциальных резервуарных видов ( Lam et al., 2020Xiao et al., 2020).

В отличие от других вирусов, появившихся за последние два десятилетия, коронавирусы являются высоко рекомбиногенными ( Forni et al., 2017Hon et al., 2008Lam et al., 2018).  Вирусы гриппа реассортируются ( Webster et al., 1992), но они не подвергаются гомологичной рекомбинации внутри сегментов РНК ( Boni et al., 2008, 2010), что означает, что вопросы о «происхождении» вспышек гриппа всегда можно свести к вопросам о происхождении для каждого из восьми сегментов РНК гриппа. Однако для коронавирусов рекомбинация означает, что небольшие геномные субрегионы могут иметь независимое происхождение, которое можно идентифицировать, если в резервуарах животных был проведен достаточный отбор образцов, поддерживающих эндемическую циркуляцию, коинфекцию и рекомбинацию, которые кажутся обычными. Здесь мы анализируем эволюционную историю SARS-CoV-2, используя доступные геномные данные о сарбековирусах. Мы демонстрируем, что сарбековирусы, циркулирующие у подковообразных летучих мышей, имеют сложную историю рекомбинации, позволяющую генерировать новые вирусные варианты, как сообщалось другими ( He et al., 2014Hon et al., 2008Hu et al., 2017 ;Ли и др., 2020bLin et al., 2017Wang et al., 2017Юань и др., 2010Чжоу и др., 2020a).  Интересно, что несмотря на происхождение, ведущее к приобретению SARS-CoV-2 остатков в его рецептор-связывающем домене (RBD) белка Spike (S), что позволяет использовать человеческий ACE2 ( Wan et al., 2020), и он ближе к вирусу панголина, чем RaTG13. в этой области ( Lam et al., 2020) — сигнал, указывающий на рекомбинацию — паттерны дивергенции в S-белке не свидетельствуют о рекомбинации между SARS-CoV-2 и известными сарбековирусами. Наши результаты указывают на присутствие единственной линии, циркулирующей у летучих мышей, со свойствами, которые позволяли ей инфицировать клетки человека, как ранее описано для сарбековирусов летучих мышей, относящихся к первой линии SARS-CoV ( Ge et al., 2013Menachery et al., 2015,  2016).

Чтобы измерить продолжительность распространения этой линии среди летучих мышей, мы оцениваем время до появления последнего общего предка (tMRCA) SARS-CoV-2 и RaTG13. Мы используем три биоинформатических подхода для устранения эффектов рекомбинации, и мы объединяем эти подходы для выявления предполагаемых нерекомбинантных областей, которые могут быть использованы для надежной филогенетической реконструкции и датирования. В совокупности наши анализы указывают на то, что летучие мыши являются основным резервуаром линии передачи SARS-CoV-2. Хотя возможно, что панголины могли действовать как промежуточные виды, способствующие передаче вируса людям, данные согласуются с тем, что вирус развился у летучих мышей, что привело к появлению сарбековирусов летучих мышей, которые могут реплицироваться в верхних дыхательных путях как людей, так и панголинов ( Zhang and Holmes, 2020Zhou et al., 2020a).

Полученные результаты

Рекомбинационный анализ и идентификация участков генома без точек останова

Из 68 последовательностей в выровненном наборе последовательностей сарбековируса 67 демонстрируют доказательства мозаицизма, что указывает на участие в гомологичной рекомбинации либо непосредственно с идентифицируемыми родителями, либо в их более глубокой общей эволюционной истории, т. Е. Из-за общих событий наследственной рекомбинации (все откорректированные Данна-Сидака p <4 × 10 −4 , 3SEQ ( Lam et al., 2018)). Это свидетельствует о многочисленных событиях рекомбинации, происходящих в эволюционной истории сарбековирусов ( Li et al., 2020b) ; однако идентификация всех прошлых событий и их временного порядка ( Eden et al., 2013) является сложной задачей. Рисунок 1 (вверху)показывает распределение всех идентифицированных точек останова (с использованием исчерпывающего поиска по триплетам 3SEQ) по количеству поддерживающих их рекомбинантных последовательностей-кандидатов. Гистограмма позволяет идентифицировать нерекомбинирующие области, выявляя области без контрольных точек. Сортировка этих областей, свободных от точек разрыва (BFR) по длине, приводит к двум сегментам длиннее 5 т.п.н.: суб-область ORF1a, охватывающая нуклеотиды 3625-9150, и первая половина ORF1b, охватывающая нуклеотиды 13291-19628. Были идентифицированы восемь других BFR длиннее 500nt. Из девяти контрольных точек (определяющих эти десять BFR) четыре показали сигналы филогенетического несоответствия (PI) с поддержкой бутстрапа выше 80%, принимая ранее опубликованные критерии использования комбинации мозаичных и PI-сигналов для демонстрации свидетельств прошлых событий рекомбинации ( Boni и др., 2010). Все четыре точки останова также были идентифицированы с помощью древовидного метода обнаружения рекомбинации GARD ( Kosakovsky Pond et al., 2006).

Рисунок 1.

Вверху: точки останова, идентифицированные 3SEQ, показанные процентом последовательностей (из 68), которые поддерживают конкретную позицию точки останова. Обратите внимание, что точки останова могут быть разделены между последовательностями, если они являются потомками одних и тех же событий рекомбинации. Розовые, зеленые и оранжевые полосы показывают области, свободные от контрольных точек (BFR), причем область A (нуклеотиды 13291-19628) показывает два обрезанных сегмента, чтобы получить область A ' (нуклеотиды 13291-14932, 15405-17162, 18009-19628). Область B охватывает 3625-9150 нуклеотидов, а область C - 9261-11795. Конкатенированная область A'BC представляет собой нерекомбинирующую область 1 ( NRR1). Открытые рамки считывания показаны над графиком точки останова, при этом вариабельная область петли указана в S-белке. В центре: график сходства между SARS-CoV-2 и несколькими выбранными последовательностями, включая RaTG13 (черный), SARS 2002–2003 (розовый) и две последовательности панголина (оранжевый). Заштрихованная область соответствует белку S. Внизу: филогенетические деревья максимального правдоподобия, основанные на вирусе 2007 г., отобранном в Кении (BtKy72; корень усечен по изображениям), показаны для пяти областей, свободных от контрольных точек, в сопоставлении с сарбековирусом. Положения нуклеотидов для филогенетического вывода: 147-695, 962-1686 (первое дерево), 3625-9150 (второе дерево, также BFR B), 9261-11795 (третье дерево, также BFR C), 12443-19638 (четвертое дерево) и 23631-24633, 24795-25847, 27702-28843, 29574-30650 (пятое дерево). Соответствующие значения начальной загрузки показаны на ветвях, а области, заштрихованные серым цветом, показывают последовательности, которые демонстрируют филогенетическое несоответствие вдоль генома. SC China соответствует провинциям южно-центрального Китая, в частности, провинциям Юньнань, Гуйчжоу и Гуанси. Северо-восточный Китай соответствует провинциям на северо-востоке Китая: провинциям Цзилинь, Шэньси, Шаньси, Хэбэй и Хэнань.

Степень истории рекомбинации сарбековирусов может быть продемонстрирована пятью филогенетическими деревьями, выведенными из BFR или связанных смежных BFR ( Рисунок 1, внизу).  BFR были объединены, если между ними нельзя было идентифицировать сигнал филогенетического несоответствия. При просмотре последних 7kb генома клады вирусов из северо-восточного (NE) Китая, кажется, объединяются с последовательностями из южно-центральных (SC) китайских провинций, но при осмотре деревьев из разных частей ORF1ab клады NE China филогенетически отделены от клады SC China. Индивидуальные последовательности, такие как RpShaanxi2011, Guangxi GX2013, и две последовательности из провинции Чжэцзян (CoVZXC21 / CoVZC45), как показано ранее ( Li et al., 2020bZhou et al., 2020a), демонстрируют сильные сигналы филогенетической рекомбинации, поскольку они относятся к разным эволюционным линиям (с поддержкой бутстрапа> 80%) в зависимости от того, какая область генома исследуется.

Несмотря на такую ​​высокую частоту рекомбинации среди вирусов летучих мышей, «блочная» природа генома позволяет извлекать чистое выравнивание для филогенетического анализа. Консервативно мы можем объединить три BFR размером> 2 т.п.н., идентифицированные выше, в предполагаемую нерекомбинирующую область 1 ( NRR1) после удаления пяти последовательностей, которые кажутся рекомбинантами, и двух небольших суб-областей более длинной области (нуклеотиды 13291-19628). В качестве альтернативы, комбинируя точки останова, выведенные с помощью 3SEQ, с точками останова, выведенные GARD, и необходимость сигналов PI для определения рекомбинации, мы можем использовать область 9,9 КБ, охватывающую нуклеотиды 11885-21753 ( NRR2) в качестве предполагаемой нерекомбинирующей области; этот подход является консервативным при определении точек останова, но не консервативным при идентификации нерекомбинирующих областей. Использование третьего основанного на консенсусе подхода для идентификации рекомбинантных областей в индивидуальных последовательностях — с шестью различными методами обнаружения рекомбинации в RDP5 ( Martin et al., 2015) — дает предполагаемое выравнивание без рекомбинации, которое мы называем нерекомбинантным выравниванием 3 ( NRA3). (см. Методы).

Все три подхода к удалению рекомбинантных геномных сегментов указывают на единую предковую линию SARS-CoV-2 и RaTG13. Два других вируса летучих мышей (CoVZXC21 и CoVZC45) из провинции Чжэцзян попадают в эту линию как рекомбинанты линии RaTG13 / SARS-CoV-2 и клады вирусов летучих мышей Гонконга, отобранных между 2005 и 2007 годами ( рис. 1, внизу).  В частности, предшественники линии RaTG13 / SARS-CoV-2, по-видимому, рекомбинировали с гонконгской кладой (с предполагаемыми точками разрыва на уровне 11,9kb и 20,8kb), чтобы сформировать линию CoVZXC21 / CoVZC45. Предки линии RaTG13 / SARS-CoV-2 также включают последовательность панголинов, отобранную в провинции Гуандун в марте 2019 года, и кладу последовательностей панголинов из провинции Гуанси, отобранную в 2017 году. Основные филогенетические и филогеографические взаимосвязи показаны наРисунок 2, на котором реконструированы филогении для двух основных субрегионов NRR1.

Фигура 2.

Деревья максимального правдоподобия сарбековирусов с использованием двух самых длинных областей, свободных от точек останова (BFR), уходят корнями в линию происхождения Кения / Болгария. Область A была сокращена до A ' (5017nt) на основании потенциальных сигналов рекомбинации внутри области. Область B имеет длину 5525 нт. Последовательности имеют цветовую маркировку по провинциям в соответствии с картой. Пять примеров последовательностей с несовпадающими филогенетическими позициями на двух деревьях обозначены пунктирными линиями.

Поскольку белок SARS-CoV-2 S был вовлечен в прошлые события рекомбинации или, возможно, в конвергентную эволюцию ( Lam et al., 2020), мы специально исследовали несколько субрегионов белка S — N-концевой домен S1, С-концевой домен S1, вариабельная область петли С-концевого домена и S2. Область вариабельной петли в SARS-CoV-2 показывает более близкую идентичность с последовательностью коронавируса панголина 2019 года, чем с вирусом летучей мыши RaTG13, что подтверждается филогенетическим выводом ( рисунок 3).  При первом осмотре можно предположить, что SARS-CoV-2 является рекомбинантом предка Pangolin-2019 и RaTG13. Однако при ближайшем рассмотрении относительные расхождения в филогенетическом дереве ( рис. 3, внизу) показывают, что SARS-CoV-2 вряд ли заимствовал вариабельную петлю от предка Pangolin-2019, поскольку эти две последовательности расходятся примерно на 10% по всему S-белку (за исключением NTD). Именно RaTG13 является дивергентным в области вариабельной петли и является вероятным продуктом рекомбинации, приобретая дивергентную вариабельную петлю от сарбековируса летучих мышей, который еще не исследован. Это примечательно, потому что область вариабельной петли содержит шесть ключевых контактных остатков в рецепторсвязывающем домене (RBD), которые придают SARS-CoV-2 специфичность связывания ACE2 ( Anderson et al., 2020Wan et al., 2020). Эти остатки также входят в последовательность коронавируса панголина 2019 года. Наиболее экономным объяснением этих общих остатков является то, что одна линия вируса летучих мышей (включая общего предка SARS-CoV-2, RaTG13 и Pangolin Guangdong 2019) имеет специфические остатки ACE2, а не рекомбинантный SARS-CoV-2. Это обеспечивает убедительную поддержку линии SARS-CoV-2, являющейся следствием прямого или почти прямого зоонозного перехода от летучих мышей, поскольку ключевые связывающие остатки ACE2 присутствовали в вирусах, циркулирующих у летучих мышей.

Рисунок 3.

Филогенетические отношения между SARS-CoV-2 и близкородственными последовательностями для субрегионов S-белка. SARS-CoV-2 и RaTG13 являются наиболее близкими родственниками (их самый последний общий узел-предок обозначен зеленым кружком), за исключением области переменной петли 220nt C-концевого домена (гистограммы внизу). В области вариабельной петли RaTG13 значительно отличается от tMRCA, теперь за пределами предка SARS-CoV-2 и Pangolin Guangdong 2019, что позволяет предположить, что RaTG13 заимствовал эту область от более дивергентной и необнаруженной линии летучих мышей. Генетические расстояния между SARS-CoV-2 и RaTG13 (нижняя панель) демонстрируют, что их взаимосвязь согласована во всех регионах, за исключением вариабельной петли. Генетические дистанции между SARS-CoV-2 и Pangolin Guangdong 2019 одинаковы во всех регионах, кроме NTD.

Происхождение в нерекомбинантных регионах

Используя наиболее консервативный подход к идентификации нерекомбинантной области генома ( NRR1), SARS-CoV-2 образует сестринскую линию с RaTG13 с генетически родственными родственными линиями коронавируса, взятыми у панголинов в провинциях Гуандун и Гуанси ( Рисунок 2).  Учитывая, что эти вирусы панголинов являются предками линии RaTG13 / SARS-CoV-2, более вероятно, что они также передают вирусы от летучих мышей. Хотя панголины могут выступать в качестве промежуточных хозяев для вирусов летучих мышей, попадающих в организм человека, у них развиваются тяжелые респираторные заболевания ( Lie et al., 2019) и обычно вступают в контакт с людьми, поскольку их продают в больших количествах для потребления и использования в китайской медицине — заражение панголинами не является обязательным требованием для передачи вирусов летучих мышей людям.

Филогения субрегионов NRR1 отражают значительную степень пространственной структуризации популяции сарбековирусов в разных регионах ( Рисунок 2).  Один кластер состоит из вирусов из провинций южно-центрального (ЮЦ) Китая (Гуанси, Юньнань, Гуйчжоу), а также одной последовательности из провинции Сычуань. Основной кластер в его родственной линии почти полностью занят вирусами из провинций северо-востока (NE) и центрального Китая (Хубэй, Шэньси, Шаньси, Хэнань, Хэбэй, Чжэцзян и Цзилинь).

tMRCA для нерекомбинантных областей линии происхождения SARS-CoV-2

Чтобы избежать артефактов из-за рекомбинации, мы сосредоточились на нерекомбинирующих областях NRR1,  NRR2 и выравнивании с маской рекомбинации NRA3 для вывода измеренных во времени эволюционных историй. Визуальное исследование с использованием TempEst ( Rambaut et al., 2016) показывает, что в этих наборах данных нет свидетельств временного сигнала (рисунок S1). Это неудивительно для разнообразных вирусных популяций с относительно глубокой историей эволюции. В таких случаях даже умеренная вариация скорости среди длинных глубоких филогенетических ветвей будет значительно влиять на ожидаемые расхождения от корней до кончиков во временном диапазоне выборки, который составляет лишь небольшую часть эволюционной истории ( Trova et al., 2015). Однако формальное тестирование с использованием оценки маргинального правдоподобия ( Duchene et al., 2019) не отвергает отсутствие временного сигнала во всех трех наборах данных (Таблица S1), хотя и без сильной поддержки в пользу временного сигнала (логарифмическая поддержка фактора Байеса 3, 10 и 3 для NRR1,  NRR2 и NRA3 соответственно).

В отсутствие сильного временного сигнала мы стремились определить подходящее предварительное распределение скорости для калибровки деревьев, измеренных во времени, путем изучения нескольких коронавирусов, отобранных во времени, включая геномы вирусов HCoV-OC43, MERS-CoV и SARS-CoV. Эти наборы данных были подвергнуты тому же подходу маскирования рекомбинации, что и NRA3, и характеризовались сильным временным сигналом ( рис. 4), но также и заметно разными темпами эволюции. В частности, с использованием формального байесовского подхода ( Suchard et al., 2018) (см. Методы), мы оцениваем быструю скорость эволюции (0,00169 субстрата / сайт / год, 95% интервал максимальной апостериорной плотности (HPD) [0,00131,0,00205]) для вирусов SARS, отобранных в течение ограниченного периода времени (1 год), более медленную скорость (0,00078 [0,00063,0,00092] суб / сайт / год) для БВРС-КоВ в масштабе времени около 4 лет, и самая низкая скорость (0,00024 [0,00019,0,00029] суб / участок / год) для HCoV-OC43 в течение почти пяти десятилетий. Эти различия отражают тот факт, что оценки скорости могут значительно варьироваться в зависимости от шкалы времени измерения, часто наблюдаемое явление у вирусов, известное как зависящие от времени скорости эволюции ( Aiewsakun and Katzourakis, 2016Duchene et al., 2014Membrebe et al., 2019 г.). В относительно небольших временных масштабах такие различия можно в первую очередь объяснить изменяющимся давлением отбора, при этом умеренно вредные варианты устраняются сильнее за счет очистки отбора на более длительных временных масштабах ( Holmes, 2009Holmes et al., 2016Membrebe et al., 2019). В соответствии с этим, мы оцениваем одновременно уменьшающееся соотношение несинонимичных и синонимичных замен (dN / dS) на более длительных эволюционных временных масштабах: 1,41 [1,20,1,68], 0,35 [0,30,0,41] и 0,133 [0,129,0,136]. ] для SARS, MERS-CoV и HCoV-OC43 соответственно. В свете этой зависящей от времени динамики скорости эволюции, скорость в медленном диапазоне подходит для калибровки истории эволюции сарбековируса, но мы сравниваем центрированные априорные распределения БВРС-КоВ и HCoV-OC43 (Рисунок S2) с относительно большими вариациями в наш последующий анализ с целью изучения чувствительности оценок на дату к предыдущей спецификации.

Рисунок 4.

Оценка временного сигнала и средней скорости эволюции коронавирусов HCoV-OC43, MERS и SARS.  ( AC) Расхождение от корня до кончика как функция времени выборки для трех историй эволюции коронавируса, разворачивающихся в разных временных масштабах.  ( D) Оценки средней скорости эволюции в зависимости от диапазона времени выборки для тех же трех наборов данных (представленных тем же цветом, что и точки данных на их соответствующих графиках расхождения от корня до кончика), а также для сопоставимого сарбековируса с маской рекомбинации выравнивание ( NRA3) с использованием двух разных априорных значений для скорости в байесовском выводе (красные точки).

Мы выводим измеренные во времени истории эволюции с использованием байесовского филогенетического подхода, включая априорные значения скорости, основанные на средних показателях БВРС-КоВ и ВГС-ОС43, и со стандартными отклонениями, которые допускают большую неопределенность, чем эмпирические оценки для обоих вирусов (см. Методы).  Используя оба предшествующих распределения, это приводит к шести очень похожим апостериорным оценкам частоты для NRR1,  NRR2 и NRA3 с центром около 0,00055 суб / сайт / год. Тот факт, что эти оценки находятся между частотой БВРС-КоВ и ВГС-ОС43, согласуется с промежуточным диапазоном времени выборки, составляющим около 18 лет ( рис.). Согласованность апостериорных скоростей для различных априорных средних также подразумевает, что данные действительно вносят вклад в оценку эволюционной скорости, несмотря на тот факт, что временной сигнал не был визуально очевиден (Рисунок S1). Ниже мы приводим оценки времени расхождения, основанные на априорных значениях скорости, центрированных на HCoV-OC43, но также суммируем аналогичные соответствующие оценки для априорных значений скорости, центрированных на MERS-CoV, на дополнительном рисунке S3.

Рисунок 5.

Измеренные во времени филогенетические оценки и время дивергенции клонов сарбековируса с использованием предварительно центрированной скорости HCoV-OC43. Калиброванная по времени филогения представляет собой дерево максимальной вероятности клады, выведенное для NRR1.  Серые кончики соответствуют вирусам летучих мышей, зеленые — ящерам, синие — вирусу SARS-CoV, а красные — SARS-CoV-2. Размер черных кругов внутренних узлов пропорционален опоре заднего узла. Полосы 95% вероятных интервалов показаны для всех возрастов внутренних узлов. На вставке представлены оценки времени расхождения на основе NRR1,  NRR2 и NRA3.. Коробчатые диаграммы представляют оценки времени расхождения для SARS-CoV-2 (красная прямоугольная диаграмма) и вируса SARS-CoV 2002-2003 годов (синяя прямоугольная диаграмма) от их наиболее близкого вируса летучих мышей. Зеленые прямоугольные диаграммы показывают оценку TMRCA для линии RaTG13 / SARS-CoV-2 и ее наиболее близкой линии передачи панголинов (Guangdong 2020). Прозрачные прямоугольники ширины межквартильного размаха и одинаковых цветов накладываются друг на друга, чтобы подчеркнуть совпадение оценок. На дополнительном рисунке S3 мы сравниваем эти оценки времени расхождения с оценками, полученными с использованием априорных значений скорости,  основанных на MERS-CoV, для NRR1,  NRR2 и NRA3.

Оценки времени расхождения для SARS-CoV-2 и SARS-CoV от их соответствующих наиболее близкородственных линий летучих мышей достаточно согласованы для трех подходов, которые мы используем для устранения эффектов рекомбинации в выравнивании. Используя наиболее консервативный подход ( NRR1), оценка времени расхождения для SARS-CoV-2 и RaTG13 составляет 1969 год (95% HPD: 1930-2000), тогда как оценка времени расхождения между SARS-CoV и его наиболее близкой последовательностью летучих мышей составляет 1962 год. (95% HPD: 1932-1988); см. рисунок 5.  Они в целом согласуются с оценками с использованием NRR2 и NRA3., что приводит к временам расхождения 1982 [1948,2009] и 1948 [1879-1999], соответственно, для SARS-CoV-2, и оценкам 1952 [1906, 1989] и 1970 [1932-1996], соответственно, для время расхождения SARS-CoV от его ближайшего известного предка летучей мыши. Время расхождения SARS-CoV несколько раньше, чем предполагалось ранее ( Hon et al., 2008), поскольку предыдущие оценки были получены с использованием коллекции геномов SARS-CoV от человека и циветты (а также нескольких тесно связанных геномов летучих мышей). что означает, что скорость эволюции в основном определялась кратковременной шкалой вспышки атипичной пневмонии и, вероятно, смещена вверх для исследуемой временной шкалы. Действительно, показатели, указанные в этих исследованиях, соответствуют краткосрочным показателям SARS, которые мы оцениваем ( Рисунок 4). Расчетное время расхождения для вируса панголина, наиболее близкого к SARS-CoV-2 / RaTG13, варьируется от 1851 [1730,1958] до 1877 [1746,1986], что указывает на то, что эти линии панголинов были получены от вирусов летучих мышей, расходящихся с теми, которые дали подняться до SARS-CoV-2. Текущий сбор образцов панголинов не предполагает их участия в качестве промежуточных хозяев.

Обсуждение

Выявление происхождения появляющегося патогена может иметь решающее значение на ранних этапах вспышки, поскольку это может позволить точно нацелить меры сдерживания на этапе, когда количество ежедневно новых инфекций все еще невелико. Раннее выявление с помощью геномики и секвенирования было невозможно во время первоначальных вспышек птичьего гриппа H5N1 в Юго-Восточной Азии (1997, 2003-2004 гг.) Или первой вспышки атипичной пневмонии (2002-2003 гг.). К 2009 году, однако, быстрый геномный анализ стал обычным компонентом реагирования на вспышку. Пандемия гриппа 2009 г. и последующие вспышки БВРС-КоВ (2012 г.), птичьего гриппа H7N9 (2013 г.), вируса Эбола (2014 г.) и вируса Зика (2015 г.) были встречены быстрым секвенированием и геномной характеристикой. Что касается текущей пандемии, то компонент «идентификация нового патогена» в ответных мерах на вспышку оправдал свое обещание,Всемирная организация здравоохранения, 2020a).  К сожалению, ответ, который позволил бы добиться сдерживания, был невозможен. Учитывая то, что было известно о происхождении SARS, а также идентификацию SARS-подобных вирусов, циркулирующих у летучих мышей, сайты связывания которых адаптированы к человеческим рецепторам ( Ge et al., 2013Menachery et al., 2015,  2016), следует принять соответствующие меры. были приняты меры для вспышек новых коронавирусов. Ключом к успешному эпиднадзору является то, что мы знаем, какие вирусные фенотипы, адаптированные к человеку, следует искать ( Holmes et al., 2018).

Ключевая трудность при выводе надежных эволюционных историй коронавирусов заключается в том, что их высокая скорость рекомбинации ( Graham and Baric, 2010Su et al., 2016) нарушает предположение о стандартных филогенетических подходах, поскольку разные части генома будут иметь разное происхождение. Чтобы начать характеризовать какие-либо предковые отношения для SARS-CoV-2, необходимо идентифицировать нерекомбинантные области генома, чтобы можно было выполнить надежную филогенетическую реконструкцию и датировку. На оценку скорости эволюции может сильно повлиять присутствие рекомбинации ( Schierup and Hein, 1999).). Поскольку не существует единого общепринятого метода определения точек останова и определения чистых субрегионов с высокой степенью уверенности, мы реализовали несколько подходов для определения трех классических статистических сигналов рекомбинации: мозаицизма, филогенетического несоответствия и чрезмерной гомоплазии ( Posada et al., 2002).  Наш наиболее консервативный подход попытался гарантировать, что предполагаемые нерекомбинирующие области не имеют мозаичных или филогенетических сигналов несовместимости. Второй подход был консервативным в отношении идентификации точек останова, в то время как третий подход был попыткой минимизировать количество удаляемых областей, при этом сводя к минимуму сигналы мозаицизма и гомоплазии. Истоки, представленные на рисунке 5 ( NRR1), консервативны в том смысле, что NRR1с большей вероятностью будет нерекомбинантным, чем NRR2 или NRA3.  Поскольку предполагаемые скорости и даты расхождения были очень похожи в трех проанализированных наборах данных, мы заключаем, что наши оценки устойчивы к методу идентификации нерекомбинантных областей генома.

Из-за отсутствия временного сигнала в наборах данных о сарбековирусе мы использовали информативные априорные распределения скорости эволюции для оценки дат дивергенции. Мы показываем, что такая предварительная информация о калибровке может быть получена от других коронавирусов (SARS-CoV, MERS-CoV и HCoV-OC43), но их частота зависит от масштаба времени сбора образцов. При наличии зависящих от времени изменений скорости, широко наблюдаемого явления для вирусов ( Duchene et al., 2014Aiewsakun and Katzourakis, 2016Membrebe et al., 2019), более низкие скорости кажутся более подходящими для сарбековирусов, которые в настоящее время охватывают временной диапазон выборки около 18 лет. Поэтому мы сосредоточили предыдущие распределения частоты на средней частоте HCoV-OC43 и MERS-CoV, но допустили большую дисперсию распределений, чем эмпирические оценки частоты для этих линий. Этот подход привел к аналогичным апостериорным показателям, несмотря на различные предшествующие средства, подразумевая, что данные о сарбековирусе действительно дают информацию для оценки частоты, даже если временной сигнал от корня до вершины не был очевиден.

Относительно высокая скорость эволюции означает, что наиболее целесообразно оценивать мелкие узлы в истории эволюции сарбековируса, включая время расхождения SARS-CoV и SARS-CoV-2 от их наиболее близких вирусов летучих мышей. Точная оценка более глубоких узлов потребует адекватного учета изменения скорости, зависящего от времени. Хотя такие модели стали доступны недавно, нам не хватает информации для калибровки снижения скорости с течением времени (например, посредством калибровки внутренних узлов ( Membrebe et al., 2019)). В качестве прокси можно было бы смоделировать долгосрочную динамику очищающего отбора в качестве основного источника зависящих от времени ставок ( Duchene et al., 2014Aiewsakun and Katzourakis, 2016Membrebe et al., 2019), но это выходит за рамки настоящего исследования. Предположение о долгосрочном очищающем отборе будет означать, что коронавирусы находятся в эндемическом равновесии со своими естественными видами-хозяевами, подковообразными летучими мышами, к которым они, по-видимому, хорошо адаптированы. Хотя в настоящее время имеется мало доказательств, подтверждающих или опровергающих сильный положительный отбор в линии сарбековируса, если бы нужно было идентифицировать несколько видов хозяев, способных поддерживать эндемичную передачу вируса, то положительный отбор, который был бы связан с адаптацией новых видов, должен быть учитывается при выводе изменения скорости эволюции во времени.

Для будущих событий появления важно осознание того, что SARS-CoV-2 произошел от того же подрода подковообразных летучих мышей, который является носителем SARS-подобных коронавирусов. Еще одно сходство между SARS-CoV и SARS-CoV-2 — время их расхождения (40-70 лет назад) с известными в настоящее время существующими линиями вирусов летучих мышей ( рис. 5).  Этот длительный период дивергенции указывает на то, что среди подковообразных летучих мышей циркулируют несобранные вирусы, обладающие зоонозным потенциалом ( Zhou et al., 2020a).  Хотя существует явное участие других видов млекопитающих, в частности панголинов для SARS-CoV-2, в качестве вероятного канала передачи к человеку, нет никаких доказательств того, что панголины способствуют адаптации к человеку. Гипотеза о змеях как о промежуточных хозяевах SARS-CoV-2 была высказана на ранней стадии эпидемии (Ji et al., 2020), но мы не нашли доказательств этого ( Anderson, 2020Robertson, 2020) ; см. Дополнительный раздел 3.

Поскольку в настоящее время подковообразные летучие мыши являются наиболее вероятным источником SARS-CoV-2, важно учитывать, что сарбековирусы циркулируют среди множества видов подковообразных летучих мышей, ареалы часто широко пересекаются ( Wong et al., 2019).  Тем не менее, вирусная популяция в значительной степени пространственно структурирована в соответствии с провинциями на юге и юго-востоке по одной линии и провинциями в центре, востоке и северо-востоке по другой ( рис. 2).  Эта граница, кажется, редко пересекается. Два исключения можно увидеть в относительно близком родстве вирусов от гонконгских летучих мышей с вирусами из Чжэцзян (два из которых, CoVZC45 и CoVZXC21, идентифицированные как рекомбинанты) и рекомбинантного вируса из Сычуани, для которого часть генома (область B SC2018 на рисунке 2) кластеры с вирусами из провинций в центре, востоке и северо-востоке Китая. SARS-CoV-2 и RaTG13 также являются исключениями, поскольку они были взяты из Хубэя и Юньнани соответственно. Тот факт, что они географически относительно удалены, согласуется с их несколько удаленным tMRCA, поскольку пространственная структура предполагает, что миграция между их местоположениями может быть необычной. С этой точки зрения может быть полезно провести наблюдение за вирусом, более тесно связанным с SARS-CoV-2, вдоль градиента от Юньнани до Хубэй.

Из нашего анализа ясно, что вирусы, тесно связанные с SARS-CoV-2, циркулируют у подковообразных летучих мышей в течение многих десятилетий. Существенное полное разнообразие клонов SARS-CoV-2 / RaTG13 позволяет предположить, что существует основная клада сарбековирусов летучих мышей с универсальными свойствами — в отношении их способности инфицировать ряд клеток млекопитающих — которые облегчили его распространение на людей и могут быть полезны. так еще раз. Хотя человеческий ACE2-совместимый рецепторный связывающий домен с большой вероятностью присутствовал в линии сарбековируса летучих мышей, которая в конечном итоге приводит к SARS-CoV-2, эта последовательность RBD до сих пор была обнаружена только у нескольких вирусов панголина. Более того,Zhou et al., 2020a) ; однако последовательность иная, и это, вероятно, независимое событие.

Существующее разнообразие и динамический процесс рекомбинации между линиями в резервуаре летучих мышей демонстрируют, насколько сложно будет идентифицировать вирусы, потенциально способные вызвать значительные вспышки среди людей, прежде чем они появятся. Это подчеркивает потребность в глобальной сети систем наблюдения за заболеваниями человека в режиме реального времени, подобных той, которая выявила необычный кластер пневмонии в Ухане в декабре 2019 года, а также в быстром развертывании функциональных исследований и геномных инструментов для идентификации и характеристики патогенов.

Методы

Составление набора данных

Данные сарбековируса. Полные данные о последовательности генома были загружены из GenBank и ViPIR; номера доступа доступны в дополнительном разделе 4. Последовательности были выровнены с помощью MAFTT ( Katoh et al., 2009) с конечной длиной выравнивания 30927 и использованы в анализах ниже.

HCoV-OC43. Мы собрали набор данных, включающий 27 геномов вируса коронавируса человека OC43 и 10 геномов родственных вирусов животных (6 крупного рогатого скота, 3 оленя с белыми хвостами и один вирус собак). Вирусный геном собак был исключен из байесовского филогенетического анализа, потому что анализ временных сигналов (см. Ниже) показал, что он был исключением.

MERS-CoV. Мы извлекли аналогичное количество ( n = 35) геномов из набора данных по БВРС-КоВ, проанализированного Дудасом и др. (2018) с помощью инструмента анализатора филогенетического разнообразия ( Черномор и др., 2015).

SARS-CoV. Мы собрали набор из 69 геномов SARS-CoV, включая 58 геномов, взятых у человека, и 11 геномов, взятых у циветт и енотовидных собак. Этот набор данных представляет собой обновленную версию набора, использованного в Hon et al (2008).

Рекомбинационный анализ

Поскольку известно, что коронавирусы являются высоко рекомбинантными, мы использовали три разных подхода для идентификации нерекомбинантных областей, которые будут использоваться в нашем филогенетическом выводе, калиброванном по байесовскому методу.

Во-первых, мы использовали подход, который основан на идентификации мозаичных регионов (с помощью 3SEQ), которые также поддерживаются сигналами филогенетического несоответствия (PI) ( Boni et al., 2010).  Поскольку 3SEQ является наиболее мощным методом мозаики ( Boni et al., 2007), мы использовали 3SEQ для определения истории наиболее поддерживаемых точек останова для каждой потенциальной дочерней (рекомбинантной) последовательности в наборе данных. Один прогон 3SEQ по выравниванию генома привел к 67 из 68 последовательностей, поддерживающих некоторую рекомбинацию в прошлом, с множеством диапазонов точек разрыва, перечисленных для каждого предполагаемого рекомбинанта. Затем мы (a) собрали все точки останова в один набор, (b) дополнили этот набор, чтобы сгенерировать набор не-точек останова, © сгруппировали не-точки останова в смежные области без точек останова (BFR) и (d) отсортировал эти регионы по длине. Филогенетическое дерево — с использованием RAxML v8.2.8 (Stamatakis , 2014,  2006), модели GTR + Γ, 100 реплик начальной загрузки — было выведено для каждого BFR длиннее 500nt.

Мы рассмотрели как (1) возможность того, что BFR могут быть объединены в более крупные нерекомбинантные области, и (2) возможность дальнейшей рекомбинации внутри каждого BFR.

Мы назвали отсортированные по длине BFR как: область A (положения нуклеотидов 13291-19628, длина = 6338nt), область B (положения нуклеотидов 3625-9150, длина = 5526nt), область C (положения нуклеотидов 9261-11795, длина = 2535nt)., область D (нуклеотиды 27702-28843 позиции, длина = 1142nt), и шесть больше через область J.  Филогенетические деревья для всех десяти BFR показаны на дополнительных рисунках S5-S14. Районы A,  B и Cимели аналогичные филогенетические отношения между вирусами летучих мышей южно-центрального Китая (провинции Юньнань, Гуанси, Гуйчжоу), вирусами Гонконга, вирусами северо-востока Китая (провинции Цзилинь, Шэньси, Шаньси, Хэбэй, Хэнань), вирусами панголина и вирусом SARS-CoV-2. происхождение. Поскольку эти субклады имели разные филогенетические отношения в области D (дополнительный раздел 5), область D и более короткие BFR не включались далее в комбинированные предполагаемые нерекомбинантные области.

Области A,  B и C были дополнительно исследованы на мозаичные сигналы с помощью 3SEQ; все имели признаки мозаицизма. В области А, мы удалили Подрегион A1 (нуклеотиды 3872-4716 позиции в пределах области A) и подобластей A4 (нт 1642-2113) в качестве обоего этих показавших PI-сигналы с другими подобластями области А.  После удаления A1 и A4 мы назвали новую область A ′.  Кроме того, необходимо удалить последовательности NC_014470 (Болгария, 2008 г.), CoVZXC21, CoVZC45 и DQ412042 (Hubei-Yichang) для поддержания чистого нерекомбинантного сигнала в A '.  Регион Bне показали PI-сигналов в пределах области, кроме одного, включающего последовательность SC2018 (Сычуань), таким образом, эта последовательность также была удалена из набора. Область C не показала внутри себя PI-сигналов. Объединение областей A ',  B и C и удаление пяти упомянутых последовательностей дает нам предполагаемую нерекомбинирующую область 1 или NRR1 в качестве выравнивания 63 последовательностей.

Во-вторых, мы хотели создать нерекомбинантные области, в которых наш подход к идентификации точек останова был как можно более консервативным. В этом подходе мы считали точку останова поддерживаемой, только если она имела три типа статистической поддержки: (1) мозаичные сигналы, идентифицированные 3SEQ, (2) PI-сигналы, идентифицированные путем построения деревьев вокруг точек останова 3SEQ, (3) алгоритм GARD ( Косаковский Понд и др., 2006), который идентифицирует точки останова путем идентификации PI-сигналов в предложенных точках останова. Поскольку 3SEQ идентифицировал 10 BFR длиннее 500nt, мы использовали вывод GARD для 10, 11 и 12 контрольных точек. Сокращенный набор последовательностей из 25 последовательностей, выбранных для отражения широты разнообразия сарбековирусов (также были исключены очевидные рекомбинанты, не связанные с линией SARS-CoV-2), поскольку GARD требует больших вычислений. GARD обнаружил восемь точек останова, которые также находились в пределах 50 от точек останова, определенных 3SEQ. PI-сигналы были идентифицированы (с поддержкой начальной загрузки> 80%) для семи из этих восьми точек останова: позиций 1684, 3046, 9237, 11885, 21753, 22773 и 24628. Используя эти точки останова, был использован самый длинный предполагаемый нерекомбинирующий сегмент (nt 11885). -21753) имеет длину 9,9 КБ, и мы называем эту область NRR2. Поскольку этот подход к идентификации точек останова является консервативным, подход к идентификации нерекомбинантных областей не является консервативным.

Наш третий подход включал определение контрольных точек и маскирование минорных рекомбинантных областей (с пробелами, которые рассматриваются как ненаблюдаемые признаки в вероятностных филогенетических подходах). В частности, мы использовали комбинацию из шести методов, реализованных в RDP5 (RDP, GENECONV, MaxChi, Bootscan SisScan и 3SEQ), и рассмотрели сигналы рекомбинации, обнаруженные более чем двумя методами для идентификации точек останова. За исключением указания, что последовательности являются линейными, все настройки были сохранены по умолчанию. Основываясь на выявленных точках разрыва в каждом геноме, в каждом геноме сохраняется только основная нерекомбинантная область, тогда как другие области маскируются. Чтобы оценить процедуру производительности, мы подтвердили, что маскирование рекомбинации привело к ( i) значительно отличающемуся результату PHI-теста (Bruen et al., 2006), ( ii) удаление хорошо поддерживаемых (значение начальной загрузки> 95%) несовместимых разделений в Neighbor-Nets ( Bryant and Moulton, 2004) и ( iii) почти полное сокращение мозаичного сигнала. как определено 3SEQ. Если последний по-прежнему идентифицировал немалый сигнал рекомбинации, мы удалили дополнительные геномы, которые были определены как основные участники оставшегося сигнала. Это привело к нерекомбинирующему выравниванию NRA3, которое включало 63 из 68 геномов.

Оценка времени байесовской дивергенции

Мы сосредоточились на этих трех нерекомбинирующихся регионах / выравниваниях для оценки времени расхождения. Это позволяет избежать ненадлежащего моделирования эволюционных процессов с рекомбинацией на строго разветвляющихся деревьях, что может привести к различным артефактам, таким как гомоплазии, которые увеличивают длину ветвей и приводят к очевидно более длительному времени эволюционной дивергенции. Чтобы изучить временной сигнал в секвенированных данных, мы построили графикрасхождения от корня до кончика в зависимости от времени выборки с помощью TempEst ( Rambaut et al., 2016) на основе дерева максимального правдоподобия. Последний был реконструирован с использованием IQTREE ( Nguyen et al., 2014) в рамках модели General-Time Reversible (GTR) с дискретным гамма-распределением для моделирования вариации скорости между участками.

Филогенетическая реконструкция с временной шкалой была выполнена с использованием байесовского подхода, реализованного в BEAST ( Suchard et al., 2018). Когда геномные данные включали как кодирующие, так и некодирующие области, мы использовали одну модель замены GTR + Γ; для конкатенированных кодирующих генов мы разделили выравнивание по позициям кодонов и определили независимую модель GTR + Γ для каждого раздела с отдельной гамма-моделью, чтобы учесть вариации скорости между сайтами. Мы использовали некоррелированную модель расслабленных часов с логнормальным распределением для всех наборов данных, за исключением данных SARS с низким разнообразием, для которых мы указали строгую модель молекулярных часов. Для наборов данных HCoV-OC43, MERS-CoV и SARS мы указали гибкие предварительные параметры сливающегося дерева небесной сетки. В отсутствие каких-либо разумных предварительных знаний о tMRCA наборов данных сарбековируса (что требуется для спецификации сетки в модели небесной сетки), мы заранее указали более простую популяцию постоянного размера. В качестве информативных априорных значений для анализа наборов данных сарбековируса мы использовали два различных нормальных априорных распределения: одно со средним значением 0,00078 и стандартным отклонением 0,0003, а другое со средним значением 0,00024 и стандартным отклонением 0,0001. Эти средние значения основаны на средних показателях, оцененных для MERS-CoV и HCoV-OC43 соответственно, в то время как стандартные отклонения установлены в десять раз больше, чем эмпирические стандартные отклонения, чтобы обеспечить большую априорную неопределенность и избежать сильной систематической ошибки (дополнительный рисунок 2). В нашем анализе наборов данных по сарбековирусу мы учли неопределенность дат отбора проб, когда точные даты не были доступны. Для оценки несинонимичных и синонимичных соотношений скоростей конкатенированных кодирующих генов мы использовали эмпирическую байесовскую процедуру «подсчета ренессанса» ( мы использовали два различных нормальных априорных распределения: одно со средним значением 0,00078 и стандартным отклонением 0,0003 и одно со средним значением 0,00024 и стандартным отклонением 0,0001. Эти средние значения основаны на средних показателях, оцененных для MERS-CoV и HCoV-OC43 соответственно, в то время как стандартные отклонения установлены в десять раз больше, чем эмпирические стандартные отклонения, чтобы обеспечить большую априорную неопределенность и избежать сильной систематической ошибки (дополнительный рисунок 2). В нашем анализе наборов данных по сарбековирусу мы учли неопределенность дат отбора проб, когда точные даты не были доступны. Чтобы оценить несинонимичные и синонимичные соотношения скоростей конкатенированных кодирующих генов, мы использовали эмпирическую байесовскую процедуру «подсчета ренессанса» ( мы использовали два разных нормальных априорных распределения: одно со средним значением 0,00078 и стандартным отклонением 0,0003 и одно со средним значением 0,00024 и стандартным отклонением 0,0001. Эти средние значения основаны на средних показателях, оцененных для MERS-CoV и HCoV-OC43 соответственно, в то время как стандартные отклонения установлены в десять раз больше, чем эмпирические стандартные отклонения, чтобы обеспечить большую априорную неопределенность и избежать сильной систематической ошибки (дополнительный рисунок 2). В нашем анализе наборов данных по сарбековирусу мы учли неопределенность дат отбора проб, когда точные даты не были доступны. Для оценки несинонимичных и синонимичных соотношений скоростей конкатенированных кодирующих генов мы использовали эмпирическую байесовскую процедуру «подсчета ренессанса» ( 00024 и стандартное отклонение 0,0001. Эти средние значения основаны на средних показателях, оцененных для MERS-CoV и HCoV-OC43 соответственно, в то время как стандартные отклонения установлены в десять раз больше, чем эмпирические стандартные отклонения, чтобы обеспечить большую априорную неопределенность и избежать сильной систематической ошибки (дополнительный рисунок 2). В нашем анализе наборов данных по сарбековирусу мы учли неопределенность дат отбора проб, когда точные даты не были доступны. Для оценки несинонимичных и синонимичных соотношений скоростей конкатенированных кодирующих генов мы использовали эмпирическую байесовскую процедуру «подсчета ренессанса» ( 00024 и стандартное отклонение 0,0001. Эти средние значения основаны на средних показателях, оцененных для MERS-CoV и HCoV-OC43 соответственно, в то время как стандартные отклонения установлены в десять раз больше, чем эмпирические стандартные отклонения, чтобы обеспечить большую априорную неопределенность и избежать сильной систематической ошибки (дополнительный рисунок 2). В нашем анализе наборов данных по сарбековирусу мы учли неопределенность дат отбора проб, когда точные даты не были доступны. Для оценки несинонимичных и синонимичных соотношений скоростей конкатенированных кодирующих генов мы использовали эмпирическую байесовскую процедуру «подсчета ренессанса» ( в то время как стандартные отклонения установлены в десять раз больше, чем эмпирические стандартные отклонения, чтобы обеспечить большую априорную неопределенность и избежать сильной систематической ошибки (дополнительный рисунок 2). В нашем анализе наборов данных по сарбековирусу мы учли неопределенность дат отбора проб, когда точные даты не были доступны. Для оценки несинонимичных и синонимичных соотношений скоростей конкатенированных кодирующих генов мы использовали эмпирическую байесовскую процедуру «подсчета ренессанса» ( в то время как стандартные отклонения установлены в десять раз больше, чем эмпирические стандартные отклонения, чтобы обеспечить большую априорную неопределенность и избежать сильной систематической ошибки (дополнительный рисунок 2). В нашем анализе наборов данных по сарбековирусу мы учли неопределенность дат отбора проб, когда точные даты не были доступны. Чтобы оценить несинонимичные и синонимичные соотношения скоростей конкатенированных кодирующих генов, мы использовали эмпирическую байесовскую процедуру «подсчета ренессанса» (Lemey et al., 2012).  Временной сигнал был протестирован с использованием недавно разработанной процедуры оценки предельного правдоподобия ( Duchene et al., 2019) (Таблица S1).

Апостериорные распределения были аппроксимированы с помощью выборки методом Монте-Карло цепи Маркова, которая выполнялась достаточно долго, чтобы обеспечить эффективный размер выборки> 100. В выводах BEAST использовалась библиотека BEAGLEv3 ( Yres et al., 2019) для эффективных вычислений правдоподобия. Мы использовали TreeAnnotator для суммирования распределений апостериорного дерева и аннотировали оцененное до максимального дерева достоверности, которое было визуализировано с помощью FigTree.

Вклад авторов

Все авторы внесли свой вклад в анализ и интерпретацию. DLR и XJ выполнили рекомбинацию и филогенетический анализ и аннотировали названия вирусов географическими датами и датами отбора проб. AR выполнила анализ S-рекомбинации. PB и TC провели анализ использования кодонов. MFB выполнил анализ рекомбинации для нерекомбинирующих областей 1 и 2, анализ точки останова и филогенетический вывод для рекомбинантных сегментов. PL выполнил анализ рекомбинации для нерекомбинирующего выравнивания 3, калибровку скорости эволюции, а также филогенетическую реконструкцию и датирование. TT-YL собрал данные по SARS-CoV. PL, MFB и DLR написали первый черновик рукописи, и все авторы внесли свой вклад в редактирование рукописи.

Благодарности

Мы хотели бы поблагодарить всех авторов, которые любезно разместили и поделились данными генома в GISAID. Спасибо Тревору Бедфорду за предоставление MFB выравнивания, на котором был проведен первоначальный анализ рекомбинации. Исследования, приведшие к этим результатам, получили финансирование от Европейского исследовательского совета в рамках программы исследований и инноваций Европейского Союза Horizon 2020 (соглашение о гранте №     725422-ReservoirDOCS). DLR финансируется MRC (MC UU 1201412). Сеть Artic Network получает финансирование от Wellcome Trust в рамках проекта 206298 / Z / 17 / Z. PL выражает признательность за поддержку Исследовательскому фонду Фландрии (Fonds voor Wetenschappelijk Onderzoek — Vlaanderen, G066215N, G0D5117N и G0B9317N). TL финансируется Фондом выдающихся молодых ученых Национального фонда естественных наук Китая (NSFC) (Гонконг и Макао) (31922087).

Сноски

  • * соавторы

Рекомендации

источник

рекомендациикодгенетический 

31.12.2020, 573 просмотра.


Нравится

SKOLKOVO
17.02.2021 23:13:51

Существуют анализы на 2 разных типа антител к коронавирусу, но в поликлиниках делают только один

Врач из Инвитро разьяснил, что после вакцинации надо делать тест на S-белок, а не на N-белок вирусного капсида, который, как правило, делают в поликлиниках бесплатно.

антитела, Коронавирус, анализы

17.02.2021 00:06:25

Пыль разносит штаммы по всему миру?

Если  пыль из Африки попадает в Европу и Америку, то пыль из Китая могла вызвать пандемию? В эпоху вируса COVID-19 инфекциионный перенос c пылью приобретает новое значение.

пандемия, Африка, Китай

14.02.2021 23:08:48

Роботы против ковид-19

Международный онлайн-форум «Роботы против COVID-19» прошел в декабре на Робостанции ВДНХ.

форум, ковид-19, Москва

10.02.2021 23:17:59

Экспресс-тесты на коронавирус: споры специалистов и руководство для недоумевающих

Ученые все еще спорят о том, помогут ли миллионы дешевых быстрых диагностических наборов контролировать пандемию. Вот почему.

Специалисты, тест, Коронавирус

09.02.2021 22:48:29

Ковид-диагноз за 2 минуты

В России изобрели быстрый метод тестирования на коронавирус

тест, COVID-19, анализ

08.02.2021 22:41:18

Не дайте себя обмануть спадом заражений! / Новый штамм меняет правила игры

График заболевпемости объединяет две эпидемии: одну, быстро сокращающуюся, вызванную более старыми вариантами SARS-CoV-2, и меньшую, медленно растущую вспышку B.1.1.7

заражение, вирус, COVID-19

07.02.2021 21:34:33

В Екатеринбурге для лечения COVID применили ноу-хау подводников

В екатеринбургском госпитале ветеранов Екатеринбурга для реабилитации пациентов после COVID начали применять барокамеры. Об этом URA.RU рассказали специалисты клиники. Популярное у дайверов оборудование помогает пациентам, перенесшим коронавирус, привести в порядок легкие, а также насытить кислородом другие системы организма.

Екатеринбург, лечение, COVID

RSS
Архив "#ПроЗдоровье"
Подписка на RSS
Реклама: