banner
Heim / Nachricht / ViralCC ruft vollständige virale Genome und Viren ab
Nachricht

ViralCC ruft vollständige virale Genome und Viren ab

Jun 04, 2024Jun 04, 2024

Nature Communications Band 14, Artikelnummer: 502 (2023) Diesen Artikel zitieren

3725 Zugriffe

20 Altmetrisch

Details zu den Metriken

Die Einführung der Hochdurchsatz-Chromosomenkonformationserfassung (Hi-C) in die Metagenomik ermöglicht die Rekonstruktion hochwertiger metagenomassemblierter Genome (MAGs) aus mikrobiellen Gemeinschaften. Trotz der jüngsten Fortschritte bei der Wiederherstellung eukaryontischer, bakterieller und archaischer Genome mithilfe von Hi-C-Kontaktkarten sind nur wenige Hi-C-basierte Methoden für die Wiederherstellung viraler Genome konzipiert. Hier stellen wir ViralCC vor, ein öffentlich verfügbares Tool zur Wiederherstellung vollständiger Virusgenome und zur Erkennung von Virus-Wirt-Paaren mithilfe von Hi-C-Daten. Im Vergleich zu anderen Hi-C-basierten Methoden nutzt ViralCC die Virus-Wirt-Proximity-Struktur als ergänzende Informationsquelle für die Hi-C-Interaktionen. Anhand simulierter und realer metagenomischer Hi-C-Datensätze aus verschiedenen mikrobiellen Ökosystemen, darunter dem menschlichen Darm, Kuhkot und Abwasser, zeigen wir, dass ViralCC bestehende Hi-C-basierte Binning-Methoden sowie hochmoderne Tools übertrifft speziell dem metagenomischen Virus-Binning gewidmet. ViralCC kann auch die taxonomische Struktur von Viren und Virus-Wirt-Paaren in mikrobiellen Gemeinschaften aufdecken. Bei Anwendung auf einen echten metagenomischen Hi-C-Datensatz aus Abwasser baut ViralCC ein Phagen-Wirt-Netzwerk auf, das mithilfe von CRISPR-Spacer-Analysen weiter validiert wird. ViralCC ist eine Open-Source-Pipeline, die unter https://github.com/dyxstat/ViralCC verfügbar ist.

Viren stellen mit einer geschätzten globalen Häufigkeit von 1031 1 den vielfältigsten und allgegenwärtigsten biologischen Organismus auf der Erde dar. Viren haben enorme Auswirkungen auf Ökosysteme als Raubtiere und/oder Parasiten innerhalb mikrobieller Gemeinschaften durch den lysogenen oder lytischen Zyklus, der Bakterien und Archaeen infiziert2,3. Beispielsweise tragen Viren erheblich zum biogeochemischen Kreislauf von Kohlenstoff und Stickstoff in aquatischen Lebensräumen bei4,5 und sind an bestimmten Krankheiten wie entzündlichen Darmerkrankungen und schwerer akuter Unterernährung im menschlichen System beteiligt6,7. Daher ist das Interesse an Viromics in den letzten zwei Jahrzehnten dramatisch gestiegen.

Da die Anzahl der Viren, die traditionell im Labor kultiviert werden können, zu begrenzt ist, um die Virusvielfalt zu beurteilen8, wurde die Metagenomik als kulturunabhängige Probenahmestrategie in großem Umfang genutzt, um virale Genome zu gewinnen und die Wirte dieser neu entdeckten Viren zu identifizieren. einer der schwierigsten Aspekte bei der Untersuchung von Viren in mikrobiellen Gemeinschaften9,10,11. Bei der metagenomischen Shotgun-Sequenzierung des gesamten Genoms (WGS) werden Genomfragmente direkt aus verschiedenen Umweltproben extrahiert und so eine große Anzahl kurzer Lesevorgänge generiert, die anschließend zu Contigs zusammengesetzt werden12,13,14. Metagenomische virale Contigs werden dann aus großen Assemblies basierend auf der Sequenzzusammensetzung, der Sequenzähnlichkeit und/oder dem Nachweis viraler Proteine ​​identifiziert15,16,17. Allerdings stellt die Zusammenstellung viraler Genomen aus Shotgun-Reads eine Herausforderung dar18 und kurze virale Contigs repräsentieren möglicherweise nur Segmente ganzer viraler Genome19. Unvollständige Virusfragmente wirken sich erheblich nachteilig auf die nachgelagerten Analysen aus, einschließlich der Charakterisierung der zugrunde liegenden Virusvielfalt und -häufigkeit sowie der Vorhersage der Wirts- und Funktionsfähigkeit20,21. Daher ist das metagenomische Virus-Binning, definiert als ein Prozess zur Gruppierung viraler Contigs derselben Art in virale metagenom-assemblierte Genome (vMAGs), wertvoll, insbesondere für Riesenviren22.

Die meisten traditionellen Schrotflinten-basierten Binning-Tools werden entwickelt, um eukaryotische, bakterielle und archaische Genome wiederherzustellen23,24,25,26 und ignorieren die mit Viren verbundenen Herausforderungen, wie das Fehlen universeller Einzelkopie-Gene und die relativ geringe Größe viraler Genome . Darüber hinaus sind diese Binning-Tools, die die Analyse mikrobieller Markergene nutzen, nicht auf Viren anwendbar24,27,28. CoCoNet29 und vRhyme30 sind zwei bestehende Methoden, die sich speziell dem metagenomischen Virus-Binning widmen. CoCoNet trainiert ein neuronales Netzwerk, indem es sowohl Merkmale der Zusammensetzung als auch des gleichzeitigen Auftretens viraler Contigs in verschiedenen Proben verwendet, um die Wahrscheinlichkeit vorherzusagen, dass zwei virale Contigs aus demselben Genom stammen. vRhyme nutzt Einzel- oder Multisample-Abdeckungseffektgrößenvergleiche, um Abdeckungsunterschiede zwischen viralen Contigs zu berechnen. Um die Informationen zur Sequenzzusammensetzung zu verarbeiten, trainiert vRhyme zunächst überwachte, auf maschinellem Lernen basierende Klassifizierungsmodelle mithilfe von Genomfragmenten vor. Anschließend wird der Nukleotidmerkmalsähnlichkeitsvektor zwischen zwei viralen Contigs in die Klassifizierungsmodelle eingegeben, um den Wahrscheinlichkeitswert vorherzusagen, dass virale Contigs aus demselben Genom stammen. Schließlich erstellt vRhyme ein gewichtetes Netzwerk, in dem jeder Knoten ein viraler Contig ist und ein Kantengewicht berechnet wird, indem die Abdeckungsdifferenz durch den Wahrscheinlichkeitswert dividiert wird. Netzwerke werden weiter zu vMAGs verfeinert. Allerdings können sowohl CoCoNet als auch vRhyme kritisch beeinträchtigt werden, wenn nicht genügend Proben vorhanden sind, um zuverlässige Co-Häufigkeitsprofile viraler Contigs zu erstellen, d. h. Profile, die zeigen, welche Contigs in mehreren Proben konsistente Häufigkeitswerte aufweisen und daher wahrscheinlich aus demselben Genom stammen .

In den letzten Jahren wurde die metagenomische Hochdurchsatz-Chromosomenkonformationserfassung (Metagenomic Hi-C) entwickelt, um gleichzeitig metagenomisch zusammengesetzte Genome (MAGs) wiederherzustellen und Virus-Wirt-Paare aus einer einzigen mikrobiellen Gemeinschaftsprobe zu bestimmen31,32,33,34,35, 36,37. In Kombination mit der konventionellen Shotgun-Sequenzierung wendet metagenomisches Hi-C eine genomische Proximity-Ligationstechnik an, um chimäre Verbindungen zwischen metagenomischen Sequenzen in unmittelbarer Nähe innerhalb derselben Zelle zu konstruieren. Nach der Sequenzierung werden Millionen von Hi-C-Read-Paaren generiert und anschließend an Contigs ausgerichtet, die aus den Shotgun-Reads zusammengestellt werden. Contigs, die zum selben Genom gehören, weisen im Vergleich zu denen aus verschiedenen Genomen erhöhte Hi-C-Kontakthäufigkeiten auf31, was zu Dutzenden nahezu vollständiger Bakteriengenome führt, die mit öffentlich verfügbaren Hi-C-basierten Binning-Tools wie MetaTOR, bin3C und HiCBin38,39 abgerufen werden ,40. Obwohl die Gewinnung qualitativ hochwertiger viraler Genome von entscheidender Bedeutung und Voraussetzung für nachgelagerte Analysen ist, werden abgesehen von einem proprietären und kommerziellen Genomrekonstruktionsdienst namens ProxiPhage41 keine Hi-C-basierten Binning-Methoden mit Open-Source-Pipelines für die Gewinnung viraler Genome entwickelt. Beispielsweise erfordert HiCBin die taxonomische Annotation einiger Contigs durch TAXAassign (https://github.com/umerijaz/TAXAassign), um die Kontakte innerhalb der Spezies im Normalisierungsschritt42 zu generieren, während TAXAassign virale Contigs kaum annotieren kann, was dazu führt, dass dies nicht möglich ist HiCBin zur Sortierung viraler Contigs.

Zusätzlich zu den Schwierigkeiten bei der Wiederherstellung von vMAGs gibt es in metagenomischen Hi-C-Experimenten nach wie vor nur wenige Tools zum Benchmarking der Leistung der viralen Genomwiederherstellung. CheckV wird häufig verwendet, um die Vollständigkeit von vMAGs abzuschätzen, indem sie mit einer großen Datenbank verglichen werden, die aus NCBI GenBank und Umweltproben zusammengestellt wurde43. Im Gegensatz zu CheckM, das universelle Einzelkopie-Markergene nutzt, um sowohl die Vollständigkeit als auch die Kontamination prokaryotischer MAGs44 zu beurteilen, ist CheckV jedoch nicht in der Lage, die Kontamination von vMAGs abzuschätzen, da für Viren kein solcher Markergensatz verfügbar ist21. CheckV ist außerdem nur begrenzt in der Lage, den Abschluss von vMAGs zu beurteilen, da die zufällige Gruppierung zweier viraler Contigs im Allgemeinen den Abschluss erhöht. Darüber hinaus wurden, obwohl Methoden, die auf der Simulation bekannter viraler Contigs aus NCBI-RefSeq-Virusgenomen basieren,45 bereits zur Abschätzung der Binning-Ergebnisse von Shotgun-basierten Methoden29,30 eingesetzt wurden, diese nicht verallgemeinert, um Hi-C-basierte Binning-Ansätze zu bewerten, da es nur wenige Studien dazu gibt durchgeführt zur Modellierung von Hi-C-Wechselwirkungen für virale Contigs. Daher ist es unbedingt erforderlich, eine systematische und umfassende Benchmarking-Strategie für das Hi-C-basierte metagenomische Virus-Binning zu entwickeln.

Um das Problem des Mangels an Virus-Binning-Methoden in metagenomischen Hi-C-Experimenten anzugehen, haben wir ViralCC entwickelt, eine Hi-C-basierte Binning-Methode, die sich der Wiederherstellung vollständiger Virusgenome und der Bestimmung von Virus-Wirt-Paaren widmet. Die allgemeine Pipeline von ViralCC ist in Abb. 1 dargestellt. ViralCC berücksichtigt nicht nur das Hi-C-Interaktionsdiagramm, sondern schlägt auch ein Host-Proximity-Diagramm viraler Contigs als ergänzende Informationsquelle zur Hi-C-Interaktionskarte vor. Anschließend werden zwei Graphen zusammengefügt, gefolgt von einem Leiden-Graph-Clustering46, um Entwürfe viraler Genome zu erstellen. Wir haben ViralCC mit VAMB26, CoCoNet29, vRhyme30, MetaTOR38 und bin3C39 verglichen. Unsere Experimente zeigten, dass ViralCC die CheckV-Vollständigkeit viraler Genom-Bins in echten metagenomischen Hi-C-Datensätzen erheblich verbesserte. Darüber hinaus schlagen wir eine systematische Strategie vor, um die Leistung des Virusgenom-Retrievals in metagenomischen Hi-C-Experimenten zu bewerten, indem wir simulierte metagenomische Hi-C-Datensätze aus realen Proben generieren. Die Grundwahrheit aller Schein-Virus-Contigs ist in Schein-Datensätzen bekannt, während Hi-C-Wechselwirkungen zwischen Schein-Virus-Contigs ohne Simulation direkt aus realen Proben ermittelt werden können. Mithilfe von simulierten metagenomischen Hi-C-Datensätzen aus drei realen Proben konnten wir außerdem zeigen, dass ViralCC andere Binning-Methoden übertraf und virale Genome mit höherer Vollständigkeit und geringerer Kontamination wiederherstellte. Schließlich haben wir gezeigt, dass die Virus-Wirt-Paare anhand der wiederhergestellten Virusgenome bestimmt werden können.

Der allgemeine Arbeitsablauf von ViralCC zum Abrufen hochwertiger Virusgenome und zur Bestimmung von Virus-Wirt-Paaren. Shotgun-Reads werden zunächst in Contigs zusammengestellt, an denen Hi-C-Paired-End-Reads ausgerichtet werden. Anschließend werden virale Contigs identifiziert. ViralCC nutzt Hi-C-Verknüpfungen und die Virus-Wirt-Proximity-Struktur zur Verknüpfung viraler Contigs und erstellt das Hi-C-Interaktionsdiagramm und das Wirt-Proximity-Diagramm. Nach der Integration zweier Diagramme nutzt ViralCC Leiden-Clustering, um Entwürfe viraler Genome zu rekonstruieren, und erkennt zusätzlich die Virus-Wirt-Paare basierend auf wiederhergestellten viralen Genomen und Hi-C-Verknüpfungen.

Alle von VirSorter erkannten viralen Contigs wurden von CheckV bewertet, um einzelne Contigs mit hoher Vollständigkeit als mutmaßliche Referenzgenome auszuwählen. Als Ergebnis wurden aus dem menschlichen Datensatz 51 mutmaßliche Referenzgenome mit einer Länge von 11.410 bp bis 194.784 bp generiert; Aus dem Kotdatensatz der Kuh wurden 11 mutmaßliche Referenzgenome von 11.452 bp bis 42.000 bp erhalten; und 17 mutmaßliche Referenzgenome im Bereich von 11.455 bp bis 127.910 bp wurden aus dem Abwasserdatensatz abgeleitet (Ergänzungstabelle 1).

Anschließend konstruierten wir Schein-Virus-Contigs durch Aufteilen der mutmaßlichen Virusgenome und erhielten 1010, 94 bzw. 279 fragmentierte Schein-Virus-Contigs aus den drei Datensätzen (Ergänzungstabelle 1). Für jeden echten metagenomischen Hi-C-Datensatz wurden Schein-Virus-Contigs mit allen nicht-viralen Contigs gemischt (d. h. Contigs, die von VirSorter nicht als virale Contigs identifiziert wurden), gefolgt von der Ausrichtung der Hi-C-Paired-End-Reads, um die zu konstruieren simulierter metagenomischer Hi-C-Datensatz. Die Analysen des Binnings von Schein-Virus-Contigs im Schein-Mensch-Darm-Datensatz wurden im Haupttext vorgestellt. In der Ergänzenden Anmerkung 1 haben wir auch Benchmarking-Ergebnisse für die Datensätze zu Scheinabwässern und Scheinkuhfäkalien bereitgestellt.

Wir haben zuerst den Hi-C-Wechselwirkungsgraphen \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{hic}}}}} }}}}\) und der Host-Proximity-Graph \({{{{{{{{\mathcal{G}}}}}}}}_{{{{{{{{\rm{host}}} }}}}}}\) für 1010 Schein-Virus-Contigs aus dem Schein-Mensch-Darm-Datensatz. Es gibt 2699 Kanten in \({{{{{{{\mathcal{G}}}}}}}}_{{{{{{{{\rm{hic}}}}}}}}} \). Der Parameter k für \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{host}}}}}}}}}\ ) wurde auf 30 eingestellt, was bedeutet, dass zwei beliebige virale Contig-Knoten mit einer Kante in \({{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{ {\rm{host}}}}}}}}}\) wurden durch die Hi-C-Interaktion mit mindestens denselben 30 Host-Contigs verknüpft. Dies führte zu 2698 Kanten in \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{host}}}}}}}} }\). Unter diesen 2698 Kanten in \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{host}}}}}}}}} \), 14,5 % der Kanten waren falsche Kanten, die als Kanten definiert wurden, die zwei Contigs aus unterschiedlichen mutmaßlichen Referenzgenomen in \({{{{{{{{\mathcal{G}}}}}}}} }_{{{{{{{\rm{host}}}}}}}}}\). Wir haben dann \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{host}}}}}}}}}\) integriert und \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{hic}}}}}}}}}\) in \ ({{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{int}}}}}}}}}\), das 4397 enthielt Kanten. Wir konnten 1000 gemeinsame Kanten zwischen \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{host}}}}}}} }}\) und \({{{{{{{{\mathcal{G}}}}}}}}_{{{{{{{\rm{hic}}}}}}}}} \), was etwa 37 % der Gesamtzahl der Kanten in beiden Diagrammen ausmacht.

Wir haben das Leiden-Clustering auf \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{hic}}}}}}}} }\), \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{host}}}}}}}}}\ ) und \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{int}}}}}}}}}\) , und bewerteten die Binning-Ergebnisse anhand von vier Clustering-Metriken: F-Score, ARI, NMI und Homogenität (Ergänzungstabelle 2). \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{int}}}}}}}}}\) übertraf beide \ ({{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{hic}}}}}}}}}\) und \({ {{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{host}}}}}}}}}\) in Bezug auf alle vier Cluster Metriken. Wir haben auch die Vollständigkeit und Kontamination jedes vMAG bewertet (Ergänzungstabelle 3). Insbesondere wurden 8 nahezu vollständige, 3 im Wesentlichen vollständige und 5 mäßig vollständige vMAGs nur basierend auf \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{ {{{\rm{hic}}}}}}}}}\), während 12 nahezu vollständige und 2 im Wesentlichen vollständige vMAGs nur basierend auf \({{{{{{{{\mathcal{G}} }}}}}}}_{{{{{{{{\rm{host}}}}}}}}}\). Im Gegensatz dazu verwendet man den integrativen Graphen \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{int}}}}}}} }}\) für das Clustering konnte 26 nahezu vollständige, 2 im Wesentlichen vollständige und 4 mäßig vollständige vMAGs rekonstruieren. Die Verbesserung der Binning-Leistung durch die Integration zweier Diagramme zeigte, dass das Hi-C-Interaktionsdiagramm und das Host-Proximity-Diagramm beim Binning viraler Contigs einander komplementär waren.

ViralCC wurde mit VAMB, CoCoNet, vRhyme, bin3C und MetaTOR anhand des simulierten menschlichen Darmdatensatzes verglichen (siehe Methoden). VAMB ist ein allgemeines Shotgun-basiertes Binning-Tool, während bin3C und MetaTOR allgemeine Hi-C-basierte Binning-Pipelines sind. CoCoNet und vRhyme sind zwei Schrotflinten-basierte Binning-Methoden, die speziell für die Clusterung sequenzierter Viruspartikel entwickelt wurden.

Wie in Abb. 2a gezeigt, erreichten VAMB, CoCoNet, vRhyme, bin3C und MetaTOR einen F-Score von 0,198, 0,485, 0,366, 0,404 bzw. 0,750, der durch ViralCC auf 0,795 verbessert wurde. Die ARI-Scores für virale Bins, die von VAMB, CoCoNet, vRhyme, bin3C und MetaTOR erstellt wurden, betrugen 0,111, 0,471, 0,302, 0,274 und 0,744. Im Gegensatz dazu erhöhte ViralCC den ARI-Score auf 0,787. Für das NMI erreichten VAMB, CoCoNet, vRhyme, bin3C und MetaTOR 0,724, 0,742, 0,782, 0,817 und 0,928, während ViralCC einen Wert von 0,929 erreichte. ViralCC verbesserte auch den Homogenitätswert von 0,570, 0,723, 0,687, 0,691 und 0,911 auf 0,921, erreicht durch VAMB, CoCoNet, vRhyme, bin3C und MetaTOR.

Vergleich der Leistung der Virusgenom-Retrieval-Leistung gemäß (a) Clustering-Metriken und (b) Vollständigkeits- und Kontaminationskriterien (Mäßig vollständig: 50 % ≤ Vollständigkeit <70 %, Kontamination ≤ 10 %; Im Wesentlichen vollständig: 70 % ≤ Vollständigkeit <90 %, Kontamination ≤ 10 %; Nahezu vollständig: Vollständigkeit ≥ 90 %, Kontamination ≤ 10 %. ViralCC übertrifft andere Binning-Methoden für den simulierten menschlichen Darmdatensatz. Quelldaten werden als Quelldatendatei bereitgestellt.

VAMB, CoCoNet, vRhyme, bin3C und MetaTOR konnten jeweils 1, 5, 0, 5 und 22 nahezu vollständige vMAGs wiederherstellen, während ViralCC diese Zahl auf 26 erhöhte (Abb. 2b). Insgesamt konnte ViralCC 32 hochwertige vMAGs aus 51 Referenzgenomen abrufen, während VAMB, CoCoNet, vRhyme, bin3C und MetaTOR jeweils 7, 11, 7, 6 und 30 hochwertige vMAGs rekonstruieren konnten. Darüber hinaus stellten wir fest, dass ViralCC bei der Gewinnung nahezu vollständiger vMAGs aus großen mutmaßlichen Virusgenomen eine bessere Leistung als andere Binner aufwies (Ergänzende Anmerkung 2). Insgesamt übertraf ViralCC andere Binning-Methoden, da es virale Genome mit höherer Vollständigkeit und geringerer Kontamination basierend auf dem simulierten metagenomischen Hi-C-Datensatz wiederherstellte. Bemerkenswerterweise waren MetaTOR und ViralCC gemäß NMI und Homogenitätswerten vergleichbar, was darauf hindeutet, dass beide Ansätze hochreine virale Contig-Bins wiederherstellen konnten. Andererseits erzielte ViralCC eine bessere Leistung als MetaTOR in Bezug auf F-Score und ARI (Abb. 2a) und holte gleichzeitig vollständigere Bins (Abb. 2b) aus dem simulierten metagenomischen Hi-C-Datensatz. Dies zeigt die Wirksamkeit der Kombination von Host-Proximity-Informationen mit Hi-C-Interaktionsinformationen.

VirSorter erkannte jeweils 791, 1338 und 2757 Virusinfektionen aus menschlichen Darm-, Kuhkot- und Abwasserproben. Virale Contigs wurden mit unterschiedlichen Methoden für die drei Datensätze gruppiert. Die CheckV-Vollständigkeit der Virus-Bins wurde geschätzt, um die Binning-Qualität zu bewerten. Wir bezeichneten Virus-Bins mit einer CheckV-Vollständigkeit über 90 % als Entwürfe viraler Genome mit hoher Vervollständigung und bezeichneten Behälter mit einer CheckV-Vollständigkeit über 50 % als Entwürfe viraler Genome mit mittlerer Vervollständigung.

Für den menschlichen Darmdatensatz identifizierte ViralCC 465 virale Bins mit Größen zwischen 3001 bp und 307.395 bp und lieferte mehr Virusgenome mit hohem und mittlerem Abschluss als alle anderen getesteten Methoden (Abb. 3a). Für den Kuhkot-Datensatz konstruierte ViralCC 574 Virusbehälter mit Größen zwischen 3002 bp und 157.462 bp. Es wurden wesentlich mehr virale Genome mit mittlerer und hoher Vollständigkeit generiert als mit anderen Methoden, wobei die Anzahl der Draft-Genome mit hoher Vollständigkeit von VAMB, CoCoNet, vRhyme, bin3C und MetaTOR um 161 %, 140 %, 66,7 %, 93,5 % übertroffen wurde. bzw. 62,1 % (Abb. 3b). Aus dem Abwasserdatensatz ermittelte ViralCC 1240 Virus-Bins mit Größen zwischen 3006 bp und 461.626 bp und konnte im Vergleich zu VAMB, CoCoNet und vRhyme 32,8 %, 103 %, 141 %, 175 % und 75 % mehr High-Completion-Draft-Genome rekonstruieren , bin3C bzw. MetaTOR (Abb. 3c). ViralCC hat auch deutlich mehr Entwurfsvirengenome mit mittlerer Vollständigkeit wiederhergestellt.

Vergleich von Entwurfsviren-Bins, die von verschiedenen Binning-Tools gemäß dem CheckV-Vollständigkeitsstandard für (a) menschliche Darm-, (b) Kuhfäkalien- und (c) Abwasser-Datensätze abgerufen wurden. ViralCC kann im Vergleich zu VAMB, CoCoNet, vRhyme, bin3C und MetaTOR vollständigere Virusgenome aus allen drei echten metagenomischen Hi-C-Proben abrufen. Quelldaten werden als Quelldatendatei bereitgestellt.

Insgesamt zeigten die Analysen von drei echten metagenomischen Hi-C-Datensätzen, dass ViralCC im Vergleich zu VAMB, CoCoNet, vRhyme, bin3C und MetaTOR vollständigere Virusgenome abgerufen hat, was mit unseren Beobachtungen aus den simulierten metagenomischen Hi-C-Datensätzen übereinstimmt. Als Kontrollexperimente haben wir auch ein Zufalls-Binning-Modell basierend auf dem Konfigurations-Zufallsgraphen47 erstellt (Ergänzende Anmerkung 3). Das Modell hat zufällig Kanten zugewiesen, die mit der Gradfolge der viralen Contigs im integrativen Diagramm übereinstimmen. ViralCC übertraf die Zufallskontrolle gemäß den CheckV-Vollständigkeitskriterien. Darüber hinaus haben wir vMAGs nach der Anzahl der viralen Contigs in absteigender Reihenfolge sortiert. Wenn mehrere vMAGs die gleiche Anzahl viraler Contigs enthielten, wurden sie weiter nach der Bin-Größe in absteigender Reihenfolge sortiert. Die Contigs in jedem vMAG wurden außerdem nach der Contig-Länge in absteigender Reihenfolge sortiert. Anschließend haben wir die rohen Hi-C-Kontaktkarten (siehe Methoden) der zehn besten vMAGs für die drei Datensätze entweder mit dem Contig-Index (Abb. 4) oder der Contig-Größe (ergänzende Abb. 1) als Achseneinheit aufgezeichnet. was die gültige Rekonstruktion der viralen Genome bestätigte. Die spezifische Anzahl viraler Contigs und die Behältergröße dieser vMAGs sind in den Ergänzungstabellen 4 bis 6 aufgeführt.

Heatmaps der rohen Hi-C-Kontaktmatrizen der zehn wichtigsten vMAGs aus (a) menschlichen Darm-, (b) Kuhfäkalien- und (c) Abwasserdatensätzen mit dem Contig-Index als Achseneinheit. Die vMAGs wurden zunächst nach ihrer Anzahl an Contigs geordnet und dann wurden die Contigs innerhalb jedes vMAGs nach ihrer Größe geordnet. Der Maßstabsbalken zeigt die Anzahl der reinen Hi-C-Kontakte zwischen viralen Contigs.

Abschließend untersuchten wir die Beziehungen zwischen der Qualität von Hi-C-Datensätzen und der vMAG-Abrufleistung. Das 3D-Verhältnis und der qc3C-CI wurden verwendet, um die Qualität von Hi-C-Datensätzen zu messen (siehe Methoden). Insbesondere betrugen die 3D-Verhältnisse 23,3 %, 38,3 % und 54,9 % für die Datensätze aus menschlichem Darm, Kuhkot und Abwasser (Ergänzungstabelle 7). Die Mittelpunkte des qc3C-KI für die drei Datensätze betrugen 5,938 %, 52,07 % bzw. 30,66 % (Ergänzungstabelle 7). Obwohl das höhere 3D-Verhältnis nicht unbedingt informativere Verknüpfungen zwischen Contigs36 bedeutet, haben wir dennoch festgestellt, dass die Verbesserung der Binning-Leistung durch ViralCC im Vergleich zu den herkömmlichen Schrotflinten-basierten Binning-Methoden bei metagenomischen Datensätzen mit hochwertigen Hi-C-Bibliotheken bemerkenswert war.

Wir haben insgesamt 191, 320 und 693 vMAGs auf Familienebene für die menschlichen Darm-, Kuhkot- und Abwasserdatensätze annotiert. Wir fanden heraus, dass 173 (90,6 %) von 191 vMAGs in der menschlichen Darmprobe, 265 (82,8 %) von 320 vMAGs in der Kuhkotprobe und 592 (85,4 %) von 693 vMAGs in der Abwasserprobe nur Viren enthielten Contigs aus derselben Familie, was die hohe Reinheit der vMAGs auf Familienebene demonstriert.

Wie in Abb. 5 gezeigt, wurden die vMAGs von Schwanzbakteriophagen der Ordnung Caudovirales dominiert, und in allen drei Proben wurden vMAGs der Familien Myoviridae, Siphoviridae und Podoviridae gefunden48. Bakteriophagen, hauptsächlich Siphoviridae, dominierten die beiden Darmproben49. Im Vergleich zu den anderen Proben, die stärker von Siphoviridae, Myoviridae und Siphoviridae dominiert wurden, waren vMAGs in der Abwasserprobe in ähnlicher Häufigkeit vorhanden, wie für Wasserumgebungen berichtet50,51,52,53.

Taxonomiestatistiken annotierter vMAGs für (a) menschliche Darm-, (b) Kuhkot- und (c) Abwasserdatensätze. Die Zahlen in der Grafik geben die Anzahl der vMAGs an, die zu verschiedenen Familien gehören. Quelldaten werden als Quelldatendatei bereitgestellt.

Wir haben Virus-Wirt-Paare basierend auf den von ViralCC gewonnenen vMAGs entdeckt und die Ergebnisse aus dem Abwasserdatensatz im Haupttext unten gezeigt. Die Ergebnisse des Virus-Wirt-Nachweises aus menschlichen Darm- und Kuhkot-Datensätzen sind in den Ergänzenden Anmerkungen 4 und 5 aufgeführt.

Für nicht-virale Contigs, von denen erwartet wird, dass sie größtenteils bakteriell sind, generierte HiCBin 1253 MAGs, die von CheckM (v1.1.3, Parameter: lineage wf)44 bewertet wurden. Die Ergebnisse der Qualitätsbewertung sind in der Ergänzungstabelle 8 aufgeführt. Von den 1253 MAGs konnten 600 MAGs mit GTDB-TK54 eindeutig annotiert werden, und die Ergebnisse der Taxonomieklassifizierung wurden mit ITOL55 visualisiert (Abb. 6a). Burkholderiales, Pseudomonadales, Lachnospirales, Bacteroidales und Oscillospirales waren die vorherrschenden Ordnungen in der Abwasserprobe. Burkholderiales und Pseudomonadales waren in Wasserumgebungen häufig vorkommende Ordnungen56,57. Im Darmmikrobiom wurde über Lachnospirales, Bacteroidales und Oscillospirales berichtet58; Diese lassen sich in dieser häuslichen Abwasserprobe von rund 25.000 Menschen durchaus nachweisen57.

(a) Taxonomische Anmerkungen der von HiCBin aus der häuslichen Abwasserprobe gewonnenen MAGs. Burkholderiales, Pseudomonadales, Lachnospirales, Bacteroidales und Oscillospirales waren die vorherrschenden Ordnungen. (b) Das scheinbare Infektionsspektrum von vMAGs aus der Abwasserprobe. vMAGs der Familie Myoviridae zielten hauptsächlich auf Wirte der Ordnung Burkholderiales ab, und eine große Anzahl vMAGs der Familie Siphoviridae könnten Bacteroidales-Bakterien infizieren. Quelldaten werden als Quelldatendatei bereitgestellt.

Insgesamt 1065 (85 %) der 1253 MAGs waren mit mindestens einem viralen MAG assoziiert. Anschließend untersuchten wir das Infektionsspektrum annotierter vMAGs auf Wirten verschiedener Ordnungen (Abb. 6b). Wir beobachteten, dass vMAGs aus der Familie Myoviridae hauptsächlich auf Wirte aus der Ordnung Burkholderiales abzielten, was mit früheren Erkenntnissen übereinstimmt, dass einige Phagen aus der Familie Myoviridae Bakterien aus Burkholderia lysieren könnten59. Eine große Anzahl vMAGs aus der Familie der Siphoviridae könnten Bacteroidales-Bakterien infizieren60. Darüber hinaus haben wir unerwartet beobachtet, dass 4 vMAGs, die offenbar Mitglieder der Ordnung Burkholderiales infizierten, aus der Familie der Herpesviridae stammten, von der zuvor berichtet wurde, dass sie nur Tiere, einschließlich Menschen, infizieren61. Weitere Untersuchungen sind erforderlich, um festzustellen, ob diese auf eine echte Infektion hinweisen oder ob die Proximity-Ligation in einer Situation ohne Infektion (z. B. extrazellulär) erfolgte.

Wir haben die CRISPR-Abstandshalter in Wirts-MAGs mithilfe von PILER-CR (v1.06) vorhergesagt. Es wurden 62 und 925 CRISPR-Abstandshalter erkannt. Anschließend haben wir diese Spacer mithilfe von BLAST63 mit den Parametern „-task blown-short -evalue 1e-5“ auf vMAGs ausgerichtet. Die Alignments mit einem Bitscore unter 45 wurden weiter herausgefiltert36. Auf diese Weise wurden mithilfe der CRISPR-Spacer-Analyse 16 robuste Treffer zwischen Wirts-MAGs und Virus-MAGs gefunden.

Unter diesen 16 Treffern waren 13 Virus-Wirt-MAG-Paare (81,3 %) auch durch die Hi-C-Verknüpfungen assoziiert. Bemerkenswerterweise beobachteten wir laut CRISPR-Spacer-Analyse, dass vMAG 1198 (Familie: Siphoviridae) mit zwei Wirts-MAGs aus der Ordnung Fusobacteriales assoziiert war, während diese beiden Wirts-MAGs die einzigen zwei assoziierten Wirte von vMAG 1198 waren, die durch die Hi-C-Wechselwirkungen vorhergesagt wurden.

ViralCC wurde auf einem Rechenknoten eines 2,40-GHz-Intel-Xeon-Prozessors E5-2665 mit 50.000 MB RAM ausgeführt, der von der Advanced Research Computing-Plattform der University of Southern California bereitgestellt wurde. ViralCC benötigte jeweils 22,5 Minuten, 76,6 Minuten und 21,7 Minuten Laufzeit für menschliche Darm-, Kuhkot- und Abwasserproben.

ViralCC ist eine Open-Source-Hi-C-basierte Binning-Methode zur Retrieval viraler Genomen. Im Gegensatz zu anderen Hi-C-basierten Binning-Tools, die nur Hi-C-Kontaktkarten verwenden. ViralCC nutzt ein Host-Proximity-Graph, das auf der Virus-Host-Proximity-Struktur basiert, als zusätzliche Quelle für Verbindungen zwischen viralen Contigs. Wir zeigen, dass ViralCC andere Tools bei echten metagenomischen Hi-C-Datensätzen gemäß den CheckV-Vollständigkeitskriterien übertrifft. Insbesondere angesichts der Tatsache, dass das zufällige Binning viraler Contigs in vMAG die CheckV-Vollständigkeit im Vergleich zur Vollständigkeit jedes einzelnen Contigs nicht verringert, ist es notwendig, ein zufälliges Binning-Modell als Kontrollexperimente zu erstellen, wenn die CheckV-Vollständigkeit als Bewertungsmetrik verwendet wird. Darüber hinaus stellen wir fest, dass die Verbesserung der Binning-Leistung durch ViralCC bei metagenomischen Datensätzen mit hochwertigen Hi-C-Bibliotheken im Vergleich zu den Schrotflinten-basierten Binning-Methoden signifikant war, was auf die potenzielle Bedeutung hochwertiger Hi-C-Bibliotheken für die Retrieval viraler Genomen hinweist .

Da die Bewertung durch die CheckV-Software nicht umfassend ist, haben wir eine systematische Benchmarking-Strategie vorgeschlagen, um die Leistung des Binnings viraler Contigs anhand simulierter metagenomischer Hi-C-Datensätze zu bewerten. Wir gehen davon aus, dass diese Benchmarking-Strategie die Bewertung aller Hi-C-basierten Binning-Tools in viralen Genom-Retrieval-Studien erleichtern kann. Allerdings gibt es auch Einschränkungen und Vorurteile bei der Benchmarking-Strategie. Da wir nur virale Genome auswählen, die von einem einzelnen Contig aus der gesamten Community wiederhergestellt werden können, unterschätzt unsere Benchmarking-Methode zwangsläufig die wahre Vielfalt der Virus-Community. Auch die Wirksamkeit des Benchmarkings ist weniger überzeugend, wenn nur wenige mutmaßliche Virusgenome vorhanden sind. Obwohl wir den geringen Anteil an falschen Kontakten im Host-Proximity-Diagramm mithilfe der simulierten metagenomischen Hi-C-Datensätze gezeigt haben, können wir außerdem keine Ergebnisse aus den realen Datensätzen erhalten, da es schwierig ist, die wahren Bezeichnungen viraler Contigs von den realen zu unterscheiden Datensätze. Schließlich stellen wir fest, dass die Größe mutmaßlicher Virusgenome bei der Benchmarking-Methode tendenziell klein ist (Ergänzende Anmerkung 6). Obwohl alle Pipelines mit demselben Satz von Schein-Virus-Contigs, die von den ausgewählten mutmaßlichen Virusgenomen abgeleitet sind, gleich behandelt werden, sollten die Größen der mutmaßlichen Virusgenome beim Benchmarking berücksichtigt werden, da die vollständige Wiederherstellung eines größeren mutmaßlichen Virusgenoms einen Binner erfordert Gruppieren Sie mehr virale Contigs aus den Scheindatensätzen korrekt in einem einzigen Bin.

Abgesehen von der direkten Einteilung viraler Contigs, wie wir sie hier besprochen haben, kann das Training eines Klassifizierungsmodells zur Unterscheidung sicher gekennzeichneter viraler Bins und bakterieller Bins auch dazu beitragen, einen hochgradig angereicherten Kandidatensatz viraler Bins aus Metagenom-Massendaten bereitzustellen64. Die Wiederherstellung des viralen Genoms in Kombination mit der Hi-C-Proximity-Ligation wirft auch Licht auf die Infektionsmechanismen und enthüllt völlig aktive Virus-Wirt-Interaktionen.

Im Vergleich zu einem beliebten Ansatz, der CRISPR-Spacer-Analyse, die historische Verbindungen zwischen Viren und Wirten widerspiegeln kann65,66, sind metagenomische Hi-C-Experimente in der Lage, aktive Virus-Wirt-Paare zu einem einzigen Zeitpunkt zu erkennen. Chen et al.67 verwendeten metagenomische Hi-C-Experimente, um durch CRISPR vorhergesagte Virus-Wirt-assoziierte Paare in Belebtschlammproben (AS) zu validieren, indem sie getrennt Illumina-Sequenzierung und Nanopore-Sequenzierung verwendeten. Sie validierten 11 von 21 und 16 von 28 Virus-Wirt-assoziierten Paaren, die von CRISPR vorhergesagt wurden, basierend auf den Illumina- bzw. kombinierten Illumina/Nanopore-sequenzierten Proben, wobei Hi-C-Verknüpfungen genutzt wurden. In unserer Studie validierten wir 13 von 16, 3 von 4 und 2 von 2 Virus-Wirt-Paaren, die von CRISPR vorhergesagt wurden, basierend auf den Abwasser-, menschlichen Darm- und Kuhfäkalien-Datensätzen (siehe Ergebnisse, Ergänzende Anmerkungen 4 und). 5). Beide Studien zeigen deutlich, wie Analysen metagenomischer Hi-C-Daten ein leistungsstarkes Instrument zur Wiederherstellung von Virus-Wirt-Paaren sein können, die ansonsten schwer zu bestimmen sind (z. B. aus nicht kultivierten Organismen). Es ist zu beachten, dass einige von CRISPR vorhergesagte Virus-Wirt-Assoziationen auf historische Assoziationen hinweisen, die in einer bestimmten Probe möglicherweise nicht vorhanden sind, und solche Paare können von Hi-C67 nicht erkannt werden. Und es muss auch bedacht werden, dass einige Virus-Bakterien-Assoziationen, die sich aus der Proximity-Ligation ergeben, das Ergebnis der Nähe von bakterieller und viraler DNA aufgrund eines anderen Mechanismus als einer Infektion sein könnten; Daher sollten unerwartete Ergebnisse wie die von uns berichtete offensichtliche Herpesvirus-Infektion von Burkholderiales validiert werden, bevor voreilige Schlussfolgerungen gezogen werden.

In Zukunft wird es interessant sein zu untersuchen, ob bestehende Binning-Methoden eng verwandte Viren, die sich im selben Bakterienwirt befinden, auf der Grundlage der Virus-Wirt-Nähe auflösen können. Darüber hinaus haben neuere Studien herausgefunden, dass bestimmte Viren über Mechanismen verfügen, die es mehreren Virusgenomen ermöglichen, dieselbe Wirtszelle zu infizieren, was als Koinfektion bezeichnet wird68. Die Nutzung der Hi-C-Proximity-Ligation zur Entdeckung der Existenz einer Koinfektion mehrerer Phagen innerhalb derselben Zelle ist ein weiteres potenzielles Thema für zukünftige Forschung.

Drei echte metagenomische Hi-C-Datensätze, die alle zuvor veröffentlicht wurden, wurden verwendet, um die Leistung der Virusgenom-Retrieval zu validieren und Virus-Wirt-Paare zu entdecken. Experimente aus den zuvor veröffentlichten Arbeiten werden hier kurz wiederholt.

Dieser Datensatz wurde aus dem Mikrobiom eines menschlichen Darms abgeleitet und bestand aus einer WGS-Bibliothek (NCBI-Zugangsnummer: SRR6131123) und zwei separaten Hi-C-Bibliotheken, die aus zwei Restriktionsenzymen mit vier Schneiden, MluCI und Sau3AI, (NCBI-Zugangsnummer: SRR6131122 und SRR6131124) erstellt wurden )34. Der Illumina HiSeqX Ten wurde zur Sequenzierung der Shotgun- und Hi-C-Bibliotheken verwendet, wodurch 151 bp Paired-End-Reads erstellt wurden. Die beiden Hi-C-Bibliotheken bestanden aus 48,8 Millionen (MluCI-Bibliothek) bzw. 41,7 Millionen (Sau3AI-Bibliothek) Lesepaaren. Die Sequenzierung der rohen WGS-Bibliothek ergab 250,9 Millionen Lesepaare (Verhältnis Hi-C:Shotgun = 0,36).

Die Kuhkotprobe wurde im Beef and Sheep Research Centre des schottischen Rural College69 gesammelt und verarbeitet, wodurch eine Shotgun-Bibliothek (NCBI-Zugangsnummer: ERX2333418) und zwei Hi-C-Bibliotheken entstanden, die entweder mit den Restriktionsenzymen Sau3AI oder MluCI fragmentiert wurden (NCBI-Zugangsnummer: ERX2548555). und ERX2548556). Nach der Sequenzierung aller Bibliotheken durch die Illumina HiSeqX-Plattform bei 150 bp wurden 159,5 Millionen Paired-End-Reads in der Shotgun-Bibliothek erhalten, während die beiden Hi-C-Bibliotheken 86,2 Millionen (Sau3AI-Bibliothek) und 59,3 Millionen (MluCI-Bibliothek) Paired-End-Reads enthielten bzw. (Verhältnis Hi-C:Shotgun = 0,91).

In der Abwasserprobe (WW)57 wurde die Shotgun-Bibliothek (NCBI-Zugang: SRR8239393) mit dem DNeasy PowerWater-Kit hergestellt, während die Hi-C-Bibliothek (NCBI-Zugang: SRR8239392) mit einem proprietären Hi-C-Aufbereitungskit (Phase Genomics, Inc.). Die im Experiment verwendeten Schneidenzyme waren Sau3AI und MluCI. Alle Lesesätze wurden vom HiSeq 4000 mit einer Länge von 150 bp sequenziert. Es gab 269,3 Millionen bzw. 95,3 Millionen Paired-End-Reads für die WW-Shotgun-Metagenom- und Hi-C-Read-Sets (Verhältnis Hi-C:Shotgun = 0,35).

Wir haben bbduk aus der BBTools-Suite (v37.25)70 angewendet, um rohe WGS- und Hi-C-Lesebibliotheken gründlich zu bereinigen (Ergänzende Anmerkung 7). Verarbeitete Shotgun-Reads wurden mit MEGAHIT (v1.2.9)13 mit den Optionen „-min-contig-len 1000 -k-min 21 -k-max 141 -k-step 12 -merge-level 20, 0,95“ zu Contigs zusammengesetzt (Ergänzung). Tabelle 9). Anschließend wurden verarbeitete Hi-C-Paired-End-Lesevorgänge von BWA MEM (v0.7.17)71 mit dem Parameter „-5SP“ auf zusammengesetzte Contigs abgebildet. Nach dem Alignment haben wir nicht kartierte Lesevorgänge, sekundäre Alignments, ergänzende Alignments und Alignments mit geringer Qualität (Mapping-Score oder Nukleotid-Match-Länge <30) entfernt. Rohe Hi-C-Kontaktkarten zwischen zwei Contigs wurden erstellt, indem die Anzahl der Hi-C-Lesepaare gezählt wurde, die separat auf diese beiden Contigs ausgerichtet waren.

Lange Contigs (≥ 3 kbp), die aus Shotgun-Reads zusammengestellt wurden, wurden von VirSorter (v1.0.6)15 mit Standardparametern zur Identifizierung viraler Contigs gescreent. VirSorter erzielte in einer aktuellen Benchmarking-Studie72 die beste F1-Bewertung. Als Prophagen annotierte Contigs wurden aus den Virussequenzen entfernt (Ergänzungstabelle 10). Wir bezeichnen die Contigs, die von VirSorter nicht identifiziert werden, als potenzielle Host-Contigs.

Wir definieren den Hi-C-Interaktionsgraphen für virale Contigs als \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{hic}} }}}}}}}(V,{E}_{{{{{{{\rm{hic}}}}}}}}})\), wobei der Scheitelpunkt \({v}_{i }\in {{{{{{{\mathcal{V}}}}}}}}\) repräsentiert den i-ten identifizierten viralen Contig und eine Kante \({e}_{ij}\in {{{ {{{{{\mathcal{E}}}}}}}}}_{{{{{{{\rm{hic}}}}}}}}}\) existiert, wenn vi und vj durch verknüpft sind mindestens ein Hi-C-Link.

Neben dem Hi-C-Interaktionsdiagramm nutzen wir auch die Virus-Wirt-Proximity-Struktur, um virale Contigs zu verknüpfen. Insbesondere definieren wir zwei virale Contigs als durch k gemeinsam genutzte Host-Contigs verbunden, wenn diese beiden viralen Contigs durch die Hi-C-Wechselwirkung mit mindestens denselben k Host-Contigs verknüpft sind. Basierend auf dieser Metrik zur Messung der Verknüpfung zwischen viralen Contigs erstellen wir den Host-Proximity-Graph für virale Contigs, der mit \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{{\mathcal{G}}}}}}}}}_{{ {{{{{{\rm{host}}}}}}}}}(V,{E}_{{{{{{{\rm{host}}}}}}}}})\) , wobei der Scheitelpunkt \({v}_{i}\in {{{{{{{\mathcal{V}}}}}}}}\) immer noch den i-ten identifizierten viralen Contig darstellt, während eine Kante eij existiert in \({{{{{{{{\mathcal{E}}}}}}}}}_{{{{{{{\rm{host}}}}}}}}}\) wenn vi und vj sind durch k gemeinsam genutzte Host-Contigs verbunden. Formal bezeichne Hi die Menge der Host-Contigs für virale Contig vi. Dann sind vi und vj im Host-Proximity-Graphen \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{host}} }}}}}}}\) Wenn

wobei \(\left|\cdot \right|\) die Kardinalität einer Menge bezeichnet und der Parameter k hier automatisch so bestimmt wird

wobei \({k}_{\min }\) (Standard 4) die untere Grenze des Parameters k ist. Beachten Sie, dass eine Verringerung von k die Anforderung an die Existenz einer Assoziation durch gemeinsam genutzte Host-Contigs lockert, was zu mehr Kanten in \({{{{{{{{\mathcal{G}}}}}}}}}_{{{ {{{{{\rm{host}}}}}}}}}\). In Formel (2) ergibt sich also die Maximierung der Anzahl der Kanten in \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{host}} }}}}}}}}\) entspricht der Minimierung des Werts von k. Obwohl kleinere k eine größere Anzahl von Verbindungen für virale Contigs in \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{host}} }}}}}}}}\) darf der Wert von k nicht zu klein sein, da dies aufgrund des experimentellen Rauschens zu falsch positiven Assoziationen führen kann. Daher gibt es zwei Einschränkungen, dass die Anzahl der Kanten in \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{host}}}} }}}}}\) ist kleiner oder gleich dem in \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{ hic}}}}}}}}}\) und k nicht kleiner als \({k}_{\min }\) sind, werden zur Steuerung des Werts von k verwendet. Wir fanden heraus, dass die überwiegende Mehrheit der Kanten innerhalb des Wirtsnähediagramms die viralen Contigs aus demselben Genom in den drei simulierten metagenomischen Hi-C-Datensätzen verknüpften, was die Zuverlässigkeit des Wirtsnähediagramms demonstriert (siehe Ergebnisse).

Wir haben das Hi-C-Interaktionsdiagramm und das Host-Proximity-Diagramm erstellt, um virale Contigs zu verknüpfen. Dann möchten wir diese beiden Diagramme integrieren. Sei \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{int}}}}}}}}}(V,\ ,{E}_{{{{{{{{\rm{int}}}}}}}}})\) bezeichnen den endgültigen integrativen Graphen, in dem die Scheitelpunktmenge immer noch alle viralen Contigs repräsentiert und zu der eine Kante eij gehört die Kantenmenge \({{{{{{{{\mathcal{E}}}}}}}}}_{{{{{{{{\rm{int}}}}}}}}}\) wenn vi und vj durch einen der Hi-C-Interaktionsgraphen \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm {hic}}}}}}}}}\) oder der Host-Proximity-Graph \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{ \rm{Host}}}}}}}}}\).

Wir gruppieren die viralen Contigs mithilfe des Leiden-Graph-Clustering-Algorithmus46 basierend auf dem integrativen Graphen \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm {int}}}}}}}}}\). Der Leiden-Algorithmus ist ein modularitätsbasierter Community-Erkennungsalgorithmus. Zur Optimierung der Modularitätsfunktion ist ein dreistufiger Greedy-Ansatz erforderlich. Konkret weist der Algorithmus in jeder Iteration jeden Knoten einer Community zu, sodass die Modularitätsfunktion nach der lokalen Bewegung zunimmt, gefolgt von einer Verfeinerung der Unterteilung in Untergemeinschaften und einer Aggregation des Netzwerks. Darüber hinaus wird eine allgemeine Modularitätsfunktion basierend auf dem Potts-Modell von Reichardt und Bornholdt73 für den Leiden-Algorithmus ausgewählt, um die Auflösungsgrenze zu überwinden74 und ist definiert als:

wobei M die Adjazenzmatrix des Graphen \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{int}}}}}}“ ist. }}}\), c bezeichnet die Gemeinschaft viraler Eckpunkte, r ist ein Auflösungsparameter, d stellt den Grad viraler Eckpunkte dar und n ist die Gesamtzahl der Kanten im Diagramm. Der Auflösungsparameter r wird mithilfe des Silhouette-Koeffizienten75 der Binning-Ergebnisse abgestimmt, einem beliebten Clustering-Bewertungsmaß ohne echte Bezeichnungen, bei dem die Kohäsion und die Trennung der Cluster gemessen werden. Die Kandidatenauflösung, die den höchsten Silhouette-Koeffizienten ergibt, wird als optimaler Wert für die Leiden-Clusterbildung ausgewählt.

Wir haben ein beliebtes Tool, CheckV (v0.7.0)43, verwendet, um die Vollständigkeitsqualität viraler MAGs abzuschätzen, die aus drei echten metagenomischen Hi-C-Datensätzen gewonnen wurden. Da CheckV ursprünglich zur Beurteilung der Qualität von Single-Contig-Virusgenomen entwickelt wurde, wurden Virus-Contigs von jedem vMAG gemäß den Anforderungen von CheckV zu einer einzigen Sequenz verkettet. CheckV wendet zwei Algorithmen an, um die Vollständigkeit von vMAGs basierend auf der Aminosäureidentität (AAI) oder dem Hidden-Markov-Modell (HMM) zu berechnen (Ergänzende Anmerkung 8). Der AAI-basierte Ansatz meldet ein Konfidenzniveau der Schätzung basierend auf der Alignment-Qualität mit der CheckV-Genomdatenbank und der Contig-Länge, und Schätzungen mit hoher und mittlerer Konfidenz erweisen sich als genau und können vertrauenswürdig sein43. Daher haben wir die von zwei Ansätzen geschätzten Ergebnisse kombiniert, um die Vollständigkeit von vMAGs zu bestimmen. Insbesondere wurde für jedes vMAG eine auf CheckV AAI basierende Schätzung der Vollständigkeit verwendet, wenn diese Schätzung als mittleres oder hohes Vertrauen eingestuft wurde. Ansonsten wurde die HMM-basierte Schätzung verwendet, sofern verfügbar.

Obwohl CheckV in großem Umfang zur Bewertung der Binning-Leistung für virale Contigs eingesetzt wird, führt die Unfähigkeit, die Kontamination zu bewerten, dazu, dass die CheckV-Bewertung für vMAGs weniger umfassend ist. Darüber hinaus ist das Benchmarking des viralen Genom-Retrievals durch Simulation eine Herausforderung, da nur wenige Studien zur Modellierung von Hi-C-Wechselwirkungen für virale Contigs durchgeführt wurden. Um diese Probleme zu lösen, haben wir eine Benchmarking-Strategie vorgeschlagen, um die Binning-Leistung von Hi-C-basierten Tools für virale Contigs umfassend zu bewerten, ohne dass Hi-C-Interaktionen für virale Contigs simuliert werden müssen.

Anstatt virale Contigs mithilfe bekannter viraler Referenzgenome zu simulieren, haben wir eine Strategie entwickelt, um aus der echten metagenomischen Hi-C-Probe direkt simulierte virale Contigs mit fundierter Wahrheit zu generieren. Obwohl virale Genomassemblierungen aus Shotgun Reads häufig durch nicht ausreichend lange Contigs beeinträchtigt werden, gibt es immer noch einige einzelne Contigs, die das virale Genom einzeln mit relativ hoher Vollständigkeit darstellen können. Daher haben wir CheckV zunächst auf alle identifizierten viralen Contigs angewendet. Contigs über 10.000 bp, die von CheckV als „hochwertig“ oder „vollständig“ gekennzeichnet wurden, galten als relativ vollständige virale Genome und dienten als mutmaßliche Referenzgenome. Anschließend simulierten wir mithilfe dieser mutmaßlichen Referenzgenome direkt Scheinviren-Contigs aus echten metagenomischen Hi-C-Datensätzen. Insbesondere extrahierten wir Teilsequenzen aus mutmaßlichen Referenzgenomen in Schiebefenstern mit einer Länge von 3 kbp, die sich ohne Überlappungen von links nach rechts bewegten. Infolgedessen wurden mutmaßliche Referenzgenome in nicht überlappende Fragmente von 3 kbp aufgeteilt. Fragmente an den Rändern mutmaßlicher Referenzgenome blieben erhalten, wenn sie länger als 1 kbp waren. Alle fragmentierten Contigs wurden als Schein-Virus-Contigs betrachtet und anhand der mutmaßlichen Referenzgenome, aus denen sie stammten, gekennzeichnet. Anschließend haben wir die erhaltenen Schein-Virus-Contigs mit allen potenziellen Wirts-Contigs gemischt und die Hi-C-Lesepaare mithilfe von BWA MEM mit dem Parameter „-5SP“ an den gemischten Contig-Satz angepasst, um einen Schein-Metagenom-Hi-C-Datensatz zu erstellen. Auf diese Weise haben wir simulierte virale Contigs mit Grundwahrheit generiert und gültige Hi-C-Interaktionen konstruiert, ohne die Hi-C-Experimente für virale Contigs in einem simulierten metagenomischen Hi-C-Datensatz zu simulieren. Anschließend konnten wir die Binning-Leistung anhand von simulierten metagenomischen Hi-C-Datensätzen für Hi-C-basierte Binning-Ansätze sowie Shotgun-basierte Binning-Tools validieren.

Da die wahren Bezeichnungen aller Schein-Virus-Contigs im Schein-Metagenom-Hi-C-Datensatz bekannt waren, verwendeten wir vier umfassende Bewertungsmetriken der Clustering-Leistung (Ergänzende Anmerkung 9): Fowlkes-Mallows-Scores (F-Scores), angepasster Rand-Index ( ARI), Normalized Mutual Information (NMI) und Homogenität. Diese vier Metriken wurden zur Bewertung der Binning-Leistung verwendet.

Darüber hinaus haben wir die Vollständigkeit und Kontamination jedes vMAG definiert. Insbesondere haben wir für jedes vMAG die Längen der Contigs aus verschiedenen Referenzgenomen separat summiert und das vMAG dem Referenzgenom mit der größten Abfragelänge zugeordnet, die mit L(q) bezeichnet wird. Wir haben die Länge des entsprechenden Referenzgenoms auch als L(r) bezeichnet und die Gesamtlänge des vMAG als L(v) bezeichnet. Die Vollständigkeit eines vMAG ist definiert als \(\frac{L(q)}{L(r)}\) und die Kontamination eines vMAG ist definiert als \(\frac{L(v)-L(q)} {L(v)}\). Dann haben wir die hochwertigen vMAGs in drei Ränge eingeteilt, nämlich nahezu vollständig (Vollständigkeit ≥ 90 %, Kontamination ≤ 10 %), im Wesentlichen vollständig (70 % ≤ Vollständigkeit <90 %, Kontamination ≤ 10 %) und mäßig vollständig (50 % ≤ Vollständigkeit < 70 %, Kontamination ≤ 10 %), was den CheckM-Bewertungskriterien44 ähnelt.

Wie in 36 haben wir die Inter-Contig-Hi-C-Kontakte als die gepaarten Hi-C-Reads definiert, die verschiedenen viralen Contigs zugeordnet sind. Dann wurde das 3D-Verhältnis berechnet, indem die Anzahl der Hi-C-Kontakte zwischen den Contigs durch die Gesamtzahl der Hi-C-Lesevorgänge am gepaarten Ende dividiert wurde, die auf virale Contigs ausgerichtet waren. Wir haben außerdem einen zusätzlichen Qualitätskontrollschritt für verarbeitete Paired-End-Hi-C-Lesevorgänge mit qc3C (v0.5)76 im k-mer-Modus mit Standardparametern durchgeführt. Wir haben den qc3C-KI als das 95 %-Konfidenzintervall des Anteils der beobachteten Verbindungssequenzen definiert, die als Produkt der von der qc3C-Software geschätzten Proximity-Ligation angesehen werden. Detaillierte Ergebnisse von qc3C für jeden Datensatz sind in den Zusatzdaten 1 aufgeführt.

Wir verwendeten zunächst DemoVir (https://github.com/feargalr/Demovir), um virale Contigs nach Ordnung und taxonomischer Familienebene zu klassifizieren, indem wir Gene auf Contigs mit der kuratierten viralen Proteindatenbank (https://figshare.com/articles/) verglichen. NR_Viral_TrEMBL/5822166). Contigs, deren Gene durchgängig derselben Familie zugeordnet wurden, wurden schließlich mit Anmerkungen versehen. Dann haben wir die vMAG-Familie als die Familie definiert, zu der die Mehrheit der Contigs im vMAG gehörte.

Alle nicht-viralen Contigs für jede Probe wurden mit HiCBin (v1.1.0)40 mit Standardparametern gruppiert, um potenzielle Wirts-MAGs zu generieren, die anschließend von GTDB-TK (v2.1.0, Release: R207_v2)54 mit Standardparametern und dem kommentiert wurden Die Ergebnisse der taxonomischen Klassifizierung wurden mit ITOL (v5)55 visualisiert. vMAGs wurden mit potenziellen Wirts-MAGs assoziiert, wenn sie durch mindestens zwei Hi-C-Lesepaare verbunden waren, wie in77.

Im Gegensatz zur weit verbreiteten metagenomischen Hi-C-Technik, die Shotgun-Sequenzierung mit Hi-C-Sequenzierung kombiniert34,57,67,69,77, zeigten Marbouty et al.35, dass meta3C, ein weiterer auf Proximity-Ligation basierender Ansatz, den Aufbau und die Gerüstbildung ermöglichte und somit meta3C nutzte Reads anstelle von Shotgun-Reads, um Contigs zusammenzustellen, die anschließend in ihren jüngsten Experimenten an menschlichen Darmproben durch Hi-C-Paired-End-Reads verknüpft wurden36. Wir bezeichnen solche Datensätze als Meta-3C/Hi-C-Datensätze. Wir validierten ViralCC weiter an einer Meta-3C/Hi-C-Probe aus dem menschlichen Darmmikrobiom, die aus einer Meta3C-Bibliothek (NCBI-Zugang: SRR11853875) und zwei separaten Hi-C-Bibliotheken (NCBI-Zugang: SRR13435230 und SRR13435231) bestand. Angesichts der kurzen Länge von Hi-C-Lesevorgängen (35 bp) haben wir weder Hi-C-Lesevorgänge mit der Minimallängenoption von bbduk70 verworfen noch Hi-C-Lesevorgänge während des Lesebereinigungsschritts gekürzt. Weitere Einzelheiten zur Datenverarbeitung und zu den Ergebnissen der Validierung finden Sie in der Ergänzenden Anmerkung 10.

VAMB (v3.0.3)26 wurde mit der Option „-t 40“ ausgeführt. vRhyme (v1.0.0)30, MetaTOR (v1.1.4)38 und bin3C (v0.1.1)39 wurden mit Standardparametern ausgeführt. Die Eingabeabdeckungsdateien viraler Contigs für VAMB und vRhyme wurden mit dem Skript „jgi_summarize_bam_contig_ Depths“ generiert, das von MetaBAT2 (v2.12.1)25 bereitgestellt wird. Da CoCoNet29 Contigs entfernte, die nur in einer Probe auftraten, verwendeten wir den Modus „Zusammensetzung“, um die viralen Genome wiederherzustellen. Die anderen Parameter wurden auf Standardwerte gesetzt.

Zur Bestimmung der Stichprobengröße wurde keine statistische Methode verwendet. Es wurden keine Daten von den Analysen ausgeschlossen. Die Experimente waren nicht randomisiert, mit Ausnahme des Random-Binning-Modells, bei dem Konfigurationsgraphen durch zufällige Zuweisung von Kanten erstellt wurden, um der Gradsequenz von Virus-Contigs in integrativen Graphen zu entsprechen. Die Forscher waren während der Experimente und der Ergebnisbewertung nicht blind für die Zuordnung.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Portfolio Reporting Summary.

Alle in dieser Studie verwendeten Datensätze sind in der NCBI Sequence Read Archive-Datenbank (http://www.ncbi.nlm.nih.gov/sra) öffentlich verfügbar. Der Datensatz zum menschlichen Darm ist unter den Zugangscodes verfügbar: Shotgun-Bibliothek SRR6131123, Hi-C-Bibliotheken SRR6131122 und SRR6131124. Der in dieser Studie verwendete Kuhkot-Datensatz hat die folgenden Zugangscodes: Shotgun-Bibliothek ERX2333418, Hi-C-Bibliotheken ERX2548555 und ERX2548556. Der Abwasserdatensatz ist unter den Zugangscodes Shotgun Library SRR8239393 und Hi-C Library SRR8239392 verfügbar. Der in dieser Studie verwendete Meta-3C/Hi-C-Datensatz ist unter den Zugangscodes verfügbar: Meta3C-Bibliothek SRR11853875, Hi-C-Bibliotheken SRR13435230 und SRR13435231. Die von VirSorter benötigten Datenbanken können unter https://zenodo.org/record/1168727/files/virsorter-data-v2.tar.gz heruntergeladen werden. Die CheckV-Referenzdatenbank ist unter https://portal.nersc.gov/CheckV/checkv-db-v1.0.tar.gz verfügbar. Die GTDB-TK-Referenzdatenbank kann unter https://data.gtdb.ecogenomic.org/releases/latest/auxillary_files/gtdbtk_v2_data.tar.gz heruntergeladen werden. Die kuratierte virale Proteindatenbank für DemoVir ist unter https://figshare.com/articles/NRViralTrEMBL/5822166 verfügbar. Die restlichen Daten sind in den Artikel-, Zusatzinformationen- oder Quelldaten verfügbar. Quelldaten werden mit diesem Dokument bereitgestellt.

Die ViralCC-Software ist unter der GNU General Public License Version v3 kostenlos verfügbar unter https://github.com/dyxstat/ViralCC. Der in dieser Arbeit verwendete ViralCC-Code78 ist auch auf Zenodo unter https://doi.org/10.5281/zenodo.7449911 archiviert. Skripte zur Verarbeitung der Zwischendaten und Plotzahlen unseres ViralCC-Papiers sind unter https://github.com/dyxstat/Reproduce_ViralCC/tree/main/Scripts verfügbar.

Breitbart, M. & Rohwer, F. Hier ein Virus, dort ein Virus, überall der gleiche Virus? Trends Mikrobiol. 13, 278–284 (2005).

Artikel CAS Google Scholar

Gobler, CJ, Hutchins, DA, Fisher, NS, Cosper, EM & Saňudo-Wilhelmy, SA Freisetzung und Bioverfügbarkeit von C, N, P Se und Fe nach viraler Lyse eines marinen Chrysophyten. Limnol. Ozeanogr. 42, 1492–1504 (1997).

Artikel ADS CAS Google Scholar

Suttle, CA Meeresviren – wichtige Akteure im globalen Ökosystem. Nat. Rev. Microbiol. 5, 801–812 (2007).

Artikel CAS Google Scholar

Fuhrman, JA Meeresviren und ihre biogeochemischen und ökologischen Auswirkungen. Nature 399, 541–548 (1999).

Artikel ADS CAS Google Scholar

Jiao, N. et al. Mikrobielle Produktion widerspenstiger gelöster organischer Stoffe: langfristige Kohlenstoffspeicherung im globalen Ozean. Nat. Rev. Microbiol. 8, 593–599 (2010).

Artikel CAS Google Scholar

Norman, JM et al. Krankheitsspezifische Veränderungen im enterischen Virom bei entzündlichen Darmerkrankungen. Zelle 160, 447–460 (2015).

Artikel CAS Google Scholar

Reyes, A. et al. Darm-DNA-Virome malawischer Zwillinge stimmen nicht mit schwerer akuter Unterernährung überein. Proz. Natl. Acad. Wissenschaft. USA 112, 11941–11946 (2015).

Artikel ADS CAS Google Scholar

Paez-Espino, D. et al. Aufdeckung des Viroms der Erde. Natur 536, 425–430.

Artikel ADS CAS Google Scholar

Emerson, JB et al. Wirtsgebundene Bodenvirenökologie entlang eines Permafrost-Taugradienten. Nat. Mikrobiol. 3, 870–880 (2018).

Artikel CAS Google Scholar

Gregory, AC et al. Makro- und Mikrodiversität mariner DNA-Viren von Pol zu Pol. Zelle 177, 1109–1123 (2019).

Artikel CAS Google Scholar

Gregory, AC et al. Die Darmvirom-Datenbank deckt altersabhängige Muster der Viromdiversität im menschlichen Darm auf. Zellwirtsmikrobe. 28, 724–740 (2020).

Artikel CAS Google Scholar

Albertsen, M. et al. Genomsequenzen seltener, nicht kultivierter Bakterien, die durch differenzielles Coverage-Binning mehrerer Metagenome erhalten wurden. Nat. Biotechnologie. 31, 533–538 (2013).

Artikel CAS Google Scholar

Li, D., Liu, C.-M., Luo, R., Sadakane, K. & Lam, T.-W. MEGAHIT: eine ultraschnelle Einzelknotenlösung für die Zusammenstellung großer und komplexer Metagenomikdaten mithilfe eines prägnanten de Bruijn-Graphen. Bioinformatik 31, 1674–1676 (2015).

Artikel CAS Google Scholar

Nurk, S., Meleshko, D., Korobeynikov, A. & Pevzner, PA metaSPAdes: ein neuer vielseitiger metagenomischer Assembler. Genomres. 27, 824–834 (2017).

Artikel CAS Google Scholar

Roux, S., Enault, F., Hurwitz, BL & Sullivan, MB VirSorter: Gewinnung viraler Signale aus mikrobiellen Genomdaten. PeerJ 3, e985 (2015).

Artikel Google Scholar

Ren, J., Ahlgren, NA, Lu, YY, Fuhrman, JA & Sun, F. VirFinder: ein neuartiges k-mer-basiertes Tool zur Identifizierung viraler Sequenzen aus zusammengestellten metagenomischen Daten. Mikrobiom 5, 69 (2017).

Artikel Google Scholar

Kieft, K., Zhou, Z. & Anantharaman, K. VIBRANT: Automatisierte Wiederherstellung, Annotation und Kuration mikrobieller Viren und Bewertung der Funktion der Virusgemeinschaft anhand genomischer Sequenzen. Mikrobiom 8, 90 (2020).

Artikel CAS Google Scholar

Smits, SL et al. Zusammenbau viraler Genome aus Metagenomen. Vorderseite. Mikrobiol. 5, 714 (2014).

Artikel Google Scholar

García-López, R., Vázquez-Castellanos, JF & Moya, A. Fragmentierung und Abdeckungsvariation in viralen Metagenomanordnungen und ihre Auswirkung auf Diversitätsberechnungen. Vorderseite. Bioeng. Biotechnologie. 3, 141 (2015).

Artikel Google Scholar

Vázquez-Castellanos, JF, García-López, R., Pérez-Brocal, V., Pignatelli, M. & Moya, A. Vergleich verschiedener Assemblierungs- und Annotationstools bei der Analyse simulierter viraler metagenomischer Gemeinschaften im Darm. BMC Genomics 15, 37 (2014).

Artikel Google Scholar

Roux, S. et al. Mindestinformationen über ein unkultiviertes Virusgenom (MIUViG). Nat. Biotechnologie. 37, 29–37 (2019).

Artikel CAS Google Scholar

Schulz, F. et al. Vorteile und Grenzen der metagenomischen Assemblierung und Binning eines Riesenvirus. mSystems 5, e00048–20 (2020).

Artikel CAS Google Scholar

Alneberg, J. et al. Einteilung metagenomischer Contigs nach Abdeckung und Zusammensetzung. Nat. Methoden 11, 1144–1146 (2014).

Artikel CAS Google Scholar

Wu, Y.-W., Tang, Y.-H., Tringe, SG, Simmons, BA & Singer, SW MaxBin: eine automatisierte Binning-Methode zur Wiederherstellung einzelner Genome aus Metagenomen mithilfe eines Erwartungsmaximierungsalgorithmus. Mikrobiom 2, 26 (2014).

Artikel CAS Google Scholar

Kang, DD et al. MetaBAT2: ein adaptiver Binning-Algorithmus für eine robuste und effiziente Genomrekonstruktion aus Metagenom-Assemblys. PeerJ 7, e7359 (2019).

Artikel Google Scholar

Nissen, JN et al. Verbessertes Binning und Assemblieren von Metagenomen mithilfe von Deep-Variational-Autoencodern. Nat. Biotechnologie. 39, 555–560 (2021).

Artikel CAS Google Scholar

Lin, H.-H. & Liao, Y.-C. Präzises Binning metagenomischer Contigs über automatisierte Clustering-Sequenzen unter Verwendung von Informationen zu genomischen Signaturen und Markergenen. Wissenschaft. Rep. 6, 24175 (2016).

Artikel ADS CAS Google Scholar

Sieber, CM et al. Wiederherstellung von Genomen aus Metagenomen mittels einer Dereplikations-, Aggregations- und Bewertungsstrategie. Nat. Mikrobiol. 3, 836–843 (2018).

Artikel CAS Google Scholar

Arisdakessian, CG, Nigro, OD, Steward, GF, Poisson, G. & Belcaid, M. CoCoNet: ein effizientes Deep-Learning-Tool für das Binning viraler Metagenome. Bioinformatik 37, 2803–2810 (2021).

Artikel CAS Google Scholar

Kieft, K., Adams, A., Salamzade, R., Kalan, L. & Anantharaman, K. vRhyme ermöglicht das Binning viraler Genome aus Metagenomen. Nukleinsäuren Res. 50, e83 (2022).

Artikel CAS Google Scholar

Burton, JN, Liachko, I., Dunham, MJ & Shendure, J. Entfaltung von Metagenomanordnungen auf Artenebene mit Hi-C-basierten Kontaktwahrscheinlichkeitskarten. G3 (Bethesda) 4, 1339–1346 (2014).

Artikel Google Scholar

Beitel, CW et al. Entfaltung eines synthetischen Metagenoms auf Stamm- und Plasmidebene durch Sequenzierung von Proximity-Ligationsprodukten. PeerJ 2, e415 (2014).

Artikel Google Scholar

Marbouty, M. et al. Die Erfassung der metagenomischen Chromosomenkonformation (meta3C) enthüllt die Vielfalt der Chromosomenorganisation in Mikroorganismen. eLife 3, e03318 (2014).

Artikel Google Scholar

Press, MO et al. Die Hi-C-Entfaltung eines menschlichen Darmmikrobioms liefert qualitativ hochwertige Entwurfsgenome und deckt Plasmid-Genom-Wechselwirkungen auf. bioRxiv (2017). https://doi.org/10.1101/198713.

Marbouty, M., Baudry, L., Cournac, A. & Koszul, R. Aufbau von Bakteriengenomen und Untersuchung von Wirt-Virus-Interaktionen im Darmmikrobiom durch Proximity-Ligation-Assay (Chromosomeneinfang). Wissenschaft. Adv. 3, e1602105 (2017).

Artikel ADS Google Scholar

Marbouty, M., Thierry, A., Millot, GA & Koszul, R. Das MetaHiC-Phagen-Bakterien-Infektionsnetzwerk zeigt aktive zyklische Phagen des gesunden menschlichen Darms. eLife 10, e60608 (2021).

Artikel CAS Google Scholar

Du, Y. & Sun, F. HiFine: Integration von Hi-C-basierten und Shotgun-basierten Methoden zur Verfeinerung der Klasseneinteilung metagenomischer Contigs. Bioinformatik 38, 2973–2979 (2022).

Artikel CAS Google Scholar

Baudry, L., Foutel-Rodier, T., Thierry, A., Koszul, R. & Marbouty, M. MetaTOR: eine rechnerische Pipeline zur Wiederherstellung hochwertiger metagenomischer Bins aus Darm-Proximity-Ligation (me)-Bibliotheken von Säugetieren. Vorderseite. Genet. 10, 753 (2019).

Artikel CAS Google Scholar

DeMaere, MZ & Darling, AE bin3C: Nutzung von Hi-C-Sequenzierungsdaten zur genauen Auflösung metagenomassemblierter Genome. Genome Biol 20, 46 (2019).

Artikel Google Scholar

Du, Y. & Sun, F. HiCBin: Binning metagenomischer Contigs und Wiederherstellung metagenomischer Genome mithilfe von Hi-C-Kontaktkarten. Genome Biol 23, 63 (2022).

Artikel CAS Google Scholar

Uritskiy, G. et al. Genaue Rekonstruktion des viralen Genoms und Wirtszuordnung mit Proximity-Ligation-Sequenzierung. bioRxiv (2021). https://doi.org/10.1101/2021.06.14.448389.

Du, Y., Laperriere, SM, Fuhrman, J. & Sun, F. Normalisierung metagenomischer Hi-C-Daten und Erkennung falscher Kontakte mithilfe einer nullinflationierten negativen Binomialregression. J. Comput. Biol. 29, 106–120 (2022).

Artikel CAS Google Scholar

Nayfach, S. et al. CheckV bewertet die Qualität und Vollständigkeit von aus Metagenomen zusammengesetzten Virusgenomen. Nat. Biotechnologie. 39, 578–585 (2021).

Artikel CAS Google Scholar

Parks, DH, Imelfort, M., Skennerton, CT, Hugenholtz, P. & Tyson, GW CheckM: Bewertung der Qualität mikrobieller Genome, die aus Isolaten, Einzelzellen und Metagenomen gewonnen wurden. Genomres. 25, 1043–1055 (2015).

Artikel CAS Google Scholar

O'Leary, NA et al. Referenzsequenzdatenbank (RefSeq) am NCBI: aktueller Status, taxonomische Erweiterung und funktionale Annotation. Nukleinsäuren Res. 44, D733–D745 (2016).

Artikel Google Scholar

Traag, VA, Waltman, L. & Van Eck, NJ Von Löwen nach Leiden: Gewährleistung gut vernetzter Gemeinden. Wissenschaft. Rep. 9, 5233 (2019).

Artikel ADS CAS Google Scholar

Newman, ME Die Struktur und Funktion komplexer Netzwerke. SIAM Rev. 45, 167–256 (2003).

Artikel ADS MATH Google Scholar

Ackermann, H.-W. 5500 Phagen im Elektronenmikroskop untersucht. Bogen. Virol. 152, 227–243 (2007).

Artikel CAS Google Scholar

Beller, L. & Matthijnssens, J. Was ist (nicht) über die Dynamik des menschlichen Darmviroms bei Gesundheit und Krankheit bekannt? Curr. Meinung. Virol. 37, 52–57 (2019).

Artikel Google Scholar

Williamson, SJ et al. Die Sorcerer II Global Ocean Sampling Expedition: metagenomische Charakterisierung von Viren in aquatischen Mikrobenproben. PLoS eins 3, e1456 (2008).

Artikel ADS Google Scholar

Thurber, RV Aktuelle Einblicke in die Biodiversität und Biogeographie von Phagen. Curr. Meinung. Mikrobiol. 12, 582–587 (2009).

Artikel CAS Google Scholar

Hurwitz, BL & Sullivan, MB Das Pazifische Ozeanvirom (POV): ein metagenomischer Datensatz mariner Viren und zugehörige Proteincluster für die quantitative Virusökologie. PLoS One 8, e57355 (2013).

Artikel ADS CAS Google Scholar

Jasna, V., Parvathi, A. & Dash, A. Genetische und funktionelle Vielfalt doppelsträngiger DNA-Viren in einer tropischen Monsunmündung, Indien. Wissenschaft. Rep. 8, 16036 (2018).

Artikel ADS Google Scholar

Chaumeil, P.-A., Mussig, AJ, Hugenholtz, P. & Parks, DH GTDB-Tk: ein Toolkit zur Klassifizierung von Genomen mit der Genome Taxonomy Database. Bioinformatik 36, 1925–1927 (2020).

CAS Google Scholar

Letunic, I. & Bork, P. Interactive Tree Of Life (iTOL) v5: ein Online-Tool für die Anzeige und Annotation phylogenetischer Bäume. Nukleinsäuren Res. 49, W293–W296 (2021).

Artikel CAS Google Scholar

Feng, W.-W., Liu, J.-F., Gu, J.-D. & Mu, B.-Z. Nitratreduzierende Gemeinschaft im Produktionswasser von drei Öllagerstätten und ihre Reaktionen auf verschiedene Kohlenstoffquellen, die durch das Nitratreduktase-kodierende Gen (napA) aufgedeckt werden. Int. Biodeterior Biodegradation 65, 1081–1086 (2011).

Artikel CAS Google Scholar

Stalder, T., Press, MO, Sullivan, S., Liachko, I. & Top, EM Verknüpfung des Resistoms und Plasmidoms mit dem Mikrobiom. ISME J. 13, 2437–2446 (2019).

Artikel Google Scholar

Gubert, C. et al. Gen-Umwelt-Darm-Interaktionen bei Mäusen mit Huntington-Krankheit sind mit einer umweltbedingten Modulation des Darmmikrobioms verbunden. iScience 25, 103687 (2022).

Artikel ADS CAS Google Scholar

Yordpratum, U., Tattawasart, U., Wongratanacheewin, S. & Sermswan, RW Neuartige lytische Bakteriophagen aus dem Boden, die Burkholderia pseudomallei lysieren. FEMS Mikrobiol. Lette. 314, 81–88 (2011).

Artikel CAS Google Scholar

Ogilvie, LA et al. Genomsignaturbasierte Dissektion menschlicher Darmmetagenome zur Extraktion unterschwelliger Virussequenzen. Nat. Komm. 4, 2420 (2013).

Artikel ADS Google Scholar

Mettenleiter, TC, Klupp, BG & Granzow, H. Herpesvirus-Assembly: ein Update. Virus Res. 143, 222–234 (2009).

Artikel CAS Google Scholar

Edgar, RC PILER-CR: schnelle und genaue Identifizierung von CRISPR-Wiederholungen. BMC Bioinformatics 8, 18 (2007).

Artikel Google Scholar

Johnson, M. et al. NCBI BLAST: eine bessere Weboberfläche. Nukleinsäuren Res. 36, W5–W9 (2008).

Artikel CAS Google Scholar

Johansen, J. et al. Genom-Binning viraler Entitäten aus Massenmetagenomdaten. Nat. Komm. 13, 965 (2022).

Artikel ADS CAS Google Scholar

Puschnik, AS, Majzoub, K., Ooi, YS & Carette, JE Eine CRISPR-Toolbox zur Untersuchung von Virus-Wirt-Interaktionen. Nat. Rev. Microbiol. 15, 351–364 (2017).

Artikel CAS Google Scholar

Hille, F. et al. Die Biologie von CRISPR-Cas: vorwärts und rückwärts. Zelle 172, 1239–1259 (2018).

Artikel CAS Google Scholar

Chen, Y., Wang, Y., Paez-Espino, D., Polz, MF und Zhang, T. Prokaryotische Viren beeinflussen funktionelle Mikroorganismen bei der Nährstoffentfernung und dem Kohlenstoffkreislauf in Kläranlagen. Nat. Komm. 12, 5398 (2021).

Artikel ADS CAS Google Scholar

Sanjuán, R. & Thoulouze, M.-I. Warum Viren manchmal in Gruppen zerstreuen. Virusentwicklung. 5, vez014 (2019).

Artikel Google Scholar

Stewart, RD et al. Zusammenstellung von 913 mikrobiellen Genomen aus der metagenomischen Sequenzierung des Kuhpansens. Nat. Komm. 9, 870 (2018).

Artikel ADS Google Scholar

Bushnell, B. BBMap: ein schneller, genauer und spleißbewusster Aligner. Technik. Rep., Lawrence Berkeley National Lab. (LBNL), Berkeley, CA (Vereinigte Staaten) (2014).

Li, H. Ausrichten von Sequenzlesevorgängen, Klonsequenzen und Assemblierungs-Contigs mit BWA-MEM. arXiv (2013). https://doi.org/10.48550/arXiv.1303.3997.

Glickman, C., Hendrix, J. & Strong, M. Simulationsstudie und vergleichende Bewertung von Tools zur Identifizierung viraler zusammenhängender Sequenzen. BMC Bioinformatik 22, 329 (2021).

Artikel CAS Google Scholar

Reichardt, J. & Bornholdt, S. Statistische Mechanik der Community-Erkennung. Physik. Rev. E 74, 016110 (2006).

Artikel ADS Google Scholar

Fortunato, S. & Barthelemy, M. Auflösungsgrenze bei der Community-Erkennung. Proz. Natl. Acad. Wissenschaft. USA 104, 36–41 (2007).

Artikel ADS CAS Google Scholar

Rousseeuw, PJ Silhouettes: eine grafische Hilfe zur Interpretation und Validierung der Clusteranalyse. J. Comput. Appl. Mathematik. 20, 53–65 (1987).

Artikel MATH Google Scholar

DeMaere, MZ & Darling, AE qc3C: Referenzfreie Qualitätskontrolle für Hi-C-Sequenzierungsdaten. PLoS Comput. Biol. 17, e1008839 (2021).

Artikel ADS CAS Google Scholar

Kent, AG, Vill, AC, Shi, Q., Satlin, MJ & Brito, IL Weit verbreiteter Transfer mobiler Antibiotikaresistenzgene innerhalb einzelner Darmmikrobiome, nachgewiesen durch bakterielles Hi-C. Nat. Komm. 11, 4379 (2020).

Artikel ADS CAS Google Scholar

Du, Y., Fuhrman, JA & Sun, F. ViralCC ruft vollständige virale Genome und Virus-Wirt-Paare aus metagenomischen Hi-C-Daten ab. Zenodo (2022). https://doi.org/10.5281/zenodo.7449911.

Referenzen herunterladen

Die Forschung wird teilweise durch NIH-Zuschüsse (R01GM120624 und R01GM131407), Simons Foundation-Zuschuss Nr. 549943 und NSF EF-2125142 finanziert. YD wird vom Viterbi Fellowship unterstützt.

Abteilung für quantitative und computergestützte Biologie, University of Southern California, Los Angeles, CA, USA

Yuxuan Du & Fengzhu Sun

Abteilung für Biowissenschaften, University of Southern California, Los Angeles, CA, USA

Jed A. Fuhrman

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

YD und FS konzipierten die Ideen und gestalteten die Studie. JF lieferte die Ideen zur Analyse metagenomischer Hi-C-Daten und Virus-Wirt-Paare. YD implementierte die Methoden, führte die rechnerischen Analysen durch und verfasste das Manuskript. FS, JF und YD haben das Papier geändert und fertiggestellt.

Korrespondenz mit Fengzhu Sun.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Nature Communications dankt den anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Du, Y., Fuhrman, JA & Sun, F. ViralCC ruft vollständige virale Genome und Virus-Wirt-Paare aus metagenomischen Hi-C-Daten ab. Nat Commun 14, 502 (2023). https://doi.org/10.1038/s41467-023-35945-y

Zitat herunterladen

Eingegangen: 22. Oktober 2022

Angenommen: 09. Januar 2023

Veröffentlicht: 31. Januar 2023

DOI: https://doi.org/10.1038/s41467-023-35945-y

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.