Editorial

DNA-Sequenzierung ist noch lange nicht perfekt

(11.10.16) Bernd Timmermann landete als Leiter der Sequencing Core Facility am Berliner MPI für Molekulare Genetik unter den meistzitierten Köpfen unserer Publikationsanalyse „Molekulargenetik & Genomik“. Im LJ-Gespräch erzählt er über Schwierigkeiten, Anforderungen und Besonderheiten von Genom- und Transkriptomprojekten. 
editorial_bild

© ethikrat.org

Laborjournal: Worin liegt der Schwerpunkt Ihrer Arbeit? Sind Sie und Ihre Sequencing Core Facility eher Dienstleister für andere, oder forschen Sie auch an eigenen Projekten?

Bernd Timmermann: Unser Schwerpunkt liegt natürlich in der Zusammenarbeit mit anderen Gruppen und Instituten, wobei dies schon eine gewisse Bandbreite bietet. Es gibt die einfache Sequenzierung, die man als Service bezeichnen kann. Es gibt aber auch Projekte, in die wir wissenschaftliche Expertise hinein geben. So habe ich in meiner Sequencing Facility beispielsweise auch Bioinformatiker. Gerade wenn es um komplexere Datenauswertung geht, würde ich das eher als wissenschaftliche Kooperation bezeichnen, und nicht als reine Dienstleistung. Im Idealfall sind wir natürlich schon an der Projektplanung beteiligt.

Editorial

Haben Sie ein Beispiel für ein solches komplexeres Projekt?

Timmermann: Modellorganismen sind da ein gutes Beispiel. Da haben wir etwa Kooperationen mit dem MPI für Ornithologie in Seewiesen; eines der ersten Genome, die wir für dieses Projekt sequenziert haben, ist dasjenige des Kanarienvogels. Wenn Kooperationspartner auf diese Weise an einem Genom interessiert sind, dann wollen die ja nicht bloß DNA-Abfolgen haben – vielmehr steht dahinter immer eine wissenschaftliche Fragestellung. Beim Kanarienvogel ging es um die Entwicklung des Singverhaltens. In diesem Beispiel haben wir dann zusätzlich zur genomischen DNA auch viele Transkriptome unterschiedlicher Hirnregionen untersucht, die wir dann wiederum mit Transkriptomen anderer Singvögel und Nicht-Singvögel verglichen haben (Genome Biol. 29;16:19). Da steckte schon anspruchsvolle Planung dahinter: Welche Tiere bezieht man mit ein? Wie macht man dann diese Transkriptomvergleiche? Am Ende mussten wir unter anderem eigene Auswerteverfahren entwickeln – so dass es wirklich eine wissenschaftliche Kooperation war, bei der wir nicht bloß Proben in den Sequencer gestellt haben.

Wir stellen nicht bloß Proben in den Sequencer“

Wenn es um Transkriptome geht: Bekommen Sie dann tiefgekühlte Proben der Kooperationspartner, die sie selbst aufbereiten? Oder isoliert der Auftraggeber selbst die RNA und schreibt sie für die Sequenzierung in cDNA um?

Timmermann: Beides ist möglich, und da sprechen Sie einen wichtigen Punkt an. Denn inzwischen ist nicht mehr der eigentliche Sequenzierschritt die anspruchsvolle Aufgabe. Vielmehr braucht man sehr viel Expertise für die Auswertung und für die Probenvorbereitung. Die meisten Kooperationspartner schicken uns zur Transkriptomanalyse isolierte RNA; wir starten dann den weiteren Prozess, beginnend mit der reversen Transkription. Wir haben aber auch Projekte, in denen wir die Proben selbst aufbereiten. Zum Beispiel aktuell in einem Projekt mit der University of Cambridge, bei dem uns interessiert uns, wie Südtiroler Alpenmurmeltiere mit dem Klimawandel umgehen. Hier bekommen wir direkt Gewebe und Haare geschickt, um daraus genomische DNA zu isolieren. Generell sind wir in der Lage, aus fast allem Material DNA und RNA zu extrahieren.

Sind die modernen Sequenziermethoden eigentlich für jede Fragestellung geeignet? Ich denke da an die kurzen Leselängen.

Timmermann: Das ist nach wie vor ein wichtiger Punkt. Die heutige Haupttechnologie für Next Generation-Sequenzierung kommt von der Firma Illumina, das kann man ja ruhig offen sagen. Die hat sicherlich einen Marktanteil von 90 Prozent. Allerdings ist das eine Short Read-Technologie, mit der wir nicht mehr als 150 Basen durchgehender Sequenzdaten bekommen. Das ist sehr kurz. Im Vergleich dazu liefert die Sanger-Sequenzierung durchaus bis zu 1.000 Basen, was natürlich einen qualitativer Vorteil bedeutet. Über eine gute Bioinformatik können wir damit aber umgehen, und für Transkriptome sind die kurzen Reads überhaupt kein Problem. Schwieriger wird es natürlich bei Regionen, in denen repetitive Sequenzen liegen. Da gibt es Tricks wie die sogenannte Paired End-Sequenzierung, aber es ist nicht leicht, solche Regionen aufzulösen. Nun gibt es aber schon wieder eine neue Technologie, nämlich von der Firma Pacific Biosciences. Von denen haben wir jetzt auch ein Gerät installiert, und damit bekommen wir Reads von mehreren 10.000 Basen. Allerdings mit einer geringeren Genauigkeit. Wir haben auch noch Geräte anderer Hersteller, und wir beschäftigen uns derzeit immer mehr mit dem Thema „Einzelzell-Sequenzierung“. Letztlich muss man sich für jedes individuelle Projekt immer genau anschauen, welche Information man möchte und welche Techniken dafür am besten geeignet sind.

Für jedes Projekt muss man sich genau anschauen, welche Technik am besten geeignet ist

Eines Ihrer Steckenpferde ist das 1000 Genomes Project. Dazu gab es im Zeitraum unserer Publikationsanalyse zwei Paper, an denen Sie beteiligt waren, und denen Sie die meisten Zitierungen verdanken (Nature 2010 (7319): 1061-73 sowie Nature 2012 (7422): 56-65). Nun steckt hinter diesen Papern ein Konsortium von mehr als 500 Autoren, so dass es für einen Außenstehenden schwer ist, die Einzelleistungen der Forscher zu beurteilen. Wie schätzen Sie selbst die Aussagekraft solcher Zitierzahlen ein?

Timmermann: Ich halte das aus einem übergeordneten Blickwinkel für interessant. Ihr Ranking zeigt ja gerade, wie wichtig die DNA-Sequenzierung mit Hilfe der neuen Techniken generell für die Genomanalyse ist. Wenn man sich diese Liste anschaut, sieht man auch, wo die Genom-Sequenzierungszentren in Deutschland sitzen. Da sind zum Beispiel unsere Kollegen vom EMBL sehr stark vertreten. Das ist kein Zufall, die haben natürlich mit der Gruppe von Vladimir Benes eines der Top-Sequenzierlabore Deutschlands bei sich in Heidelberg. Wir haben in Deutschland drei oder vier große Sequenzierzentren, und die finden sich auch in dieser Liste wider. Ich würde mir jetzt aber nicht einbilden, dass ich unbedingt zu den Top-Molekulargenomik-Forschern in Deutschland gehöre, nur weil ich in den Top-Ten dieser Liste auftauche. Denn natürlich sind wir als Sequencing Core Facility sehr stark in Konsortien engagiert. Dennoch ist für uns auch wichtig, dass das wahrnehmbar ist. Beim 1000 Genomes Project waren zwar noch weitere deutsche Gruppen an der Auswertung beteiligt, aber wir waren das einzige deutsche Sequenzierlabor. Sonst dominierten dort große amerikanische Zentren oder das chinesische BGI, welches aus dem einstmaligen Beijing Genomics Insitute entstand.

Also spiegeln die Zitierungen mehr wider, welche Themen gerade wichtig sind?

Timmermann: Ihr Redakteur hat das ja sehr gut beschrieben: Es ist eigentlich ein Dilemma, bei dem ich selber nicht weiß, wie man so ein Ranking wirklich bewerten soll. Natürlich ist solch eine Veröffentlichung eines großen Konsortiums nicht gleichzusetzen mit einem wissenschaftlichen Paper im klassischen Sinne, das dann vielleicht nur wenige hundert Male zitiert wird. Was unsere eigene Rolle angeht, halte ich das einfach für eine Art Würdigung unserer Gruppe, dass wir als eines der führenden Sequenzierlabore an solchen Projekten mitarbeiten und wahrgenommen werden. Das ist aber kein Einzelverdienst. Das 1000 Genomes Project ist ein tolles Beispiel, denn fast jeder Forscher dieses Gebiets zitiert das gerne, einfach weil es eine riesige Ressource geschaffen hat.

Natürlich sind wir als Sequencing Core Facility sehr stark in Konsortien engagiert

Was hat es denn mit diesem 1000 Genomes Project auf sich, und wieso ist es so bedeutsam?

Timmermann: Für mich ist es das wichtigste Genomprojekt der letzten Jahre, wenn wir über Humanforschung sprechen. Es war einfach eine geniale Verknüpfung dieser neuen technischen Möglichkeiten mit einer grundlegenden Fragestellung: Wie sieht die normale genetische Variabilität in einer Population aus? Vorher gab es im Grunde genommen nur eine einzige humane Referenzsequenz. Mit den Informationen, die wir jetzt haben, kann ich für mehr als zwei Dutzend Populationen sagen, wie hier die spezifische, am häufigsten auftretende Referenz in der Bevölkerung aussieht. Und das ist einfach eine wichtige Grundlage für alle folgenden Projekte zu krankheitsassoziierten Genvarianten: Sie können auf diese Ressource zugreifen und ihre Daten damit abgleichen.

Und deshalb wollte man 1.000 Genome sequenzieren, was dann namensgebend für das Projekt war?

Timmermann: Am Ende sind es sogar 2.600 geworden. Das heißt, auch während des Projektes ging diese rasante Entwicklung der Technologie weiter. Solche wirklich genomweiten Populationsbetrachtungen wären ja vorher undenkbar gewesen.

Inwiefern hilft dieser Datenpool denn bei der Erforschung genetischer Krankheitsursachen?

Timmermann: Vorher haben wir mögliche Krankheitsgene immer in Case-Control-Studien betrachtet; dabei kamen aber regelmäßig völlig widersprüchliche Ergebnisse heraus – sogar für die gleichen Mutationen und Allele. Das 1000 Genomes Project liefert jetzt eine wirklich umfassende Ressource zur normalen genetischen Variabilität. Um das mal zu veranschaulichen: Wenn wir nach Kandidatengenen für Early Onset-Alzheimer suchen – also eine Alzheimerform, die bereits in jungen Jahren ausbricht – entdecken wir natürlich Mutationen, die dafür verantwortlich sein könnten. Wenn ich dann aber sehe, dass solch eine Variante mit fünfzigprozentiger Wahrscheinlichkeit in der Bevölkerung vorkommt, dann ist ganz klar, dass das nicht krankheitsrelevant sein kann.

„Die 2.600 Genome des 1000 Genomes Project reichen jetzt schon nicht aus

Klar, dazu braucht man ausreichend große Stichproben aus der normalen Bevölkerung. Jetzt stelle ich mir vor, dass es ja manchmal nicht die eine Genvariante ist, die eine Krankheit begünstig, sondern vielleicht nur besondere Konstellationen bestimmter Allele unterschiedlicher Genloci. Wie lange reichen da ein- oder zweitausend Referenzgenome zum Abgleich aus?

Timmermann: Die reichen jetzt schon nicht aus. In Großbritannien beginnt man bereits, das auf Zehntausende von Genomen auszuweiten – und zwar für die spezifische lokale Bevölkerung. Das ist ein laufender Prozess, und dementsprechend wird es Folgeprojekte geben. Wichtig zu erwähnen ist noch, dass diese Datenbank für alle medizinisch orientierten Projekte offen zur Verfügung steht.

Sind die aktuellen Sequenziertechniken jetzt die Werkzeuge, auf die wir lange gewartet haben – oder kommt da noch mehr?

Timmermann: Wir sehen zwar, dass gewisse Technologien in der Breite etabliert werden, aber wir sehen auf der anderen Seite auch, dass zum Glück immer wieder neue Technologien aufkommen. Darin sehe ich vor allem eine Aufgabe für die Core Facilities, hier wirklich immer vorn mit dabei zu sein – und zu schauen, wie robust neue Techniken sind und welche biologischen oder medizinischen Fragestellungen man damit beantworten kann. Da werden wir sicher noch ein paar Umbrüche erleben, weil wir gegenwärtig noch keine perfekte DNA-Sequenziertechnologie haben. Was wir uns als Sequenzierer wünschen, wäre im Grunde eine Single Molecule-Technologie, die auch noch in einem hohen Durchsatz funktioniert. Die sehr viele und lange Reads liefert, und das auch noch mit hoher Genauigkeit. Da sind wir noch lange nicht am Ende der Entwicklung. 

Interview: Mario Rembold



Letzte Änderungen: 31.10.2016