Alle videnskaber har deres hvide hvaler: Læger drømmer om at finde en kur mod kræft. Teoretiske fysikere drømmer om at forene kvantemekanikken og relativitetsteorien i én sammenhængende teori om alting. Og for evolutionsbiologer er en af de store drømme, at vi en dag kan sætte evolutionen på formel og forudsige, hvordan arter vil udvikle sig i fremtiden.
Siden Darwins tid har forskerne udviklet stadig bedre metoder til at forstå arternes genetiske udvikling og de store evolutionære spring – bagudrettet. Men hvis vi også kan blive i stand til at forudsige fremtidige genetiske ændringer, vil det være en videnskabelig milepæl med kolossal betydning, f.eks. for genbaserede medicinske behandlinger.
Med et nyt studium, der blev præsenteret i Science Advances i sidste uge, er denne drøm rykket et stort skridt tættere på.
Genetiske ændringer foregår hele tiden, spontant og tilfældigt: Gener kommer til og forsvinder, substitueres med andre eller flytter sig i genrækken. Det kan i sig selv ændre en populations samlede arvemasse over tid, såkaldt genetisk drift.
I nogle tilfælde giver disse forandringer en evolutionær fordel – f.eks. i kraft af bedre fysiologiske egenskaber eller tilpasning til det omgivende miljø. Hvis disse effekter er universelle, vil nogle udviklingsmønstre kunne genfindes på tværs af arter. Og dermed vil man i princippet også kunne forudsige en sandsynlig evolutionær udvikling.
Tidligere studier har demonstreret, at det er muligt at forudse sandsynligheden af sådanne ændringer – isoleret set, på kort sigt og under kontrollerede forhold i et laboratorium. Men ingen har hidtil bundet an med opgaven på langsigtet, systemisk og evolutionært niveau.
Det er netop, hvad forskerne bag det nye studium har gjort.
Deres undersøgelse baserer sig på machine learning. Populært sagt er det en form for computerprogram af anden orden, der ikke baserer sig på en bestemt algoritme til at løse et givent problem, men selv udvikler algoritmer ud fra et sæt af træningsdata.
Forskerne bag undersøgelsen har designet en maskinlæringsplatform specifikt til formålet og ”fodret” den med træningsdata i form af fulde gensekvenser fra 2.994 bakteriearter. Datagrundlaget omfatter de enkelte arters indbyrdes ”slægtskab”.
På den baggrund viste det sig, at programmet med stor præcision var i stand til at forudse sandsynligheden for genetiske ændringer på tværs af arter.
Dataanalysen har i første omgang været begrænset til det binære niveau – altså fraværet eller tilstedeværelsen af et bestemt gen på en bestemt plads i det pågældende genom.
Men forskerne konstaterer, at resultaterne flugter med eksisterende viden om, hvilke fysiologiske og økologiske faktorer der ligger til grund for evolutionær udvikling.
De skriver: “Vi forudser, at vores tilgang vil gøre det muligt at forudse fremtidig evolution af genomer og give indsigt i designprincipperne bag biologiske systemer.”