Alle levende organismer, fra bakterier til mennesker, har indkodet deres egenskaber i DNA-sekvenser, og i kraft af moderne laboratoriemetoder, er det muligt at aflæse disse og repræsentere dem i en computer som meget lange sekvenser af bogstaver. Dette projekt handler om nye metoder til at finde egenskaber og strukturer i sådanne sekvenser, hvilket er af væsentlig betydning for erhvervsliv og forskning indenfor udvikling af medikamenter, sygdomsforebyggelse, fødevareindustri, landbrug, genetisk forskning m.v. En computerbaseret analyse af sekvenser er baseret på en model, som beskriver mulige strukturer, og traditionelle metoder er ofte baseret på såkaldte ”Hidden Markov Models”, som har en begrænset udtrykskraft. I dette projekt udforskes og udvikles en ny og mere slagkraftig type af logisk-statistiske metoder, som endnu kun i begrænset omfang har været benyttet til sekvensanalyse og andre biologiske problemstillinger. Projektet udføres i et samarbejde mellem forskere fra universiteter og erhvervsliv, med både molekylærbiologisk og datalogisk ekspertise, således at de nye metoder afprøves på aktuelle biologiske problemer.
De beregningsmodeller, som indføres, kombinerer logikprogrammering (som det f.eks. kendes fra sproget Prolog), med maskinindlæring og statistik. Dette giver umiddelbart større fleksibilitet og udtrykskraft (i hvor komplicerede eller subtile mønstre, som kan modelleres), men indebærer også problemer omkring effektivitet af beregninger, som dette projekt også vil forsøge at løse.
Disse metoder har et potentiale for at give mere præcise og detaljerede analyseresultater, som kan lede til ny erkendelse indenfor biologien.