Logic-statistic modelling and analysis of biological sequence data

  • Christiansen, Henning (Project participant)
  • Gallagher, John Patrick (Project participant)
  • Skovgaard, Ole (Project participant)
  • Pedersen, Martin B. (Project participant)
  • Garrigues, Christel (Project participant)
  • Jaeger, Manfred (Project participant)
  • Forsberg, Roald (Project participant)
  • Steffensen, Peter Johannes (Project participant)
  • Knudsen, Thomas (Project participant)
  • Knudsen, Bjarne (Project participant)
  • Krogh, Anders (Project participant)
  • Sato, Taisuke (Project participant)

Project: Research

Project Details

Description

Alle levende organismer, fra bakterier til mennesker, har indkodet deres egenskaber i DNA-sekvenser, og i kraft af moderne laboratoriemetoder, er det muligt at aflæse disse og repræsentere dem i en computer som meget lange sekvenser af bogstaver. Dette projekt handler om nye metoder til at finde egenskaber og strukturer i sådanne sekvenser, hvilket er af væsentlig betydning for erhvervsliv og forskning indenfor udvikling af medikamenter, sygdomsforebyggelse, fødevareindustri, landbrug, genetisk forskning m.v. En computerbaseret analyse af sekvenser er baseret på en model, som beskriver mulige strukturer, og traditionelle metoder er ofte baseret på såkaldte ”Hidden Markov Models”, som har en begrænset udtrykskraft. I dette projekt udforskes og udvikles en ny og mere slagkraftig type af logisk-statistiske metoder, som endnu kun i begrænset omfang har været benyttet til sekvensanalyse og andre biologiske problemstillinger. Projektet udføres i et samarbejde mellem forskere fra universiteter og erhvervsliv, med både molekylærbiologisk og datalogisk ekspertise, således at de nye metoder afprøves på aktuelle biologiske problemer.
De beregningsmodeller, som indføres, kombinerer logikprogrammering (som det f.eks. kendes fra sproget Prolog), med maskinindlæring og statistik. Dette giver umiddelbart større fleksibilitet og udtrykskraft (i hvor komplicerede eller subtile mønstre, som kan modelleres), men indebærer også problemer omkring effektivitet af beregninger, som dette projekt også vil forsøge at løse.
Disse metoder har et potentiale for at give mere præcise og detaljerede analyseresultater, som kan lede til ny erkendelse indenfor biologien.
StatusFinished
Effective start/end date01/05/200731/12/2012

Funding

  • Det strategiske forskningsråd; NABIIT, Programkomitéen for nanovidenskab og teknologi, bioteknologi og IT: €675,014.00

Research Output

  • 3 Article in proceedings
  • 2 Paper
  • 2 Journal article
  • 2 Conference article

Effects of using coding potential, sequence conservation and mRNA structure conservation for predicting pyrroly-sine containing genes

Have, C. T., Zambach, S. & Christiansen, H., 2013, In : B M C Bioinformatics. 14, 1, 12 p.

Research output: Contribution to journalJournal articleResearchpeer-review

Open Access
File

A declarative pipeline language for big data analysis

Christiansen, H., Theil-Have, C., Lassen, O. T. & Petit, M., Sep 2012, Proceedings of the 22nd International Symposium on Logic-Based Program Synthesis and Transformation (LOPSTR 2012). Leuven: Katholieke Universiteit Leuven, Vol. Report CW 625. p. 3-17

Research output: Chapter in Book/Report/Conference proceedingArticle in proceedingsResearchpeer-review

Efficient tabling of structured data with enhanced hash-consing

Zhou, N-F. & Have, C. T., 1 Jul 2012, In : Theory and Practice of Logic Programming. 12, 4-5, p. 547-563 16 p.

Research output: Contribution to journalConference articleResearchpeer-review

File

Constraints and Global Optimization for Gene Prediction Overlap Resolution

Have, C. T., 12 Sep 2011. 8 p.

Research output: Contribution to conferencePaperResearchpeer-review

File