Projekti

Analiza heterogenih informacijskih omrežij za odkrivanje zakonitosti v znanostih o življenju

Nosilec projekta: dr. Nada Lavrač

Sodelavec na projektu: dr. Kristina Gruden

Šifra: J7-7303

Trajanje: 1. 1. 2016 - 31. 12. 2018

Temeljni raziskovalni projekt J7-7303 financira Javna agencija za raziskovalno dejavnost Republike Slovenije iz državnega proračuna.

Povzetek

Predlog projekta obravnava odkrivanje zakonitosti v kompleksnih scenarijih rudarjenja podatkov v znanostih o življenju. Z razvojem mikromrež in drugih naprednih tehnik molekularne biologije se soočamo z ogromnimi količinami podatkov v rangu tako imenovanih Velikih Podatkov (Big Data). Relevantne informacije so razpršene v različnih podatkovnih bazah v heterogenih formatih in so zato za biologe le težko uporabne. Za povečanje uporabnosti javno dostopnih resursov je potrebna integracija le-teh v enoten vir podatkov za podatkovno rudarjenje.  Namen predlaganega projekta je razvoj, implementacija, evalvacija in aplikacija nove metodologije za rudarjenje velikih heterogenih podatkov na področju znanosti o življenju. Motivacija za razvoj predlagane metodologije je dejstvo, da obstoječe metode odkrivanja znanja iz podatkov ne sledijo zahtevam analize ogromnih količin raznovrstnih podatkov s področja znanosti o življenju. Izboljšavo obstoječih pristopov bomo dosegli z razširitvijo in kombinacijo metod rudarjenja besedil, rudarjenja relacijskih podatkov ter zlivanja heterogenih podatkov. Da bi ocenili predlagano metodologijo bomo uporabili več testnih in realnih domen s področja znanosti o življenju z namenom, da bi zboljšali translacijske pristope v kmetijstvu z odkrivanjem novega znanja na področju rastlinske imunske signalizacije.

Projekt ima naslednje cilje:

1. Razvoj nove metodologije, ki bo omogočila zlivanje besedil in kompleksnega relacijskega predznanja s področja znanosti o življenju v obliko velikega heterogenega informacijskega omrežja. To bomo dosegli z razširitvijo naše metodologije za rudarjenje heterogenih informacijskih omrežij s kontekstualizacijo informacij o instancah glede na razpoložljivo semantično predznanje (domenske taksonomije in ontologije) ter prilagoditvijo metodologije na kompleksne scenarije znanosti o življenju.

2. Implementacija metodologije za rudarjenje heterogenih informacijskih omrežij v spletni platformi ClowdFlows ali TextFlows ter eksperimentalna evalvacija metodologije na prosto dostopnih testnih podatkovnih množicah, vključno z izbranimi medicinskimi domenami, za katere obstajajo javno dostopne baze heterogenih podatkov.

3. Aplikacija razvite metodologije na treh realnih primerih uporabe s področja znanosti o življenju: (i) meddomensko odkrivanje znanja iz dokumentov o dveh nepovezanih problemih s področja znanosti o življenju, z namenom odkrivanja še neznanih povezav med "statusom redoksa" in "signalizacije rastlinske obrambe", (ii) rudarjenje heterogenih eksperimentalnih podatkov v obliki časovnih vrst v domeni signalizacije rastlinske obrambe in (iii) opredelitev ključnih elementov v signalizaciji rastlinske obrambe za ugotavljanje izida bolezni.

Projekt bo prispeval k razvoju novih algoritmov za rudarjenje velikih heterogenih podatkov. Dostopnost razvite metodologije bomo zagotovili z implementacijo metodologije v enem od naših spletnih okolij za rudarjenje podatkov ClowdFlows ali TextFlows, kar bo omogočilo uporabo razvite tehnologije širšemu krogu raziskovalcev ter povečalo njeno relevantnost tudi za strokovnjake s področja znanosti o življenju. Raziskava bo potekala v tesnem sodelovanju strokovnjakov s področja podatkovnega rudarjenja z IJS in domenskih strokovnjakov z NIB.

Sestava projektne skupine - povezava na SICRIS.
Bibliografski podatki in ostali podatki o projektu - povezava na SICRIS