Tallinna Tehnikaülikool

Andmehaldusplaan

Andmehaldusplaan või DMP kirjeldab teadusandmete elutsüklit, plaan sisaldab üksikasju andmete kogumise, salvestamise, juurdepääsetavuse, jagamise ja reprodutseeritavuse kohta konkreetses projektis. Hea andmehaldusplaan tagab uurimistulemuste kättesaadavuse pärast projekti lõppemist ja tulemuste avaldamist, suurendades uurimistöö väärtust ja võimalikku taaskasutust teiste teadlaste poolt.

Lisaks vähendab teadusandmete halduse planeerimine andmekadu, rikkumist või muid ohte, mis võivad takistada andmete kasutust.
 

Andmehaldusplaani koostamine. Teadusuuringu kavandamise käigus on oluline läbi mõelda ja kirja panna, kuidas toimub andmete kogumine ja nendega töötamine uuringu vältel, kellel on ligipääs andmetele ja vastutus andmete eest, mis saab andmetest pärast projekti lõppemist jne. Selleks tuleb luua andmehaldusplaan ning edasise töö käigus seda järgida. Andmehaldusplaani koostamiseks on hea kasutada tööriista DMPONLINE Digital Curation UK.
 

I MILLIST TÜÜPI ANDMEID KOGUTE JA KUIDAS NEID KIRJELDATE

- kogun ise   
- (taas)kasutan oma varem kogutud andmeid 
- kasutan avalikke avaandmeid (Eesti avaandmete portaal)   
- (taas)kasutan teiste poolt kogutud andmeid, vt repositooriumide register Re3data   
- ostan andmed 

  • Mida tähele panna
    - kui taaskasutatakse või ostetakse andmeid, siis millist versiooni?   
    - mida tehakse, kui andmete autor laeb üles uue versiooni?   
    - säilita kasutatav versioon ja selle dokumentatsioon ka oma serveris 
    - kontrolli autoriõigusi, litsentse, piiranguid (ligipääs, taaskasutus)   
    - kontrolli andmete masinloetavust ja koostöövõimet planeeritava infosüsteemiga   

  • Kuidas andmeid kogutakse 
    - kas on olemas standardsed protseduurid ja meetodid, nimeta need  
    - kas on olemas andmestandardid   
    - kuidas tagatakse andmete kvaliteet (käideldavus, terviklus, konfidentsiaalsus)   
    - kuidas tegeldakse vigadega (sisestusvead, problemaatilised väärtused)  

  •  Andmekirjeldus
    - andmetüübid (eksperiment, vaatlusandmed, küsitlusandmed, audio-video jne)   
    - kuidas uued andmed integreeruvad juba olemasolevate andmetega   
    - millised andmed väärivad pikaajalist säilitamist   
    - kui mõnedele andmehulkadele rakendub autoriõigus või intellektuaalomandi õigus, näita, et sul on luba neid andmeid kasutada 

  II KUIDAS TE OMA ANDMEID SÄILITATE JA TURVATE

  •   Andmevormingud ja andmemaht 
    - nimeta kasutatavad andmevormingud ja põhjenda neid   
    - kasuta avatud vorminguid   
    - kasuta standardseid vorminguid   
    - kasuta masinloetavaid vorminguid   
    - uuri, kas vorming võimaldab automaatset metaandmete lisamist 
    - uuri, kas repositooriumid toetavad valitud vorminguid

    Soovitatavad andmevormingud    
    File Formats. Open Data Handbook  
    File Formats. Data Archiving and Networked Services

  •  Hinda andmemahtu projekti lõpus. Sellest sõltuvad paljud järgmised otsustused ja kulud andmehaldusele . 
    - säilitamine    
    - ligipääs    
    - varundamine   
    - andmevahetus   
    - riist- ja tarkvara   
    - tehniline tugi   

  • Andmete organiseerimine 
    - ole süstemaatiline ja järjepidev!   
    - failide nimetamine: lihtne, loogiline, lühenditeta või standardsete lühenditega (riigid, keeled, mõõtühikud, meetodid)    
    - lühendid läbivalt ühes keeles (kas mrt või mri?)   
    - failide organiseerimine (variandid: projekti nimi, aeg, koht, koguja, materjali tüüp, vorming, versioon)   
    - kaustade struktuur olgu hierarhiline, lihtne, loogiline, lühike   
    - failide kopeerimine mitmesse kohta ei ole hea, hoia ühes kohas, loo otseteed 
    - versioonihaldussüsteem git
    - pilvepõhine koodirepositoorium GitHub  
    - metaandmete lisamine (kes vastutab, millal lisatakse)  

    Artikkel: Data Organization in Spreadsheet  

  • Andmete dokumenteerimine 
    - Andmete dokumenteerimise juhend: 
    Siiri Fuchs, & Mari Elisa Kuusniemi. (2018, December 4). Making a research project understandable - Guide for data documentation (Version 1.2). Zenodo. DOI: http://doi.org/10.5281/zenodo.1914401  

    - README tekstifail esitatakse koos andmefailidega ja see peaks sisaldama nii palju infot andmefailide kohta, et teistel oleks võimalik andmeid mõista. Loo üks README.txt fail iga andmekogu kohta  - nimeta see alati kujul README.txt või README.md (Markdown), mitte LOEMIND,  readme, ABOUT jne   
    README.txt fail peaks kindlasti sisaldama järgmist infot:
    - andmekogu pealkiri   
    - andmekogu lühitutvustus (abstract)   
    - failide struktuur ja omavahelised seosed   
    - andmete kogumise meetodid   
    - kasutatud tarkvara (versioonid)   
    - kasutatud standardid   
    - spetsiifiline info andmete kohta (mõõtühikud, lühendite ja koodide selgitused jne)   
    - andmete taaskasutuse võimalused ja piirangud   
    - andmekogu üleslaadija kontaktandmed 
    README.txt faili loomise juhend   

  •  Metaandmed 
    - administratiivsed metaandmed projekti kohta (ID, rahastaja, PI, õigused ja litsentsid)   
    - tehnilised metaandmed (riist- ja tarkvara kohta, instrumendid, tööriistad, ligipääsuõigused)   
    - kirjeldavad metaandmed (autorid, pealkiri, lühikirjeldus, sisukirjeldus)   
    - DataCite Metaandmete raamistik (kohustuslikud, soovitavad, valikulised) DataCite Eesti konsortsiumi lehel  
    - metaandmete standardid on standardid selle kohta, milliseid välju oleks vaja täita  Directory of Metadata standards   
    - metaandmete kontrollitud sõnastikud ja klassifikatsioonid ütlevad, mida nendele väljadele kirjutada, kasutades standardset terminoloogiat. BARTOC (Basel Register of Thesauri, Ontologies & Classifications)   
      Näiteks:  
      Eesti märksõnastik 
      Agrovoc thesaurus 
      Mammal Species of the World    
      JACS education subject classifications   
      GeoNames    

III  KAS TEIL ON LUBATUD ANDA JUURDEPÄÄS OMA ANDMETELE PÄRAST PROJEKTI LÕPPU? KES PÄÄSEB NEILE JUURDE, MILLISTEL TINGIMUSTEL JA KUI KAUAKS?

  • Säilitamine, varundamine, ülekanne ja taaste    

    Eesmärk on säilitada andmete tehniline ja sisuline kvaliteet:  
    - käideldavus (kättesaadavus ja juurdepääsetavus)   
    - terviklus (õigsus, täielikkus ja ajakohasus)   
    - konfidentsiaalsus (kättesaadav ainult selleks volitatud isikutele või süsteemidele, võtmehaldus, logifailide säilitamine)   

    Säilitus: 
    - pilvekeskkonnad 
    - kesksed serverid 
    - tundlike andmete serverid 
    - arvuti kõvaketas 
    - väline kõvaketas 
    - mobiilsed seadmed   

    Varundamine: andmete ja/või programmide hetkeseisu koopia loomine, mis pärast turvaintsidenti võimaldab ennistamist selle teadaoleva hetkeseisuni   
    - kui sageli varundatakse, mitu koopiat, kas tööprotsess on automatiseeritud masterfaili säilitamine ja varundamine   
    - 3-2-1 reegel: kolm koopiat, hoitakse kahes erinevas kohas, millest üks asub kaugel   
    - kes vastutab varundamise eest, eriti mobiilsete seadmete puhul   

    Soovitav on riskianalüüs: mis saab siis kui....   
    - IT-süsteemid ei tööta   
    - juhtuvad elektrikatkestused, vee- ja tuleõnnetused   
    - seade kaob või varastatakse   
    - avastatakse kahjurvara seadmetes   
    - töögrupi liige lahkub jne   

    Riskide kaalutlemine (tõenäosus ja kahjud)   

    Riskide hindamine: ohud ja nende esinemise tõenäosus, nõrkused, meetmed   

    Infoturbe standard ISO/IEC 27001   

  • Ligipääs andmetele, infoturve 
    - ligipääsuõiguste haldamine (kas kõigil ühtmoodi, lepingupartnerite õigused, ajutise tööjõu õigused)   
    - logifailide säilitamine   
    - pseudonümiseerimine, krüpteerimine, võtmehaldus   
    - andmevahetus, isikuandmed, kolmandad riigid   
    - organisatoorne ja füüsiline turve: uue töötaja koolitus, lahkuva töötajaga võimalikud kaasnevad probleemid, töösisekorraeeskirjad, tuleohutus, uste lukustamine   
    - vastutajad 

  • Andmete säilitamine

    Pikaajaliseks säilitamiseks peavad andmed vastama FAIR nõuetele:

    Kuidas tehakse andmed leitavaks (F) 
    - andmetel on püsiidentifikaator DOI. Vaata DataCite Eesti   
    - metaandmed on DataCite registris   
    - standardsed metaandmeid nt Dublin Core   
    - masinloetavad metaandmed   
    - andmed ja nende metaandmed on eraldi failides, kuid lingitud   
    - võtmesõnad ja märksõnad   
    - versioonihaldus     

    Kuidas tehakse andmed juurdepääsetavaks (A) 
    - repositoorium, kus andmed säilitatakse   (vt teadusandmete repositooriumid)
    - millised andmed on avatud juurdepääsuga ehk avaandmed   
    - millised andmed jäävad suletuks ja mis põhjusel    
    - metaandmed peavad olema avatud ka juhul, kui andmed ei ole avatud (erandid nt haruldaste liikide asukohaandmed)   
    - tehnilised metaandmed: vajalik tarkvara (versioon), instrumentide spetsifikatsioonid, tarkvaratööriistad   
    - krüpteeritud andmed   
    - autentimine, kellelt küsida juurdepääsuõigusi   
    - kas on vaja luua kasutajakonto, mis seotakse teatavate tingimustega 

     Kuidas tehakse andmed koostöövõimelisteks teiste arvutisüsteemidega (I) 
    - peamiselt repositooriumi ülesanne  
    - milliseid andmete ja metaandmete standardeid, kontrollitud sõnastikke ja taksonoomiaid kasutatakse   
    - andmetüüpide ja andmevormingute kirjeldused: kui ei ole standardsed, kuidas tagatakse koostöövõime   
    - linkimine teiste andmete, metaandmete ja spetsifikatsioonidega   
    - korrektne viitamine kasutatud andmekogudele   
    - andmevahetusstandardid  

    Kuidas tagatakse andmete taaskasutatavus (R) 
    - osaliselt repositooriumi ülesanne   
    - kas tegemist on toorandmete, puhastatud andmete või töödeldud andmetega   
    - embargoperiood, põhjendus 
    - litsentsid: Creative Commons
    - viitamine: DataCite viitevormindaja   
    - standardsed metaandmed, milliseid (erialaseid) standardeid on kasutatud   
    - andmete päritolu tuvastamine (kes, kus, milleks kogus, kus on avaldatud)   
    - millist tarkvara versiooni on kasutatud   
    - kui kaua on tagatud andmete kättesaadavus taaskasutamiseks   
    - andmete kvaliteedi tagamine (käideldavus, terviklus, konfidentsiaalsus)   
    - soovitused, kellele võiks need andmed vajalikud olla (README.txt failis)   

  • Andmete jagamine 
    - kas andmed jagatakse repositooriumis või esitatakse täiendavate andmetena artikli juures või eraldi artiklina andmeajakirjas   Kas selline asi olemas?
    - millises repositooriumis andmeid säilitatakse 
    - kellele võiksid need andmed kasulikud olla   
    - kuidas jagad oma andmeid (kas on avaandmed või peab küsima, mis tingimusel saab)   
    - millal jagad (jooksvalt, pärast publikatsiooni ilmumist, embargo lõppemisel)   
    - kas andmed on lingitud publikatsiooniga
    - lingi andmed oma ORCID kontoga 

  • Juurdepääsupiirangud
    - millised andmed on avatud juurdepääsuga ehk avaandmed   
    - millised andmed jäävad suletuks ja mis põhjusel    
    - kas on krüpteeritud andmeid   
    - kuidas toimub autentimine   
    - andmete omaniku kontaktandmed   

  • Kes vastutab andmehalduse eest 
    - ametikohtade järgi   
    - juhtivteadur (PI): andmehalduse poliitika, andmehaldusplaani koostamine, lepingud, kulud, koolitused   
    - teadlased: andmehaldusplaani järgimine ja täiendamine, andmehaldus, probleemide püstitamine   
    - andmehaldur: koolitused, nõustamine, infoturve, säilitamine, varundamine, riist- ja tarkvara   
    - laborant, abipersonal vastavalt nendele antud ülesannetele   
    - töövoo järgi  
    - kes vastutab andmete kogumise, dokumenteerimise, metaandmestamise, infoturbe jne eest   

  • Planeeritavad kulud 
    - kulud on seotud peamiselt tööjõu, riist- ja tarkvaraga   
    - juhendid, koolitused, ümberõpe, juristi ja/või andmekaitsespetsialisti konsultatsioon, tõlketeenus   
    - andmete kogumine: andmete ost, salvestatud intervjuude transkribeerimine  jne. 
    - digiteerimine: riist- ja tarkvara, tööjõud   
    - tarkvaraarendus või tarkvara ost, kasutuslitsentsid   
    - riistvara: arvutid, serverid, instrumendid, välitööde seadmed   
    - andmeanalüüs: riist- ja tarkvara, sisseostetud teenused 
    - andmete säilitamine ja varundamine: prognoositav andmemaht, 3-2-1 reegel   
    - andmete pikaajaline säilitamine: ettevalmistamine jagamiseks (vormindamine), anonümiseerimine, säilitamine repositooriumis   
    - partnerite kohtumised, konverentsid   
    - projekti andmehaldur 
    - üldine seisukoht: 5% projekti eelarvest 
     

ANDMEHALDUSPLAANIDE NÄITED JA JUHENDID:

DMP Tuuli Public DMP templates  

Digital Curation UK Example DMPs and guidance    

Public Data Management Plans created with the DMPTool - RIO  

Digital Curation UK: Data Management Plans

Public DMPs: Royal Danish Library / Technical University of Denmark

Public DMPs: DMPTool

Allikas: Andmehaldusplaan Tartu Ülikool   
 

Küsi teadusandmete haldamise, säilitamise, andmehaldusplaani ja repositooriumi valiku teemadel

Janelle Kirss
Andmehalduse peabibliograaf
janelle.kirss@taltech.ee
620 3551

Eesti Teadusagentuuri andmehaldusplaan

Tutvu Eesti Teadusagentuuri soovitusliku andmehaldusplaani vormiga (docx). Vormi tõlge eesti keelde on leitav siit (docx).

Rokem infot ETAg kodulehel.

Horisont 2020 andmehaldusplaani koostamine

HORISONT 2020 andmehaldusplaani koostamine

Juba teadusprojekti kavandamisel peab teadlane arvestama uurimistöö käigus tekkivate andmete kogumise ja säilitamisega. Jätkusuutlik ja nõuetele vastav andmete haldamine projekti jooksul tagab andmete säilimise ka peale projekti lõppu.

Teadusandmete haldamist saab vaadelda etappide kaupa, seotuna teadusuuringu ja teadusandmete elutsüklitega:

Planeerimine – meetodite ja andmehalduse kavandamine, rahastaja ja publitseerija poolsete tingimustega tutvumine, andmekaitse nõuete ja intellektuaalomandi kaitsmisega arvestamine.

Kogumine – juba olemasolevate andmete ja mudelite kindlaksmääramine; andmete kogumine (küsitluse, intrvjuu, eksperimendi, simulatsiooni, vaatluse, mõõtmise jm teel), salvestamine, kirjeldamine, varustamine metaandmetega.

Töötlemine – andmete sisestamine, puhastamine; vajadusel digiteerimine, transkribeerimine, teisendamine, anonüümistamine jms tegevused; kontrollimine, väljavalimine; andmetöötlusmeetodite dokumenteerimine.

Analüüsimine – andmete üldistamine, võrdlemine, tõlgendamine uurimistöö käigus (vastavalt kvantitatiivsetele ja kvalitatiivsetele meetoditele); publikatsiooni valmimine, viitamine, andmete ettevalmistamine hoiustamiseks.

Pikaajaline säilitamine ja avalikustamine – andmete salvestamine eelistatud vormingus ja sobival andmekandjal; varundamine; andmete varustamine metaandmete ja dokumentatsiooniga, autoriõiguste ja kasutustingimustega, standardsete litsentsidega; jagamine teistele kasutajatele; arhiveerimine repositooriumis, arhiivis või andmekeskuses;

Taaskasutamine – järelkontrolli ja -uuringute tegemine; andmete kasutamine uutes uuringutes ja õppetöös.