Digitaalses maailmas kipub kehtima vaikimisi eeldus, et mida rohkem andmeid kogume ja talletame, seda parem. Tegelikkuses ei tähenda suur andmemaht aga tingimata paremat analüüsi, targemaid otsuseid ega tõhusamaid süsteeme. Vastupidi – läbimõtlemata andmekogumine võib muuta süsteemid keeruliseks, kalliks ja raskesti hallatavaks ning kasvatada ka nende keskkonnajalajälge. Arvutisüsteemide instituudi dotsent Kristina Vassiljeva selgitab, miks ei ole eesmärk maksimaalne andmemaht, vaid sisukas ja informatiivne andmestik, ning kuidas teha teadlikke otsuseid selle kohta, milliseid andmeid tasub talletada ja milliseid mitte.

Kuidas lähened andmemahu ja digiruumi haldamisele nii isiklikus töös kui ka süsteemide või lahenduste disainis?
Tegelen igapäevaselt süsteemide modelleerimise ja analüüsiga, kasutades masinõppe ja tehisintellekti meetodeid. Süsteemi modelleerimiseks on vaja piisavalt andmeid, et näha selle dünaamikat – ehk kuidas süsteem muutub erinevates olukordades. Kui andmed on liiga ühetaolised ja väärtused peaaegu ei muutu, siis me tegelikku käitumist ei õpi.
Samas ei ole rohkem andmeid alati parem. Närvivõrkude puhul võib liiga suur andmestik viia ületreenimiseni: sellisel juhul „õpib“ mudel ära konkreetse treeningandmestiku detailid, sealhulgas juhusliku müra. Tulemuseks on hea täpsus olemasolevatel andmetel, kuid halb üldistusvõime uute andmete korral.
Hea modelleerimine ei tähenda maksimaalset andmemahtu, vaid informatiivset andmestikku, mis katab süsteemi olulised töörežiimid ning toetab usaldusväärset üldistamist.
Mida oled võitnud sellest, et eelistad väiksemat andmemahtu ja läbimõeldud salvestamist?
Peamine võit on selgus. Väiksem andmemaht tähendab, et infot on lihtsam leida ja mõista. Kui faile ja andmeid on vähem, ei pea kulutama aega selleks, et sorteerida läbi kümneid versioone või otsida olulist infot suure hulga ebaolulise seest. See kiirendab otsustamist ja vähendab eksimisvõimalust.
„Tehniline võlg“ tähendab lihtsas keeles seda, et mida rohkem korrastamata ja läbimõtlemata andmeid koguneb, seda keerulisemaks muutub süsteem. Hiljem tuleb selle korrastamiseks kulutada rohkem aega ja raha. Väiksem ja läbimõeldud andmemaht hoiab süsteemid arusaadavamad ja hallatavamad.
Salvestamine ja varundamine ei ole tasuta – pilveruum, serverid ja hooldus maksavad. Mida rohkem andmeid, seda suuremad on kulud nii täna kui ka tulevikus.
Lisaks on igal andmel ka keskkonnamõju. Andmete salvestamine ja töötlemine toimub serverites, mis tarbivad elektrit ja vajavad jahutust. Seega iga talletatud ja töödeldud bait kasutab reaalselt ressursse – ka siis, kui me seda igapäevaselt ei märka.
Sageli õigustatakse andmete kuhjumist mõttega „äkki läheb kunagi vaja“. Kuidas sina otsustad, mida tasub talletada ja mida mitte?
Otsustamisel lähtun kolmest lihtsast küsimusest:
- Kas seda infot on päriselt vaja mõne konkreetse otsuse tegemiseks, analüüsi koostamiseks või aruande esitamiseks?
- Kui me seda praegu ei säilita, kas selle uuesti kogumine või loomine oleks hiljem keeruline ja ajamahukas? Eriti oluline on see modelleerimise ja prognooside puhul, sest prognoosid tehakse alati ajalooliste andmete põhjal. Kui vajalikku ajalugu ei ole talletatud, ei saa seda hiljem taastada.
- Kas seadus või leping kohustab seda infot alles hoidma?
Kui vastus kõigile kolmele küsimusele on „ei“, siis ei ole mõistlik andmestikku säilitada.
Pelgalt mõte „äkki läheb kunagi vaja“ ei ole piisav põhjus. Iga säilitatav info tähendab hiljem lisatööd, kulusid ja vastutust, seega peaks talletamisel olema selge ja põhjendatud eesmärk.
Mis on üks põhimõte või praktiline soovitus neile, kes lahendavad kasvavat andmemahtu lihtsalt pilveruumi juurde ostmisega?
Pilveruum ei ole strateegia, vaid tehniline vahend. Enne salvestusmahu suurendamist tasub läbi mõelda:
- milliseid andmeid on tegelikult vaja ja milleks,
- kui tihti neid on mõistlik koguda (kas iga sekund, minut või kord päevas),
- kui kaua neid päriselt säilitada tuleb,
- ning kas osa andmeid saab kohe töödelda ja talletada vaid kokkuvõtteid.
Sageli ei ole vaja säilitada kogu toorandmestikku, vaid piisab koondatud näitajatest, mis toetavad otsuseid ja analüüsi.
Eesmärk ei peaks olema võimalikult suur andmemaht, vaid selline andmestik, mis on sisukas, hallatav ja aitab teha paremaid otsuseid.
Mõõda enda eluviisi kestlikkust eluviisitestiga siin.
Kuidas anda oma panus keskkonnajalajälje vähendamisse, loe Tehnikaülikooli rohejuhisest ja Riigikantselei rohekäitumise tööriistakastist. Tutvu ka teiste roheliste eeskujudega!