Toimiiko kierrättäminen myös datataloudessa?

By Tue, December 3rd 2019

Kiertotalous, resurssiviisaus, vihreä teknologia ja hiilijalanjäljet ovat juuri nyt kaikkien työlistalla, julkisessa keskustelussa ja mediassa. Kallisarvoisten materiaalien uudelleenkäyttö, energiatehokkuuden optimointi, materiaalien alkuperä sekä yleensäkin resurssien uusiokäyttö ja sen kehittäminen alkaa olla mukana kaikkien arjessa, ja hyvä niin.

Siitäkin huolimatta, vaikka monet varmaankin vielä ajattelevat, ettei Suomen kokoisen maan tekemisillä ilmastomuutosta pysäytetä, niin eiköhän meidän tehtävä hyvinvointivaltiona ole näyttää esimerkkiä. Siinä samalla avautunee myös globaaleja liiketoimintamahdollisuuksia suomalaisille yrityksille.

Itse törmään omassa työssäni päivittäin edellä mainittujen asioiden ympärillä pyöriviin yrityksiin ja yhteisöihin. Olemme tiiviisti mukana lukuisissa projekteissa, joissa näitä kestävän kehityksen ongelmia pyritään ratkaisemaan uusilla teknologioilla sekä niitä käyttävillä menetelmillä, varsinkin datalla ja tekoälyllä.

Dataa syntyy koko ajan kiihtyvällä tahdilla ja sehän on kliseisesti se meidän “uusi öljy/sähkö/tms.” Itselleni on näyttäytynyt selkeäksi ongelmaksi se, miten datan keräämisessä, tallentamisessa ja siivoamisessa tehdään paljon työtä sillä alueella, missä arvoa syntyy varsin vähän. Yleisesti ottaen, tekoälyprojekteissa 80% tekoälyttäjän ajasta ja resursseista käytetään saatavilla olevan datan siivoamiseen, järjestämiseen ja laadulliseen varmistamiseen. Toinen selkeä ongelmakohta tiedon hyödyntämisessä ei olekaan ollut algoritmien kehittäminen vaan itse data. Hienoinkaan algoritmi ei korvaa puutteita datan käsittelyssä ja laadussa.

Tästä pääsemmekin datan uusiokäyttöön ja kierrättämiseen. Nyt kun sitä dataa on jalostettu ja saatu arvoa sen kaulimisen ja leipomisen tuloksena, niin miten voidaan varmistaa, että jo tehty jalostusarvo pystytään käyttämään uudestaan? Kuinka tällä jalostuneella datalla voidaan luoda lisää uusia arvonluontimahdollisuuksia sekä mahdollisesti myös monetisoida datan jalostamisessa tehty työ?

Datan keräämisen riskit ja haasteet

Isommassa kuvassa, varsinkin julkisen sektorin toiminnassa, pitäisi luoda yhteiset pelisäännöt ja arkkitehtuurit, jotka tukisivat datan säilyttämistä ja jalostamista eteenpäin. Tässä sitten törmäämmekin eri datojen omistajuuteen, yksityisyyden suojaan, GDPR:ään, tiedon elinkaaren ja muuhun datan, yksityisyyden suojan ja säännösten viidakkoon. Miten syntyneitä datasettejä voidaan käyttää turvallisesti ja tehokkaasti jatkossa, siten että lupien myöntämiset, prosessit ja työkalut ovat auditoitavissa ja tiedon elinkaari hallittavissa?

Kuinka esimerkiksi eri tutkimusprojektit voisivat helposti ja turvallisesti saada käyttöönsä kaikkien osapuolten dataa yhteisen hyödyn nimissä ilman monimutkaisia sopimuksia osapuolten kesken? Miten valmiiksi jalostettua dataa saisi jatkokäyttää ja kuinka saada läpinäkyvyyttä datan alkuperään ja sen käsittelyhistoriaan?

Edellä mainittujen asioiden hoitaminen lukuisilla eri tavoilla, riippuen kunkin datan käsittelijän ja tekoälyttäjän omista preferensseistä, hajauttaa osaamisen ja estää datan skaalautumisen, jolloin prosessit hankaloituvat ja tehokkuus kärsii.

Datan hyödyntämisen haasteet tutkimuksessa

Otetaan esimerkiksi tutkimusprojekti, jossa dataa tuodaan monesta eri lähteestä ja niitä yhdistämällä yritetään saada tekoälylle mietittävää. Osallistujina voi olla sekä julkisia ja yksityisiä organisaatioita, että yrityksiä. Kaikilla on hieman erilaiset tietoturvavaatimukset ja tiedon säilytettävyyteen liittyvät prosessit ja käytännöt. Näitä datoja siirrellään eri menetelmillä, pahimmillaan kiintolevyillä ja USB-tikuilla paikasta toiseen ja tutkijoilla saattaa maata arvokasta dataa oman työaseman levyllä tai jossain verkkolevyn kulmalla.

Ei ole olemassa yhteisiä työkaluja ja prosesseja, joilla datan käyttö, elinkaari ja vaatimuksenmukaisuus voitaisiin varmistaa tai todentaa. Siksi tuota dataa on erittäin riskialtista säilyttää, saatikka jakaa eteenpäin. Onko tuo datan siirtäminen edes tarpeellista? Eiköhän sekin jo riittäisi, että datan tarvitsijat saisivat näkyvyyden olemassa oleviin datasetteihin ja metadataan, josta sitten voidaan valita siirretäänkö jotain dataa vai ei.

Datan hallintaa tehokkaasti IBM CloudPak for Data-alustalla

IBM:n tarjoomassa on näitä edellä mainittuja haasteita ja asioita ratkaistu tuomalla kootusti yhteen työkalut ja valmis data-arkkitehtuuri niin sanottuun virtuaaliseen tietoaltaaseen. IBM Cloud Pak for Data, on alusta, jossa on kaikki tarvittavat työkalut ja prosessit tiedon saatavuuteen, hallinnointiin, luvitukseen, analysointiin ja elinkaareen. Sama alusta myös mahdollistaa läpinäkyvyyden alkuperäiseen datalähteeseen, työvälineet datan maskaamiseen ja anonymisointiin, jolloin sitä tarvittaessa pystyy myös julkaisemaan muille osapuolille. Tämä voidaan tehdä tietoturvallisesti ja myös siten, että voidaan tarvittaessa todentaa, kuka on päässyt käsiksi mihinkin datoihin ja milloin. Näin dataa voidaan jalostaa ja jakaa uusiokäytettäväksi eri ekosysteemeille ja siten saada myös data yliskaalautumaan – hyödyntää jo kerran jalostettu arvo kasvattamaan uutta arvoa. Näin syntyneet datasetit voidaan julkaista markkinapaikan kautta yrityksen tai organisaation käytettäviksi tai ne voidaan monetisoida myös ulkoisille tahoille. Lisäksi, samalla alustalla voidaan käyttää avoimen lähdekoodin hyväksi havaittuja työkaluja, viitekehyksiä ja menetelmiä itse datan käsittelyyn. Lisäksi tätä ratkaisua voi ajaa haluamassasi pilvessä (esim. Azure, AWS, Google, IBM), omasta konesalista tai hybridinä riippuen käsiteltävän datan vaatimuksista ja saavutettavuudesta.

Keskitetty ja hallittava virtuaalinen tietoallas mahdollistaa:

  • Datan saatavuuden eri lähteistä rajapintojen kautta ilman raskaita siirtoprosesseja.
  • Keskitetyn käyttäjähallinnan ja datasettien elinkaaren aikaisen auditoinnin ja läpinäkyvyyden.
  • Automaattisen vinouman tunnistamisen.
  • Parhaiden avoimen lähdekoodin työkalujen ja viitekehysten hyödyntämisen
  • Automaattisen metadatan, datakatalogin ja markkinapaikan luonnin.

IBM Cloud Pak for Data -alustaan voit tutustua tarkemmin täällä: Cloud Pak for Data

Resurssiviisaasti tuotettua dataa

Helpotetaan tekoälyttäjien työtä ja ollaan resurssiviisaita myös tämänkin kallisarvoisen ja helposti kierrätettävän raaka-aineen, datan, käsittelyssä. Hyödynnetään jo valmiita malleja ja työkaluja, joilla mahdollistetaan yhdessä, että tämä kallisarvoinen jalostettu raaka-aine tulee tehokkaasti uusiokäytettyä meidän kaikkien yhteiseksi hyväksi.

[autopilot_shortcode]