Itseoppiva tiedon luettelointi – jatkokertomus datakatalogeista

By Wed, July 17th 2019

Tämä on jatkokertomus datakatalogien kehitysnäkymistä. Kuinka niiden avulla voidaan tehostaa ja automatisoida tiedon hallinnointia ja analysointia tekoälyn kehittämistä tukien? Mitkä ovat kehitystyössä huomioonotettavat avainasiat? Lue aiemmin julkaistu artikkeli täältä

Johdanto

Ensimmäisessä datakatalogi-blogissani kirjoitin kevennykseksi tulevaisuuden yrityksestä vuonna 2044. Sen liiketoiminnan ohjaus oli ulkoistettu tekoälylle, joka kysyi johtoryhmän neuvoa vain vaikeissa päätöksissä. Autonomisesti johdettuihin yrityksiin on pitkä matka, mutta mikä on vaadittava pohjatyö? Miten nykyiset datakatalogit auttavat kehittämään yritysten digitaalista transformaatiota ja tekoälyratkaisuja?

Tekoälyn kilpavarustelu

Autot, lentokoneet ja laivat kulkevat pian itsestään. Vaikeinta on kehittää täysi automaatio, joka selviää myös poikkeuksellisissa liikennetilanteissa ja olosuhteissa. Samoin on liiketoiminnassa. Erotuksena kulkuneuvojen kapeaan tekoälyyn liike-elämässä tarvittaisiin monesti yleistä, laaja-alaista älyä, sillä yritysten päätöksenteko on olennaisesti haastavampaa kuin auton ohjaus. Vaikeutta lisää markkinoiden jatkuva muutos.

Tekoälyn hyödyntäminen asettaa uusia kehityshaasteita yrityksille. Aidosti globaaleilla markkinoilla palkkio ensimmäiseksi ehtineelle on valtava. Avainhenkilöiden osaamiselle asetetaan yhä kovempia vaatimuksia. Ennen riitti, että hallitsi oman ydinalueensa suvereenisti. Nyt täytyy hallita myös tekoälyn kehitystä tukevia moderneja työkaluja ja datan käytön periaatteita.

Uusia työkaluja ovat muun muassa kognitiivinen tietojenkäsittely, koneoppiminen ja itseoppivat neuroverkot. Ne näyttävät suuntaa miten tietotekniikan avulla kehitetään yhä monipuolisempia kapeaa tekoälyää hyödyntäviä ratkaisuja yleisen tekoälyn läpimurtoa odotellessa. Uusille ratkaisuille on myös yhteistä pohjaton ruokahalu datan suhteen. Mikä tahansa tieto ei kelpaa. Sen tulee olla korkealaatuista ja helposti käyttäjien saatavilla. Datan valmistelua ja käyttöä voi lähestyä teknisestä tai intuitiivisesta näkökulmasta.

Tekninen lähestyminen korostaa luokittelua, hallinnointia, yhteisiä käsitteitä ja laadunhallintaa. Intuitiivisuus tarkoittaa tässä yhteydessä, että käyttäjien on helppo hyödyntää erityisesti uutta dataa.

Insinööri mallintaa yrityksen

Insinööri näkee markkinat sääntöihin perustuvana ympäristönä, jossa liiketoiminta voidaan mallintaa tarkasti. Myös kauppatieteilijöiden opetuksen tukena käytettävät yrityspelit ovat osoittaneet, että liiketoimintaa voidaan tarkastella sääntöohjattuna maailmana. Vertailussa shakkipeliin liiketoiminnan ohjaus (pelaaminen) täydennettynä optimoinnilla (paras siirto) vastaa tuotantoresurssien käytön suunnittelua annetuissa rajoissa. Tällä periaatteella shakinpelaaja – kone tai ihminen – laskee erilaisia vaihtoehtoja ja niiden seurauksia nykytilanteesta eteenpäin.

Sääntöpohjaisessa maailmassa paras mallintaja ja organisoija voittaa. Tämä edellyttää ymmärrystä paitsi yrityksen prosesseista ja kilpailueduista myös asiakkaiden ja kilpailijoiden käyttäytymisestä.

Tiedon hallinnointi on kaiken lähtökohta. Ideaalitilanteessa datan käsittelyn tietomallit heijastavat täydellisesti yrityksen ja sen toimialan tarpeita. Liiketoiminnan sanasto määrittelee yksiselitteisesti avaintermit. Sen avulla datan tekninen hallinta kytketään liiketoiminnan käsitteisiin. Kun käyttäjä hakee tietoa termillä yksityisasiakas, hän näkee paitsi liiketoiminnallisen määrityksen myös tekniset tiedot sen takana. Näitä ovat mistä termin jalostettu versio löytyy (esimerkiksi tietovarasto), sen koostamiseen käytetyt alkuperäiset tietolähteet, sekä sen, miten dataa on muokattu matkalla. Kerran järjestetty tieto on myös helppo pitää kunnossa kunhan laadunhallinnan prosessit on suunniteltu ja otettu käyttöön.

Mallinnettu ja standardoitu maailma on mainio pelikenttä kapeaa tekoälyä edustaville ratkaisuille. Tekoälylle voidaan antaa ohjeet opetella ja optimoida esimerkiksi suoramarkkinointi tai kuljetuslogistiikka, kun yrityksen liiketoiminnan säännöt ja käytettävissä oleva data tunnetaan.

 

Tekoäly hyödyntää yrityksen organisoitua dataa

 

Pelimäisen viitekehyksen käyttö keskittyy tarkasti rajattuihin toimintoihin. Uusien ideoiden ja datan hyödyntäminen vaatii ihmisen osallistumista kehitystyöhön.

Taiteilija luottaa intuitioon

Taiteilijaluonne ei usko tekniikan voimaan monimutkaisen ympäristön hahmottamisessa. Hän haluaa tarkastella markkinoita ilman sääntelyä ja etukäteisrajauksia. Tämä tarkoittaisi shakissa, että  enemmän investoimalla voisi ostaa kilpailijoita pois (yritysostot), lisätä shakkinappuloiden määrää (tuotantopanokset), saada nappulat liikkumaan kilpailijoita paremmin (kehitys ja innovointi), tehdä protesteja vastustajien pelitavasta (patenttihaasteet), palkata parempia pelaajia omaan joukkueeseen jne. Kilpailukenttään voisi tulla myös uusia yrittäjiä, jotka haastavat perinteisen tavan pelata shakkia kuten Uber ja Airbnb ovat tehneet omilla markkinoillaan (kuljetus ja majoitus).

Taiteilijan maailmassa käytettävissä oleva data elää, uusia tietolähteitä löytyy jatkuvasti ja vain taivas on tekoälyn hyödyntämisen kattona. Tällöin myös datakatalogityökalujen täytyy mukautua jatkuvaan muutokseen.

Intuitiivinen lähestyminen ilman datan organisointia johtaa yksipuoliseen ratkaisuun. Yrityksen omat tietovarannot ovat pahimmillaan tiedon etsijälle kuin tietojärjestelmäspagetti, josta insinöörikään ei ota selvää (kuva alla).

 

Klassinen tietojärjestelmäspagetti

Mahdollisuus datan luovaan käyttöön on erittäin haastavaa kapean tekoälyn näkökulmasta. Se voi kuitenkin koneoppimisen avulla tutkia miten käyttäjät hakevat ja hyödyntävät dataa, ja antaa sen perusteella suosituksia. Tämän lisäksi käyttäjiltä voidaan kysellä suosituksia tietolähteiden toimivuudesta.

Monipuolinen datakatalogi on osa kokonaisuutta

Ihanteellinen ratkaisu yhdistää optimoidun sääntömaailman taiteilijamaiseen luovuuteen. Uusia tietolähteitä voidaan etsiä ja hyödyntää kehityksen tueksi ilman rajoituksia. Voittava kehitystiimi koostuu ihmisestä ja oppivasta tekoälystä. Avoimen lähdekoodin periaate tuo lisäksi globaalin yhteisön kehitysvoiman yrityksessä tehtävän työn tueksi.

IBM:n kokonaisratkaisussa insinöörin ja taiteilijan näkökulmat yhdistyvät avoimen koodin yhteisöjä hyödyntäen.

Datakatalogin suunnittelussa on hyvä tarkastella seuraavia asioita:

  1. Helppo ja monipuolinen hakutyökalu, joka osaa hakea sekä avainsanojen että sisällön perusteella.
  2. Yrityksen hierarkkista liiketoimintaa kuvaavan sanaston hallinta, johon on integroitu teknisen metadatan tietohakemisto. Automaattinen metadatan luonti perustuen esimerkiksi koneoppimiseen. Tiedon läpinäkyvyys lisää käyttäjien luottamusta tiedon oikeellisuuten ja tukee GDPR-auditointiprosessia.
  3. Datan laadunhallinta kattaen tietolähteiden analysoinnin, datan puhdistamisen, monitoroinnin ja elinkaaren hallinnan sekä tiedon luokittelun ja validoinnin käyttäjän toimesta.
  4. Erilaisten tietolähteiden käsittely. Perinteisen relaatiomallisen ja muun rakenteellisen datan lisäksi tarvitaan liittymät uusiin tietolähteisiin (some, IoT, dokumentit jne.). Kuvantunnistus osana tietovarantojen hyödyntämistä ja luokittelua.
  5. Tiedon integrointiratkaisut: ETL (Extract, Transform ja Load) ja datan virtualisointi.
  6. Alustariippumattomuus. Ratkaisun tulee toimia sekä yritysten omissa että yleisissä pilviympäristöissä.
  7. Näytetään käyttäjälle automaattisesti vain hänelle sallittu tieto. Työprosesseihin ja -projekteihin integroidut käyttöoikeudet.
  8. Tuki avoimen metadatan rajapinnoille. Mahdollisuus siirtää datakatalogilla valmisteltuja otoksia avoimen lähdekoodin analytiikkatyökaluihin.
  9. Käytön opastus. Järjestelmä tutkii automaattisesti, miten käyttäjä hakee ja hyödyntää dataa ja tekee myöhemmin suosituksia sen perusteella (Netflix). Ratkaisu pyytää käyttäjältä suosituksia (käyttäjien antamat arvostelut) käytetyn datan hyödyllisyydestä.
  10. Ydintiedon hallinta (MDM) esimerkiksi referenssidatan avulla.

Lopuksi

Datakatalogit helpottavat olennaisesti tekoälyn kehitystä. Parhaimmillaan ne opastavat käyttäjän oikean ja vain hänelle sallitun tiedon äärelle riippumatta löytyykö data yrityksen omista järjestelmistä vai ulkoisista tietolähteistä.

Lisätietoa:

IBM Watson Knowledge Catalog:
https://www.ibm.com/cloud/watson-knowledge-catalog
https://ibm-dte.mybluemix.net/watson-knowledge-catalog

[autopilot_shortcode]