Yllä olevassa kaaviossa on joukko opetusdataa (opetusjoukko), jonka jokainen elementti kuuluu jompaankumpaan luokkaan (vihreä ja sininen). Opetusdatan lisäksi kaavioon on merkitty tähdellä kaksi testiesimerkkiä (testijoukko), jotka luokittimen on tarkoitus luokitella joko vihreään tai siniseen luokkaan.
Kumpikin testiesimerkki luokitellaan vihreään luokkaan, koska niiden lähin naapuri kuuluu vihreään luokkaan (ks. oikeanpuoleinen kaavio).
Esimerkkien sijoittelun kaaviossa on tarkoitus kuvata niitä jollakin tavalla. Koska ruudulla oleva kuva on kaksiulotteinen – eli mitä tahansa pistettä voi siirtää kahteen riippumattomaan suuntaan: ylös tai alas ja vasemmalle tai oikealle – jokaisen esimerkin ominaisuuksista voidaan esittää samalla kertaa vain kaksi. Voit kuvitella esimerkiksi potilaita vastaanotolla, jolloin nämä kaksi ominaisuutta voisivat olla vaikkapa ikä ja veren sokeriarvo. Kuvan esimerkki on kuitenkin vain havainnollistamista varten. Lähimmän naapurin käsite voidaan yleistää mihin tahansa lukumäärään erilaisia ominaisuuksia, vaikka 50-ulotteista kuvaa olisikin mahdotonta piirtää ruudulle.
Yksi tähän aiheeseen liittyvä mielenkiintoinen kysymys on se, mitä läheisyys (tai etäisyys) tarkoittaa. Yllä olevassa esimerkkikuvassa oletimme automaattisesti, että mittaamme etäisyyttä tavanomaisella geometrisella etäisyydellä (eli niin sanotulla euklidisella etäisyydellä). Tämä tarkoittaa yksinkertaisesti sitä, että jos ruudulle tai paperille on piirretty kaksi pistettä, niiden välinen etäisyys voidaan mitata virittämällä niiden väliin langanpätkä, kiristämällä se suoraksi ja mittaamalla pisteiden väliin jäävän langan pituus.
Huom.
Geometrisen etäisyyden käyttäminen lähimmän naapurin valintaan ei aina ole vaihtoehto. Esimerkit voivat olla esimerkiksi tekstinpätkiä, jolloin ei ole ollenkaan selvää, miten ne voisi esittää geometrisesti ja miten etäisyys pitäisi määritellä. Käytännössä etäisyysmittauksen keino valitaan aina tapauskohtaisesti.
MNIST-numerontunnistustehtävässä yksi tavanomainen ja helppo tapa mitata samankaltaisuutta on laskea pikselien osumista kohdakkain. Toisin sanoen kahden eri kuvan vasemman yläkulman pikseleitä verrataan keskenään, ja jos ne ovat samanväriset (harmaan sävy on suunnilleen yhtä tumma), lasketaan kuvat samankaltaisemmiksi kuin jos ne olisivat eriväriset. Samalla tavalla verrataan keskenään myös oikean alakulman pikseleitä sekä kaikkia muitakin pikseleitä aina pareittain. Samankaltaisuusarvot lasketaan lopuksi yhteen, jotta saadaan kokonaisten kuvien samankaltaisuutta kuvaava arvo. Tällainen vertailu on kuitenkin hyvin herkkä sille, jos kuvassa oleva numero on siirtynyt paikaltaan johonkin suuntaan. Ajattele esimerkiksi numeroa 1 ja mieti mitä tapahtuu, jos sitä siirretään muutaman pikselin verran sivulle. Tuloksena on kuva, joka näyttää meidän silmäämme täysin samalta kuin ennen, mutta pikseli pikseliltä -vertailussa kuva onkin hyvin erilainen, koska mustat pikselit eivät osu samoihin kohtiin. Onneksi MNIST-datajoukossa kuvat on keskitetty samaan kohtaan, joten tästä ei muodostu erityisen suurta ongelmaa. Toiset MNIST-kuvien numeroista ovat kuitenkin pystyssä ja toiset kallellaan sivulle, mikä hankaloittaa vertailua.
Tyypillinen esimerkki oikeasta lähimmän naapurin menetelmän käyttötapauksesta voisi olla vaikkapa käyttäjän valintojen ennustaminen tekoälysovelluksessa, joka suosittelee musiikkia tai verkkokaupan tuotteita.
Taustalla oleva havainto on kaikessa yksinkertaisuudessaan se, että käyttäjät, joiden aikaisemmat valinnat ovat samankaltaisia, tekevät yleensä jatkossakin samankaltaisia valintoja. Ajatellaan musiikkisovellusta, joka kerää dataa käyttäjien kuuntelutottumuksista. Kuvitellaan, että kuuntelet 1980-luvun diskomusiikkia: A-hata, Eurythmicsia, Duran Durania. Eräänä päivänä musiikkipalveluun lisätään 1980-luvun diskoklassikko, jonka löytäminen on ollut kiven takana. Järjestelmän pitäisi jotenkin osata suositella tätä kappaletta sinulle. Yksi tapa on hyödyntää tietoa genrestä (diskomusiikki), artistista ja muusta niin sanotusta metadatasta, jonka musiikkipalvelun työntekijät syöttävät tietokantaan. Tämä informaatio on kuitenkin usein melko epätarkkaa ja sen avulla tehtävät suositukset tuskin riittäisivät kovin hyviin suosituksiin.
Keino, jota nykyisin käytössä olevat suoratoistopalvelut käyttävät metadatan asemesta tai sen lisäksi, on niin sanottu yhteistoiminnallinen suodatus (engl. collaborative filtering). Yhteistoiminnallisuus ilmenee siinä, että järjestelmä hyödyntää muiden käyttäjien valintoja ennustaessaan sinun valintojasi. Suodatus tai filtteröinti viittaa siihen, että nähtäväksesi tarjotaan sisältöjä, jotka ovat läpäisseet suodattimen, eli sisältöjä, joita sinun voidaan odottaa suosivan valitessasi seuraavaa kappaletta. (Kuten osassa 1 jo mainittiin, tällaiset suodattimet voivat helposti johtaa niin sanottuihin filtterikupliin. Palaamme vielä tähän aiheeseen hiukan myöhemmin.)
Palataan vielä edellä mainittuun 1980-luvun diskoklassikkoon, joka on vastikään lisätty musiikkipalveluun. Muut käyttäjät, joilla on enemmän tai vähemmän samanlainen musiikkimaku kuin sinulla, ovat ehkä huomanneet uuden kappaleen selaamalla tietyn artistin kappaleita. Jos kappale on heidän mielestään aivan loistava, he ovat tietenkin kuunnelleet sitä ahkerasti. Tämän seurauksena järjestelmä ennustaa, että kaltaisesi käyttäjät todennäköisesti pitävät kappaleesta ja se pongahtaa saamiesi suositusten kärkisijoille. Vaihtoehtoisessa todellisuudessa kappale saattaakin olla vähemmän loistava eivätkä muut käyttäjät juuri kuuntele sitä alkutahteja pidemmälle. Tässä tilanteessa järjestelmä ei turhaan suosittele kappaletta sinulle ainakaan kovin usein.
Seuraava tehtävä havainnollistaa tätä ajatusta yksityiskohtaisemmin.
Edellisessä tehtävässä meillä oli vain kuuden muun asiakkaan ostostiedot, ja siksi ennusteemme siitä, mitä Travis haluaisi ostaa, on luultavasti melko epäluotettava. Oikeasti suurilla verkkokaupoilla on helposti miljoonia asiakkaita ja datan määrä on valtava. Useimmiten samankaltaisia asiakkaita löytyy tietokannasta läjäpäin, joten seuraavan ostoksen ennakoimiseen on runsaasti informaatiota.
Suositukset ovat toki myös osittain itsensä täyttäviä ennusteita, koska ostat luultavammin suosituslistan kärjessä olevan tuotteen kuin sellaisen, jonka löytäminen valikoimasta edellyttää paljon vaivannäköä. Siksi suositusalgoritmien toimivuuden arvioinnissa on oltava tarkkana. Samantyyppisiä algoritmeja sovelletaan ostosten ja musiikin lisäksi myös elokuvien, uutisten ja sosiaalisen median sisältöjen suositteluun. Etenkin uutisten ja sosiaalisen median suositukset voivat johtaa haitallisiin filtterikupliin.