{"componentChunkName":"component---src-templates-section-template-js","path":"/ee/4/1","result":{"data":{"markdown":{"htmlAst":{"type":"root","children":[{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"lead","properties":{},"children":[{"type":"text","value":"Aruteludes masinõppe kasutuse vajalikkusest on sageli klassikaliseks näiteks käsitsi kirjutatud numbrid. Meiegi ei tee siinkohal erandit."}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Allpool näete käsitsi kirjutatud numbrite näiteid, mis on võetud väga sageli kasutatavast MNIST andmestikust."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"illustrations","properties":{"motive":"mnist"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Iga pildi kohal on õige tähis (mis numbrit kirjutaja kirjutama pidi). Pange tähele, et mõned neist „õigetest“ klassitähistest on küsitavad: vaadake näiteks vasakult teist pilti: kas see on tõesti 7 või on see tegelikult 4?"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"MNIST – mis see on?","description":"Iga masinõppe õppur tunneb MNIST andmestikku. Vähesemad teavad, mida see akronüüm tähendab. Tegelikult pidime meiegi selle järele vaatama, selgitamaks, et M tähendab Modified (muudetud) ja NIST tähendab National Institute of Standards and Technology (Rahvuslik Standardite ja Tehnoloogia Instituut). Nüüd teate te tõenäoliselt midagi, mida keskmine masinõppe asjatundja ei tea!"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Kõige tavalisemates masinõppe ülesannetes on korraga õige täpselt üks klassiväärtus. See kehtib ka MNIST’i puhul, kuigi nagu me ütlesime, on sageli õiget vastust raske ära tunda. Sellist tüüpi ülesande puhul ei ole võimalik, et näide kuulub korraga mitmesse klassi (või mitte ühessegi). Me tahaksime saavutada AI meetodeid, millele saab anda pildi, nagu eelnevates näidetes, ning mis „väljastaks“ välja õige tähise (arvu 0 ja 9 vahel)."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Kuidas seda ülesannet mitte lahendada","description":"Põhimõtteliselt saaks automaatse numbrituvastaja luua ka käsitsi, kasutades näiteks selliseid reegleid:\n    <ul>\n    <li>kui mustad pikslid esinevad peamiselt ühe silmuse kujuliselt, siis on tähis 0 </li>\n    <li>kui mustad pikslid moodustavad kaks lõikuvat silmust, siis on tähis 8 </li>\n    <li>kui mustad pikslid asuvad peamiselt sirgel vertikaalsel joonel joonise keskel, siis on tähis 1</li>\n    </ul>\n    ja nii edasi...<br><br>\nPeamiselt niimoodi töötati AI meetodeid välja 1980-ndatel (niinimetatud „ekspertsüsteemid“). Ometi, isegi nii lihtsa ülesande jaoks nagu numbri tuvastamine on selliste reeglite kirjutamine väga töömahukas. Tegelikult poleks eelneva näite reeglid programmeerimises rakendamiseks piisavalt üksikasjalikud – me peaksime täpselt defineerima, mida sõnade all täpselt mõeldakse: „peamiselt“, „silmus“, „joon“, „keskel“, jne.\nJa isegi kui me kogu selle töö ära teeks, oleks tulemuseks tõenäoliselt halb AI meetod, sest nagu te näete, on käsitsi kirjutatud numbrid sageli nii-ja-naa ning iga reegel vajaks tosinat erandit.\n"},"children":[{"type":"text","value":"\n"}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Masinõppe kolm liiki"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Masinõppe juured peituvad statistikas, mida saab käsitleda ka kui "},{"type":"element","tagName":"b","properties":{},"children":[{"type":"text","value":"andmetest teadmiste ammutamise"}]},{"type":"text","value":" kunsti. Isegi tänapäeval on masinõppes kesksel kohal eriti sellised meetodid, nagu lineaarne regressioon ja Bayesi statistika, mis on mõlemad juba üle kahe sajandi vanad (!). Veel näiteid ja lühiajaloo leiate masinõppe ajajoone lingilt ("},{"type":"element","tagName":"a","properties":{"href":"https://en.wikipedia.org/wiki/Timeline_of_machine_learning","target":"_blank","rel":["noopener","noreferrer"]},"children":[{"type":"text","value":"Wikipedia: timeline of machine learning"}]},{"type":"text","value":")."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Masinõppe valdkond jagatakse sageli alavaldkondadeks vastavalt sellele, milliste ülesannete kallale asutakse. Laias laastus on liigitus järgmine:"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"Juhendatud õpe"}]},{"type":"text","value":": meile antakse mingi sisend, näiteks liiklusmärgiga foto, ja meie ülesanne on ennustada õige väljund või tähis, näiteks missugune liiklusmärk on pildil (kiiruspiirang, stoppmärk jne). Lihtsaimatel juhtudel on vastused kahendvalik kujul (neid nimetatakse "},{"type":"element","tagName":"i","properties":{},"children":[{"type":"text","value":"binaarse klassifikatsiooni ülesanneteks"}]},{"type":"text","value":")."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"Juhendamata õpe"}]},{"type":"text","value":": puuduvad tähised ja õiged väljundid. Ülesandeks on leida andmete struktuur: näiteks sarnaste objektide grupeerimine, et moodustada klastrid, või andmete taandamine väikesele arvule olulistele mõõtmetele. Ka andmete visualiseerimist võib pidada juhendamata õppeks."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"Stiimulõpe"}]},{"type":"text","value":": tavaliselt kasutusel sellistes olukordades, kus AI agent, näiteks isejuhtiv auto, peab tegutsema mingis keskkonnas, kus tagasiside heade ja halbade valikute kohta saadakse viivitusega. Stiimulõpet kasutatakse ka mängudes, milles tulemus otsustatakse alles mängu lõpus."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Need kategooriad on mingil määral kattuvad ja hägused. Seega on mingit teatud meetodit vahel raske ühte kategooriasse liigitada. Näiteks, nagu nimigi vihjab, on niinimetatud "},{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"osaliselt juhendatud õpe"}]},{"type":"text","value":" osaliselt juhendatud ja osaliselt juhendamata."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Klassifitseerimine","description":"Mis puutub masinõppesse, siis keskendume eelkõige juhendatud õppele ja eriti klassifitseerimisülesannetele. Klassifitseerimises vaatleme mingit sisendit, nagu näiteks fotot liiklusmärgist, ja püüame tuletada selle „klassi“, näiteks liiklusmärgi tüübi (kiiruspiirang 80 km/h, ülekäigurada, stoppmärk jne). Klassifitseerimisülesannete näideteks on veel Twitteri libakontode identifitseerimine (sisendiks on jälgijate nimekiri ja mil määral nad seda kontot jälgivad ning klassiks on kas libakonto või päris konto) ja käsitsi kirjutatud numbrite tuvastamine (sisendiks on pilt, klassiks 0,...,9)."},"children":[{"type":"text","value":"\n  "}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"illustrations","properties":{"motive":"supervised-learning"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Inimesed õpetavad masinaid: juhendatud õpe"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Selle asemel, et panna käsitsi kirja reeglid klassifitseerimiseks, seisneb juhendatud masinõpe teatud arvu näidete võtmises, igaühele õige tähise panemises ning nende kasutamises AI meetodi treenimisel automaatselt ära tundma õigeid tähiseid nii treeningnäidetel kui ka (vähemalt loodetavalt) mistahes teistel piltidel. Selleks on muidugi vajalik õigete tähiste olemasolu, mistõttu me räägimegi juhendatud õppest. Kasutaja, kes annab õiged tähised, on juhendaja, kes juhatab õppiva algoritmi õigete vastusteni, nii et lõpuks suudab algoritm neid iseseisvalt anda. "}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Lisaks õppimisele, kuidas ennustada õiget tähist klassifitseerimisülesandes, on võimalik juhendatud õpet kasutada ka olukordades, kus ennustatavaks tulemuseks on arv. Selle näideteks on: Google’i reklaamil klõpsavate inimeste arvu ennustamine, mis põhineb reklaami sisul ja kasutaja varasema veebikäitumise andmetel; liiklusõnnetuste arvu ennustamine teeolude ja kiiruspiirangu põhjal; või kinnisvara müügihinna ennustamine selle kinnisvara asukoha, suuruse ja seisukorra põhjal. Neid ülesandeid nimetatakse  "},{"type":"element","tagName":"i","properties":{},"children":[{"type":"text","value":"regressiooniks"}]},{"type":"text","value":". Te tunnete tõenäoliselt ära termini "},{"type":"element","tagName":"i","properties":{},"children":[{"type":"text","value":"lineaarne regressioon"}]},{"type":"text","value":", mis on regressiooni klassikaline ja senini väga populaarne meetod."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Näide","description":"Oletame, et meil on andmestik, mis koosneb korterite müügiandmetest. Iga ostu puhul on meil olemas ilmselt makstud hind koos korteri suurusega ruutmeetrites (või ruutjalgades, kui soovite), magamistubade arvuga, valmimisaastaga ja seisukorraga (skaalal „õudus“ kuni „tip-top“). Me saame kasutada masinõpet, et treenida regressioonimudelit, mis ennustab nende omaduste põhjal müügihinda. Vaata <a target='_blank' rel='noopener noreferrer' href='http://kannattaakokauppa.fi/#/en/'>reaalmaailma näidet siin</a>."},"children":[{"type":"text","value":"\n  "}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"illustrations","properties":{"motive":"price-real-estate","color":"#85a0ff","frombottom":"4%","totalheight":"81%"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Hoiatus: ettevaatust selle masinõppe algoritmiga"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"On paar võimalikku viga, millest soovime teid teavitada. On tõsi, et masinõppe meetodite rakendamisel tuleb olla ettevaatlik. Vastasel juhul võite muutuda liiga enesekindlaks oma ennustuste õigsuse suhtes ning rängalt pettuda, kui need osutuvad oodatust viletsamaks."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Esimene asi, mida tuleks suurte vigade vältimiseks meeles pidada, on jaotada oma andmestik kaheks osaks: "},{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"treeningandmed"}]},{"type":"text","value":" ja "},{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"testandmed"}]},{"type":"text","value":". Alguses treenime algoritmi ainult treeningandmeid kasutades. See annab meile mudeli või reegli, mis ennustab väljundit sisendmuutujate põhjal."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Et hinnata, kui hästi me tegelikult väljundeid ennustame, ei saa me jääda lootma treeningandmetele. Kuigi mudel võib olla treeningandmetes väga hea ennustaja, ei ole mingit tõestust, et see suudab end "},{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"üldistada"}]},{"type":"text","value":" mistahes teistele andmetele. Siinkohal tulevad kasuks testandmed: me saame rakendada treenitud mudelit ennustamaks väljundeid testandmetele ning võrrelda ennustusi tegelike väljunditega (näiteks korterite müügihinnad tulevikus)."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Liiga sobiv, et olla tõsi! Ülesobitamise häire","description":"On väga oluline silmas pidada, et masinõppe abil tehtud ennustuse täpsus võib olla küllaltki erinev treeningandmetes ja eraldi testandmetes. See on niinimetatud ülesobitamise fenomen ja palju masinõppe alal tehtavat teadust on keskendunud selle vältimisele ühel või teisel viisil. Intuitiivselt tähendab  <b>ülesobitamine</b> püüdu olla liiga tark. Ennustades tuntud artisti uue laulu edu, võite vaadata selle artisti varasemate laulude edukuse andmeid ja mõelda välja sellise reegli nagu „kui see laul on armastusest ja sisaldab meeldejäävat refrääni, jõuab see top-20-sse“. Aga võib-olla on kaks meeldejäävate refräänidega armastuslaulu, mis top-20-sse ei jõudnud ja seetõttu otsustate reeglit selle täiustamiseks jätkata fraasiga „väljaarvatud juhul, kui mainitakse Rootsit või joogat“. Selle tulemusel võib teie reegel sobida perfektselt varasemate andmetega, kuid võib osutuda <b>halvemaks tuleviku testandmetele</b>.<br><br>Masinõppe meetodid on ülesobitamisele eriti vastuvõtlikud, sest nad võivad proovida tohutut hulka erinevaid “reegleid” enne, kui leitakse üks, mis treeningandmetega perfektselt sobib. Iseäranis väga paindlikud ja peaaegu andmete igasugusele mustrile kohanduvad meetodid võivad ülesobituda, kui andmete hulk pole hiigelsuur. Näiteks, võrreldes lineaarse regressiooni teel saadud üsna piiratud lineaarsete mudelitega, võivad närvivõrgud vajada väga suurt andmete hulka, enne kui nad teevad usaldusväärseid ennustusi."},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Üks andmeteadlase olulisematest oskustest on õppida ülesobitamist vältima ja valima mudelit, mis poleks liiga piiratud ega liiga paindlik."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Õpetajata õppimine: juhendamata õpe"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Eelpool käsitlesime juhendatud õpet, milles on õiged vastused olemas, ning masinõppe algoritmi ülesanne on leida mudel, mis neid sisendandmete põhjal ennustaks."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Juhendamata õppes õigeid vastuseid ei anta. See muudab olukorda märgatavalt, sest me ei saa luua mudelit, sobitades seda õigete vastustega treeningandmetes. See muudab ka tõhususe hindamise keerukamaks, kuna ei ole võimalik kontrollida, kas õppinud mudel töötab hästi või mitte."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Tüüpilised juhendamata masinõppe meetodid püüavad õppida mingit „struktuuri“, mis on andmete aluseks. See võib näiteks tähendada visualiseerimist, milles sarnased objektid on paigutatud üksteise lähedusse ja erinevad objektid üksteisest kaugemale. Veel võib see tähendada klasterdamist seal, kus me kasutame andmeid selliste elementide rühmade või „klastrite“ tuvastamiseks, mis on üksteisega sarnased, aga erinevad andmetest teistes klastrites."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Näide","description":"Konkreetne näide on toidupoeketid, mis koguvad andmeid oma klientide ostlemiskäitumise kohta (selleks teil ongi kõik need kliendikaardid). Et oma kliente paremini mõista, võib pood need andmed visualiseerida, kasutades graafikut, milles iga klienti tähistab punkt ning samu tooteid ostvad kliendid paigutatakse üksteisele lähemale kui kliendid, kes ostavad erinevaid tooteid. Või siis jällegi võib kauplus rakendada klasterdamist, et saada kliendirühmade kogum, näiteks „väikse eelarvega tervisetoidu entusiastid“, „jõukad kalasõbrad“, „mullivesi ja pitsa 6 päeva nädalas“ jne. Pange tähele, et masinõppe meetod ainult rühmitab kliendid klastritesse, kuid ei tekita automaatselt klastritähiseid („kalasõbrad“ jne.). See jääb kasutaja ülesandeks."},"children":[{"type":"text","value":"\n  "}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Veel üht juhendamata masinõppe näidet võib nimetada "},{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"generatiivseks modelleerimiseks"}]},{"type":"text","value":". See on osutunud viimastel aastatel eriti oluliseks, kuna generatiivseteks võistlusvõrkeks (GAN) nimetatud sügavõppe meetod on kiiresti arenenud. Kui talle anda mõned andmed, näiteks inimeste nägudega fotod, suudab generatiivne mudel tekitada veel samasuguseid, ehtsamana näivaid, kuid tehislikke inimnägude pilte."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Veidi hiljem kursuse jooksul pöördume generatiivsete võistlusvõrgustike juurde tagasi ja uurime, millist tähendust omab võimalus luua kõrgkvaliteetset kunstlikku pildisisu. Järgmiseks aga vaatleme lähemalt juhendatud õpet ja käsitleme üksikasjalikumalt mõningaid spetsiifilisi meetodeid."}]}],"data":{"quirksMode":false}},"frontmatter":{"path":"/ee/4/1","title":"Masinõppe liigid","section":1,"part":4,"lang":"ee"}},"allRelatedSections":{"totalCount":3,"edges":[{"node":{"htmlAst":{"type":"root","children":[{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"lead","properties":{},"children":[{"type":"text","value":"Aruteludes masinõppe kasutuse vajalikkusest on sageli klassikaliseks näiteks käsitsi kirjutatud numbrid. Meiegi ei tee siinkohal erandit."}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Allpool näete käsitsi kirjutatud numbrite näiteid, mis on võetud väga sageli kasutatavast MNIST andmestikust."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"illustrations","properties":{"motive":"mnist"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Iga pildi kohal on õige tähis (mis numbrit kirjutaja kirjutama pidi). Pange tähele, et mõned neist „õigetest“ klassitähistest on küsitavad: vaadake näiteks vasakult teist pilti: kas see on tõesti 7 või on see tegelikult 4?"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"MNIST – mis see on?","description":"Iga masinõppe õppur tunneb MNIST andmestikku. Vähesemad teavad, mida see akronüüm tähendab. Tegelikult pidime meiegi selle järele vaatama, selgitamaks, et M tähendab Modified (muudetud) ja NIST tähendab National Institute of Standards and Technology (Rahvuslik Standardite ja Tehnoloogia Instituut). Nüüd teate te tõenäoliselt midagi, mida keskmine masinõppe asjatundja ei tea!"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Kõige tavalisemates masinõppe ülesannetes on korraga õige täpselt üks klassiväärtus. See kehtib ka MNIST’i puhul, kuigi nagu me ütlesime, on sageli õiget vastust raske ära tunda. Sellist tüüpi ülesande puhul ei ole võimalik, et näide kuulub korraga mitmesse klassi (või mitte ühessegi). Me tahaksime saavutada AI meetodeid, millele saab anda pildi, nagu eelnevates näidetes, ning mis „väljastaks“ välja õige tähise (arvu 0 ja 9 vahel)."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Kuidas seda ülesannet mitte lahendada","description":"Põhimõtteliselt saaks automaatse numbrituvastaja luua ka käsitsi, kasutades näiteks selliseid reegleid:\n    <ul>\n    <li>kui mustad pikslid esinevad peamiselt ühe silmuse kujuliselt, siis on tähis 0 </li>\n    <li>kui mustad pikslid moodustavad kaks lõikuvat silmust, siis on tähis 8 </li>\n    <li>kui mustad pikslid asuvad peamiselt sirgel vertikaalsel joonel joonise keskel, siis on tähis 1</li>\n    </ul>\n    ja nii edasi...<br><br>\nPeamiselt niimoodi töötati AI meetodeid välja 1980-ndatel (niinimetatud „ekspertsüsteemid“). Ometi, isegi nii lihtsa ülesande jaoks nagu numbri tuvastamine on selliste reeglite kirjutamine väga töömahukas. Tegelikult poleks eelneva näite reeglid programmeerimises rakendamiseks piisavalt üksikasjalikud – me peaksime täpselt defineerima, mida sõnade all täpselt mõeldakse: „peamiselt“, „silmus“, „joon“, „keskel“, jne.\nJa isegi kui me kogu selle töö ära teeks, oleks tulemuseks tõenäoliselt halb AI meetod, sest nagu te näete, on käsitsi kirjutatud numbrid sageli nii-ja-naa ning iga reegel vajaks tosinat erandit.\n"},"children":[{"type":"text","value":"\n"}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Masinõppe kolm liiki"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Masinõppe juured peituvad statistikas, mida saab käsitleda ka kui "},{"type":"element","tagName":"b","properties":{},"children":[{"type":"text","value":"andmetest teadmiste ammutamise"}]},{"type":"text","value":" kunsti. Isegi tänapäeval on masinõppes kesksel kohal eriti sellised meetodid, nagu lineaarne regressioon ja Bayesi statistika, mis on mõlemad juba üle kahe sajandi vanad (!). Veel näiteid ja lühiajaloo leiate masinõppe ajajoone lingilt ("},{"type":"element","tagName":"a","properties":{"href":"https://en.wikipedia.org/wiki/Timeline_of_machine_learning","target":"_blank","rel":["noopener","noreferrer"]},"children":[{"type":"text","value":"Wikipedia: timeline of machine learning"}]},{"type":"text","value":")."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Masinõppe valdkond jagatakse sageli alavaldkondadeks vastavalt sellele, milliste ülesannete kallale asutakse. Laias laastus on liigitus järgmine:"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"Juhendatud õpe"}]},{"type":"text","value":": meile antakse mingi sisend, näiteks liiklusmärgiga foto, ja meie ülesanne on ennustada õige väljund või tähis, näiteks missugune liiklusmärk on pildil (kiiruspiirang, stoppmärk jne). Lihtsaimatel juhtudel on vastused kahendvalik kujul (neid nimetatakse "},{"type":"element","tagName":"i","properties":{},"children":[{"type":"text","value":"binaarse klassifikatsiooni ülesanneteks"}]},{"type":"text","value":")."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"Juhendamata õpe"}]},{"type":"text","value":": puuduvad tähised ja õiged väljundid. Ülesandeks on leida andmete struktuur: näiteks sarnaste objektide grupeerimine, et moodustada klastrid, või andmete taandamine väikesele arvule olulistele mõõtmetele. Ka andmete visualiseerimist võib pidada juhendamata õppeks."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"Stiimulõpe"}]},{"type":"text","value":": tavaliselt kasutusel sellistes olukordades, kus AI agent, näiteks isejuhtiv auto, peab tegutsema mingis keskkonnas, kus tagasiside heade ja halbade valikute kohta saadakse viivitusega. Stiimulõpet kasutatakse ka mängudes, milles tulemus otsustatakse alles mängu lõpus."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Need kategooriad on mingil määral kattuvad ja hägused. Seega on mingit teatud meetodit vahel raske ühte kategooriasse liigitada. Näiteks, nagu nimigi vihjab, on niinimetatud "},{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"osaliselt juhendatud õpe"}]},{"type":"text","value":" osaliselt juhendatud ja osaliselt juhendamata."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Klassifitseerimine","description":"Mis puutub masinõppesse, siis keskendume eelkõige juhendatud õppele ja eriti klassifitseerimisülesannetele. Klassifitseerimises vaatleme mingit sisendit, nagu näiteks fotot liiklusmärgist, ja püüame tuletada selle „klassi“, näiteks liiklusmärgi tüübi (kiiruspiirang 80 km/h, ülekäigurada, stoppmärk jne). Klassifitseerimisülesannete näideteks on veel Twitteri libakontode identifitseerimine (sisendiks on jälgijate nimekiri ja mil määral nad seda kontot jälgivad ning klassiks on kas libakonto või päris konto) ja käsitsi kirjutatud numbrite tuvastamine (sisendiks on pilt, klassiks 0,...,9)."},"children":[{"type":"text","value":"\n  "}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"illustrations","properties":{"motive":"supervised-learning"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Inimesed õpetavad masinaid: juhendatud õpe"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Selle asemel, et panna käsitsi kirja reeglid klassifitseerimiseks, seisneb juhendatud masinõpe teatud arvu näidete võtmises, igaühele õige tähise panemises ning nende kasutamises AI meetodi treenimisel automaatselt ära tundma õigeid tähiseid nii treeningnäidetel kui ka (vähemalt loodetavalt) mistahes teistel piltidel. Selleks on muidugi vajalik õigete tähiste olemasolu, mistõttu me räägimegi juhendatud õppest. Kasutaja, kes annab õiged tähised, on juhendaja, kes juhatab õppiva algoritmi õigete vastusteni, nii et lõpuks suudab algoritm neid iseseisvalt anda. "}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Lisaks õppimisele, kuidas ennustada õiget tähist klassifitseerimisülesandes, on võimalik juhendatud õpet kasutada ka olukordades, kus ennustatavaks tulemuseks on arv. Selle näideteks on: Google’i reklaamil klõpsavate inimeste arvu ennustamine, mis põhineb reklaami sisul ja kasutaja varasema veebikäitumise andmetel; liiklusõnnetuste arvu ennustamine teeolude ja kiiruspiirangu põhjal; või kinnisvara müügihinna ennustamine selle kinnisvara asukoha, suuruse ja seisukorra põhjal. Neid ülesandeid nimetatakse  "},{"type":"element","tagName":"i","properties":{},"children":[{"type":"text","value":"regressiooniks"}]},{"type":"text","value":". Te tunnete tõenäoliselt ära termini "},{"type":"element","tagName":"i","properties":{},"children":[{"type":"text","value":"lineaarne regressioon"}]},{"type":"text","value":", mis on regressiooni klassikaline ja senini väga populaarne meetod."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Näide","description":"Oletame, et meil on andmestik, mis koosneb korterite müügiandmetest. Iga ostu puhul on meil olemas ilmselt makstud hind koos korteri suurusega ruutmeetrites (või ruutjalgades, kui soovite), magamistubade arvuga, valmimisaastaga ja seisukorraga (skaalal „õudus“ kuni „tip-top“). Me saame kasutada masinõpet, et treenida regressioonimudelit, mis ennustab nende omaduste põhjal müügihinda. Vaata <a target='_blank' rel='noopener noreferrer' href='http://kannattaakokauppa.fi/#/en/'>reaalmaailma näidet siin</a>."},"children":[{"type":"text","value":"\n  "}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"illustrations","properties":{"motive":"price-real-estate","color":"#85a0ff","frombottom":"4%","totalheight":"81%"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Hoiatus: ettevaatust selle masinõppe algoritmiga"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"On paar võimalikku viga, millest soovime teid teavitada. On tõsi, et masinõppe meetodite rakendamisel tuleb olla ettevaatlik. Vastasel juhul võite muutuda liiga enesekindlaks oma ennustuste õigsuse suhtes ning rängalt pettuda, kui need osutuvad oodatust viletsamaks."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Esimene asi, mida tuleks suurte vigade vältimiseks meeles pidada, on jaotada oma andmestik kaheks osaks: "},{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"treeningandmed"}]},{"type":"text","value":" ja "},{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"testandmed"}]},{"type":"text","value":". Alguses treenime algoritmi ainult treeningandmeid kasutades. See annab meile mudeli või reegli, mis ennustab väljundit sisendmuutujate põhjal."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Et hinnata, kui hästi me tegelikult väljundeid ennustame, ei saa me jääda lootma treeningandmetele. Kuigi mudel võib olla treeningandmetes väga hea ennustaja, ei ole mingit tõestust, et see suudab end "},{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"üldistada"}]},{"type":"text","value":" mistahes teistele andmetele. Siinkohal tulevad kasuks testandmed: me saame rakendada treenitud mudelit ennustamaks väljundeid testandmetele ning võrrelda ennustusi tegelike väljunditega (näiteks korterite müügihinnad tulevikus)."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Liiga sobiv, et olla tõsi! Ülesobitamise häire","description":"On väga oluline silmas pidada, et masinõppe abil tehtud ennustuse täpsus võib olla küllaltki erinev treeningandmetes ja eraldi testandmetes. See on niinimetatud ülesobitamise fenomen ja palju masinõppe alal tehtavat teadust on keskendunud selle vältimisele ühel või teisel viisil. Intuitiivselt tähendab  <b>ülesobitamine</b> püüdu olla liiga tark. Ennustades tuntud artisti uue laulu edu, võite vaadata selle artisti varasemate laulude edukuse andmeid ja mõelda välja sellise reegli nagu „kui see laul on armastusest ja sisaldab meeldejäävat refrääni, jõuab see top-20-sse“. Aga võib-olla on kaks meeldejäävate refräänidega armastuslaulu, mis top-20-sse ei jõudnud ja seetõttu otsustate reeglit selle täiustamiseks jätkata fraasiga „väljaarvatud juhul, kui mainitakse Rootsit või joogat“. Selle tulemusel võib teie reegel sobida perfektselt varasemate andmetega, kuid võib osutuda <b>halvemaks tuleviku testandmetele</b>.<br><br>Masinõppe meetodid on ülesobitamisele eriti vastuvõtlikud, sest nad võivad proovida tohutut hulka erinevaid “reegleid” enne, kui leitakse üks, mis treeningandmetega perfektselt sobib. Iseäranis väga paindlikud ja peaaegu andmete igasugusele mustrile kohanduvad meetodid võivad ülesobituda, kui andmete hulk pole hiigelsuur. Näiteks, võrreldes lineaarse regressiooni teel saadud üsna piiratud lineaarsete mudelitega, võivad närvivõrgud vajada väga suurt andmete hulka, enne kui nad teevad usaldusväärseid ennustusi."},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Üks andmeteadlase olulisematest oskustest on õppida ülesobitamist vältima ja valima mudelit, mis poleks liiga piiratud ega liiga paindlik."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Õpetajata õppimine: juhendamata õpe"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Eelpool käsitlesime juhendatud õpet, milles on õiged vastused olemas, ning masinõppe algoritmi ülesanne on leida mudel, mis neid sisendandmete põhjal ennustaks."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Juhendamata õppes õigeid vastuseid ei anta. See muudab olukorda märgatavalt, sest me ei saa luua mudelit, sobitades seda õigete vastustega treeningandmetes. See muudab ka tõhususe hindamise keerukamaks, kuna ei ole võimalik kontrollida, kas õppinud mudel töötab hästi või mitte."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Tüüpilised juhendamata masinõppe meetodid püüavad õppida mingit „struktuuri“, mis on andmete aluseks. See võib näiteks tähendada visualiseerimist, milles sarnased objektid on paigutatud üksteise lähedusse ja erinevad objektid üksteisest kaugemale. Veel võib see tähendada klasterdamist seal, kus me kasutame andmeid selliste elementide rühmade või „klastrite“ tuvastamiseks, mis on üksteisega sarnased, aga erinevad andmetest teistes klastrites."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Näide","description":"Konkreetne näide on toidupoeketid, mis koguvad andmeid oma klientide ostlemiskäitumise kohta (selleks teil ongi kõik need kliendikaardid). Et oma kliente paremini mõista, võib pood need andmed visualiseerida, kasutades graafikut, milles iga klienti tähistab punkt ning samu tooteid ostvad kliendid paigutatakse üksteisele lähemale kui kliendid, kes ostavad erinevaid tooteid. Või siis jällegi võib kauplus rakendada klasterdamist, et saada kliendirühmade kogum, näiteks „väikse eelarvega tervisetoidu entusiastid“, „jõukad kalasõbrad“, „mullivesi ja pitsa 6 päeva nädalas“ jne. Pange tähele, et masinõppe meetod ainult rühmitab kliendid klastritesse, kuid ei tekita automaatselt klastritähiseid („kalasõbrad“ jne.). See jääb kasutaja ülesandeks."},"children":[{"type":"text","value":"\n  "}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Veel üht juhendamata masinõppe näidet võib nimetada "},{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"generatiivseks modelleerimiseks"}]},{"type":"text","value":". See on osutunud viimastel aastatel eriti oluliseks, kuna generatiivseteks võistlusvõrkeks (GAN) nimetatud sügavõppe meetod on kiiresti arenenud. Kui talle anda mõned andmed, näiteks inimeste nägudega fotod, suudab generatiivne mudel tekitada veel samasuguseid, ehtsamana näivaid, kuid tehislikke inimnägude pilte."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Veidi hiljem kursuse jooksul pöördume generatiivsete võistlusvõrgustike juurde tagasi ja uurime, millist tähendust omab võimalus luua kõrgkvaliteetset kunstlikku pildisisu. Järgmiseks aga vaatleme lähemalt juhendatud õpet ja käsitleme üksikasjalikumalt mõningaid spetsiifilisi meetodeid."}]}],"data":{"quirksMode":false}},"excerpt":"Allpool näete käsitsi kirjutatud numbrite näiteid, mis on võetud väga sageli kasutatavast MNIST andmestikust. Iga pildi kohal on õige tähis…","frontmatter":{"path":"/ee/4/1","title":"Masinõppe liigid","part":4,"type":"section","lang":"ee","section":1}}},{"node":{"htmlAst":{"type":"root","children":[{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"lead","properties":{},"children":[{"type":"text","value":"Lähima naabri klassifikaator kuulub lihtsaimate võimalike klassifikaatorite hulka. Kui talle antakse objekt klassifitseerimiseks, leiab ta uuele objektile kõige sarnasema treeningandmete objekti ning väljastab sellele tähise. Näite selle kohta leiate järgnevalt diagrammilt."}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"illustrations","properties":{"motive":"nearest-neighbor-graph-ee"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Ülaltoodud diagrammil on näha kogumik treeningandmeid, millest mõned kuuluvad ühte klassi (rohelised) ja teised teise klassi (sinised). Lisaks on seal kaks testandmete objekti, tähekesed, mida me hakkame lähima naabri klassifikaatorit kasutades klassifitseerima."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Mõlemad testobjektid on klassifitseeritud „rohelisse“ klassi kuuluvateks, sest nende mõlemad lähimad naabrid on rohelised (vaata diagrammi (b) ülal)."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Punktide asukoht joonisel esitab mingil määral selle objekti omadusi. Kuna me joonistame diagrammi ühetasasele kahe-mõõtmelisele pinnale – te saate liikuda kahes erinevas suunas: üles-alla või vasakule-paremale – on objektidel kaks omadust, mida saame võrdlemisel kasutada. Kujutage ette näiteks kliiniku patsientide kirjeldamist nende vanuse ja veresuhkru taseme osas. Samas tuleks ülaltoodud diagrammi võtta kui lihtsalt visuaalset vahendit üldise mõtte selgitamiseks, st. klassiväärtuste seostamisel sarnasuse või lähedusega. Mingil juhul ei ole üldine mõte piiratud kahe mõõtmega ja lähima naabri klassifikaatorit saab lihtsalt rakendada objektide puhul, mida iseloomustab kahest palju enam omadusi. "}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Mida me mõtleme lähima all?"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Üks huvitav lähima naabri klassifikaatoriga seotud küsimus on (muuhulgas) elementide vahelise kauguse või sarnasuse definitsioon. Ülaloleval illustratsioonil me eeldasime vaikimisi, et kasutatakse standardset geomeetrilist kaugust, tehnilise nimega eukleidilist kaugust. See tähendab lihtsalt seda, et kui punktid joonistada paberile (või kuvada ekraanile), saate mõõta kauguse mistahes kahe objekti vahel, tõmmates nende vahele niidijupi ja mõõtes selle pikkuse."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"„Lähima“ defineerimine","description":"Geomeetrilise kauguse kasutamine lähima objekti määramiseks ei tarvitse alati olla mõistlik või isegi võimalik: sisendiks võib olla näiteks tekst, mille puhul ei ole selge, kuidas objektid geomeetriliselt joonistuvad ja kuidas tuleks kaugusi mõõta. Seepärast peaksite valima kauguse mõõdiku iga juhtumi puhul eraldi."},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"MNIST numbrituvastuse juhtumi puhul on üheks tavaliseks pildi sarnasuse mõõtmise viisiks loendada pikslite kattuvust. Teisisõnu, võrdleme omavahel kahe pildi piksleid ülal vasakus nurgas ja mida sarnasemat värvi (halli varjundit) nad on, seda sarnasemad need kaks pilti on. Samuti võrdleme mõlema pildi piksleid all paremas nurgas ning kõiki piksleid nende vahel. See meetod on küllaltki tundlik piltide kuju või mõõtmete muutmise suhtes: kui võtame pildi numbrist „1“ ja nihutame seda kasvõi natukenegi vasakule või paremale, on tulemuseks kaks väga erinevat pilti (enne ja pärast nihet), kuna mustad pikslid on neil kahel pildil erinevates kohtades. Õnneks on MNIST andmeid eeltöödeldud piltide tsentreerimisega, nii et see probleem peaks olema leevendatud."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"illustrations","properties":{"motive":"recommendation-ee","color":"#ebe9ef","frombottom":"0","totalheight":"50%"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Lähimate naabrite kasutamine kasutaja käitumise ennustamisel"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Tüüpiline näide lähima naabri meetodi rakendusest on kasutaja käitumise ennustamine sellistes AI rakendustes nagu soovitussüsteemid."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Kasutatakse väga lihtsat põhimõtet, mille kohaselt sarnase varasema käitumisega kasutajad kipuvad käituma ka tulevikus sarnaselt. Kujutage ette muusikasoovituse süsteemi, mis kogub andmeid kasutajate kuulamiskäitumise kohta. Ütleme näiteks, et olete kuulanud 1980-ndate diskomuusikat (lihtsalt teoreetiliselt). Ühel päeval saab teenusepakkuja kätte raskesti leitava 1980. aasta diskoklassika ning lisab selle muusikakogusse. Süsteem peab nüüd ennustama, kas see teile meeldiks või mitte. Üks viis seda teha on kasutada teenusepakkuja tublide töötajate poolt sisestatud infot žanri, artisti ja teiste metaandmete kohta. Samas on selline info suhteliselt kasin ja üldine ning võimaldab ainult umbkaudset ennustamist."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Käsitsi sisestatud metaandmete asemel aga kasutavad kaasaegsed soovitussüsteemid midagi, mida nimetatakse kollektiivseks filtreerimiseks. Selle koostööaspekt seisneb selles, et ta kasutab teiste kasutajate andmeid teie eelistuste ennustamiseks. Sõna „filter“ viitab faktile, et teile soovitatakse vaid filtri läbinud sisu: filtri läbib sisu, mis teile tõenäoliselt meeldib, muu sisu filtrit ei läbi (sellised filtrid võivad viia niinimetatud filtrimullideni, mida mainisime 1. peatükis. Pöördume nende juurde hiljem tagasi)."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Nüüd aga oletame, et teistele varem 80-ndate diskomuusikat nautinud kasutajatele uus lugu meeldib ja nad kuulavad seda ikka uuesti ja uuesti. Süsteem tuvastab teie ja teiste 80-ndate diskofännide sarnase varasema käitumise ja kuna teistele teie-sarnastele kasutajatele uus lugu meeldib, ennustab süsteem, et teile hakkab ka meeldima. Seetõttu ilmub see teie soovitusnimekirja etteotsa. Teisel juhul võib lisatud laul mitte nii hea olla ja teiega sarnase varasema käitumisega kasutajatele see tegelikult ei meeldi. Sellisel juhul ei vaevu süsteem seda teile soovitama või vähemalt ei ole see teie soovitusnimekirjas esikohal."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Järgnev ülesanne selgitab seda mõtet."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"quiz","properties":{"quizid":"6fb9b7cf-471c-45ca-b3fd-392214260eeb"},"children":[{"type":"text","value":"\n"}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"illustrations","properties":{"motive":"nearest-neighbor-ee","color":"#ebe9ef","frombottom":"24.7%","totalheight":"63%"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Eelnevas näites olid meil ainult kuue kasutaja andmed ja meie ennustus ei olnud tõenäoliselt väga usaldusväärne. Samas on e-poodide veebisaitidel sageli miljoneid kasutajaid ning neilt saadav andmehulk on tohutu. Paljudel juhtudel on terve hord kasutajaid, kelle varasem käitumine on teie omaga väga sarnane ning kelle ostuajalugu annab päris hea ettekujutuse teie huvidest."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Need ennustused võivad olla ka isetäituvad ettekuulutused - ehkki süsteemi poolt soovitatud tooteid ostavad kasutajad suurema tõenäosusega, on keeruline hinnata, kui hästi need tooted kasutajatele tegelikult sobivad. Sama tüüpi soovitussüsteeme kasutatakse ka muusika, filmide, uudiste ja sotsiaalmeedia sisu soovitamisel kasutajatele. Uudiste ja sotsiaalmeedia kontekstis võivad selliste süsteemide poolt loodud filtrid viia filtrimullideni."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"quiz","properties":{"quizid":"6fe584bc-4738-43d7-aaa9-39387a1bec71","peerreviewid":"776cbd6c-4c02-4dfb-902c-3d12005dff7b"},"children":[{"type":"text","value":"\n"}]},{"type":"text","value":"\n"}]}],"data":{"quirksMode":false}},"excerpt":"Ülaltoodud diagrammil on näha kogumik treeningandmeid, millest mõned kuuluvad ühte klassi (rohelised) ja teised teise klassi (sinised…","frontmatter":{"path":"/ee/4/2","title":"Lähima naabri klassifikaator","part":4,"type":"section","lang":"ee","section":2}}},{"node":{"htmlAst":{"type":"root","children":[{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"lead","properties":{},"children":[{"type":"text","value":"Selles osas on meie peamiseks õpieesmärgiks lineaarne regressioon: veel üks tore näide juhendatud õppe meetoditest ning peaaegu sama lihtne kui lähima naabri klassifikaatorgi. Tutvustame ka selle lähisugulast logistilist regressiooni.\n"}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Klassifitseerimise ja regressiooni vaheline erinevus","description":"On olemas väike, kuid oluline erinevus ennustuste vahel, mida peame tegema erinevates situatsioonides. Samal ajal, kui näiteks lähima naabri klassifikaator valib iga objekti jaoks talle antud alternatiivide (näiteks rämpspost/soovitav sõnum või 0, 1, 2,..., 9) hulgast klassitähise, teeb lineaarne regressioon arvulise ennustuse, mis ei pea olema täisarv (täisarv vastandina näiteks 3,14-le). Seega on lineaarne regressioon sobilikum olukordades, kus väljundmuutuja võib olla mistahes arv, näiteks tootehind, kaugus takistuseni, järgmise Tähtede sõja filmi piletikassa tulu jne. "},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Peamine eesmärk lineaarses regressioonis on summeerida kõigi tunnusmuutujate mõju ennustatud väärtuse saamiseks. Tehniline termin selle liitmisprotsessi kohta on "},{"type":"element","tagName":"i","properties":{},"children":[{"type":"text","value":"lineaarne kombinatsioon"}]},{"type":"text","value":". Selle põhimõte on väga selge ning seda on võimalik näitlikustada, kasutades ostuarvet."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Mõeldes lineaarsest regressioonist kui ostuarvest","description":"Oletagem, et lähete toidupoodi ja ostate 2,5 kg kartuleid, 1,0 kg porgandeid ja kaks pakki piima. Kui kartulihind on 2€/kg, porgandihind 4€/kg ja pakk piima maksab 3€, on kassapidaja poolt arvutatud summa 2,5 x 2€ + 1,0 x 4€ + 2 x 3€ = 15€. Lineaarses regressioonis on kartulite, porgandite ja piima kogus sisendid andmetes. Väljund on teie ostude maksumus, mis sõltub nii ostetud toote hinnast kui kogusest."},"children":[{"type":"text","value":"\n  "}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Sõna lineaarne tähendab, et väljundväärtuse suurenemine ühe sisendi suurenedes mingi kindla koguse võrra on alati sama. Teiste sõnadega, alati kui te lisate näiteks kaks kilo porgandeid, suureneb arve 8€ võrra. Kui te lisate veel kaks kilo, suureneb arve veel 8€ võrra ja kui te lisate sellest poole, suureneb arve täpselt poole võrra ehk 4€."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"key-terminology","properties":{"terminologies":"[\n      {\"title\":\"Koefitsiendid või kaalud\",\"content\":\"Lineaarse regressiooni terminoloogias nimetatakse erinevate toodete hindu koefitsientideks või kaaludeks (see võib näida segadust tekitavana, kuna me mõõtsime kartulite ja porgandite kogust kaaluga, aga ärge laske ennast sellest eksiteele viia). Üks lineaarse regressiooni peamisi eeliseid on selle kerge tõlgendatavus: leitud kaalud võivad osutuda huvitavamaks kui ennustatud väljundid.<br><br>Näiteks lineaarse regressiooni kasutamisel eluea ennustamiseks on suitsetamise kaal (sigaretti päevas) miinus umbes pool aastat, mis tähendab, et suitsetades ühe sigareti päevas viite end lõpule pool aastat lähemale. Samamoodi, köögiviljade tarbimine (peotäis köögivilju päevas) omab kaalu pluss üks aasta, seega süües iga päev peotäie rohelist, saate keskmiselt ühe aasta juurde.\"}\n  ]"},"children":[{"type":"text","value":"\n"}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"quiz","properties":{"quizid":"6f621df6-46e4-49b1-86a6-38f5483a53df"},"children":[{"type":"text","value":"\n"}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Eelnevas ülesandes oli arvutuse lähtepunktiks mittesuitsetavate, juurikavaenulike naiste eeldatav eluiga 80 aastat. Lähtepunkti tehniline termin on "},{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"lähtekonstant"}]},{"type":"text","value":". Me tuleme selle juurde tagasi, kui käsitleme, kuidas saada andmetest lineaarse regressiooni mudeleid. "}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Lineaarse regressiooni leidmine"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Eelpool käsitlesime, kuidas teha ennustusi lineaarsest regressioonist, kui nii kaalud kui sisendtunnused on teada. Niisiis meile antakse sisend ja kaal ning me jõuame eeldatava lõpptulemuseni."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Kui meile antakse terve hulga objektide sisendid ja väljundid, saame leida kaalud nii, et ennustatud väljund vastab nii hästi kui võimalik tegelikule väljundile. Sellist ülesannet lahendab masinõpe."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Näide","description":"Jätkates ostuanaloogiaga võime oletada, et meile on antud teatud hulga ostukorvide sisud ja neist igaühe kohta arve kogusumma ning et meil palutakse välja selgitada iga toote (kartulid, porgandid jne) hind. Ostukorvist, mis sisaldab näiteks 1 kg veisefileed, 2 kg porgandeid ja pudeli Chianti’t, isegi teades et arve kogusumma on 35€, ei saa me hindu määrata, sest paljud hindade kogumid annavad kokku sama arve kogusumma. Paljude ostukorvide olemasolul aga saame selle ülesande tavaliselt lahendatud."},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Siiski muudab ülesande raskemaks fakt, et reaalmaailmas ei määra sisend alati täielikult tegelikku väljundit. See on tingitud erinevatest teguritest, mis toovad protsessi määramatuse või „müra“. Võite mõelda ostlemise peale turul, kus iga toote hinnad võivad aeg-ajalt kõikuda või restoranist, kus teie kogukulu sisaldab muutuvat jootrahasummat. Sellistes olukordades saame me hindu küll arvutada, aga ainult piiratud täpsusega."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Kaalude leidmine, mis optimeeriks treeningandmetes ennustatavate väljundite vastavuse tegelikele, on klassikaline statistikaülesanne, mis ulatub tagasi 1800-ndatesse ja seda saab isegi tohutult suurte andmestike puhul lihtsalt lahendada."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Me ei lasku selliste tegelike kaalu-leidvate algoritmide üksikasjadesse, nagu klassikaline vähimruutude meetod. Ometi saate proovida, mis tunne on leida trende andmetes järgnevates ülesannetes."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Lineaarse regressiooni visualiseerimine"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Hea viis tunnetada, mida lineaarne regressioon võib meile öelda, on joonistada meie andmeid ja regressioonitulemusi sisaldav graafik. Lihtsas mängunäites on meie andmestikus üks muutuja - töötaja poolt päevas joodavate kohvitasside arv - ning väljundina selle töötaja poolt päevas kirjutatud koodiridade arv. See pole päris andmestik, kuna peale kohvi on ilmselgelt veel töötaja tootlikkust mõjutavaid tegureid, mis keerukatel viisidel üksteist vastastikku mõjutavad. Ka tootlikkuse tõus kohvihulka suurendades peab paika vaid teatud maani, millest alates muutub erutatus liigselt häirivaks. "}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"linearreg","properties":{},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Kujutades oma andmeid ülaltoodud graafikul punktidena, milles üks punkt tähistab üht töötajat, näeme, et on ilmselgelt olemas trend, et rohkema kohvi joomise tulemuseks on rohkem kirjutatud koodiridu (meenutagem, et need on täielikult väljamõeldud andmed). Sellest andmestikust saame leida kohvitarbimisega seotud koefitsiendi või kaalu ja juba silmaga hinnates võime öelda, et see tundub olevat 5 lähedal, kuna iga joodud tassi kohvi kohta tundub programmeeritud ridade arv suurenevat ligikaudu viie võrra. Näiteks töötajad, kes joovad umbes kaks tassi kohvi päevas, näivad tootvat umbkaudu 20 koodirida päevas, ja sarnaselt, nelja tassi kohvi puhul on ridade arv umbes 30."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Samuti võib märgata, et töötajad, kes üldse kohvi ei joo, kirjutavad ka koodi ning graafik näitab, et tulemus on ligikaudu 10 rida. See arv on eelpool nimetatud lähtekonstandi termin. Nagu kaaludki, on lähtekonstant veel üks mudeli parameeter, mida saab leida andmetest. Täpselt nagu eluea näites, võib seda käsitleda kui meie arvutuste lähtekohta, enne kui oleme lisanud sisendmuutuja või -muutujate (kui neid on rohkem kui üks) mõjud, olgu need siis selle näite kohvitassid või eelmise sigaretid ja köögiviljad. "}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Joon graafikul kujutab meie ennustatud tulemust, kus me oleme arvutanud lähtekonstandi ja koefitsiendi, rakendades tegelikku lineaarse regressiooni meetodit, mida nimetatakse vähimruutude meetodiks. Seda joont saab kasutada kirjutatud ridade arvu ennustamiseks, kui sisend on kohvitasside arv. Pange tähele, et me saame ennustuse isegi siis, kui me lubame osaliselt täidetud tassid (nagu pool tassi, veerand tassi jne)."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"exercise17","properties":{"quizid":"6e801b48-4654-4c15-8dd5-3881b4fdfb8a"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"exercise18","properties":{"quizid":"77845666-4c11-4e4a-9912-3d1e1189d166"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Uuringud, nagu eelnevates harjutustes näidatud, ei pruugi põhjuslike seoste määramist võimaldada. Teisisõnu, ainult nende andmete põhjal ei ole võimalik öelda, kas õppimine tegelikult suurendab eeldatavat eluiga paremini informeeritud ja tervislikuma eluviisi või teiste mehhanismide abil või see näilik seos oodatava eluea ja hariduse vahel on tingitud teguritest, mis mõjutavad mõlemat. On tõenäoline, et näiteks riikides, kus inimesed on kõrgesti haritud, on toitumine, tervishoid ja turvalisus samuti kõrgemal tasemel, mis pikendab oodatavat eluiga. Sellise lihtsa analüüsiga saame ainult tuvastada seoseid, mis võivad siiski ennustamisel kasuks tulla. "}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h3","properties":{},"children":[{"type":"text","value":"Lineaarse regressiooni masinõppe rakendused"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Lineaarne regressioon on paljude AI ja andmeteaduse rakenduste tõeline tööloom. Tal on muidugi piirid, aga neid kompenseerivad sageli lihtsus, tõlgendatavus ja efektiivsus. Lineaarset regressiooni on näiteks edukalt kasutatud järgmistes ülesannetes:"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"ul","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"veebireklaamidel klõpsamise määra ennustamine "}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"toodete jaenõudluse ennustamine"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"Hollywoodi filmide piletikassa tulu ennustamine"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"tarkvaramaksumuse ennustamine"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"kindlustuskulu ennustamine "}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"kuritegevuse ennustamine"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"kinnisvarahindade ennustamine "}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Kas regressiooni saab kasutada tähiste ennustamisel"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Nagu eelpool selgitatud, annavad lineaarne regressioon ja lähima naabri meetod erinevad ennustused. Lineaarne regressioon väljastab arvulised väljundid, samal ajal kui lähima naabri meetod otsib tähiseid etteantud variantide („klasside“) seast."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Võrreldes lähimate naabritega, on lineaarne regressioon parema tõlgendatavusega. Mida me selle all mõtleme? Võib öelda, et mingis mõttes on lähima naabri meetodit ja iga sellega saadud ennustust lihtne tõlgendada: see on lihtsalt lähim treeningandmete element! Nii see on, aga kui tegemist on õppinud mudeli tõlgendatavusega, on olemas selge erinevus. Lähimates naabrites treenitud mudelit on võimatu tõlgendada samamoodi kui kaalusid lineaarses regressioonis: õppinud mudel on põhimõtteliselt kogu andmestik ning see on tavaliselt liiga suur ja keerukas, et meile mingit ülevaadet anda. Seega mis oleks, kui sooviksime meetodit, mis annab samasuguseid väljundeid nagu lähimad naabrid, st. tähiseid, aga on tõlgendatav nagu lineaarne regressioon?"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Appi tuleb logistiline regressioon"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Aga meil on teile häid uudiseid: me saame muuta lineaarse regressiooni meetodi väljundid tähiste ennustusteks. Seda võimaldav meetod on logistiline regressioon. Me ei lasku siinkohal tehnilistesse üksikasjadesse, sest piisab, kui öelda, et lihtsaimal juhul me võtame lineaarse regressiooni väljundi, milleks on arv, ja ennustame ühe tähise A, kui tähis on nullist suurem, ning teise tähise B, kui tähis on väksem kui või võrdne nulliga. Selle asemel, et ennustada lihtsalt üht või teist klassi, võib logilistiline regressioon anda meile ka teatud määra. Seega, kui me ennustame, kas klient ostab sel aastal uue nutitelefoni, võime saada ennustuse, et klient A ostab telefoni 90%-lise tõenäosusega, aga teise, vähem ettearvatava kliendi kohta, võime saada ennustuse, et ta ei osta telefoni 55%-lise tõenäosusega (ehk teisisõnu, ta ostab selle 45%-lise tõenäosusega)."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Sama nõksu on võimalik kasutada ka ennustuste saamiseks enama kui kahe võimaliku tähise kohta. Seega, selle asemel, et ennustada alati kas jah või ei (osta uus telefon või mitte, libauudised või pärisuudised jne), saame kasutada logistilist regressiooni, et tuvastada näiteks käsitsi kirjutatud numbreid, misjuhul on kümme võimalikku tähist."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h3","properties":{},"children":[{"type":"text","value":"Logistilise regressiooni näide"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Oletagem, et kogume andmeid õpilaste kohta, kes osalevad sissejuhataval toiduvalmistamise kursusel. Lisaks põhiinfole, nagu õpilase ID, nimi jne, palume neil ka aru anda, kui mitu tundi nad eksamiks õppisid (kuidas iganes toiduvalmistamise eksamiks õpitakse - võib-olla toitu valmistades?) – ning loodame, et nad on oma aruannetes enam-vähem ausad. Pärast eksamit saame teada, kas iga õpilane sai kursusest läbi või mitte. Mõned andmed on antud allpool:"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"table","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"tbody","properties":{},"children":[{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"th","properties":{},"children":[{"type":"text","value":"Õpilase ID"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"th","properties":{},"children":[{"type":"text","value":"Õppimisele kulutatud tundide arv"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"th","properties":{},"children":[{"type":"text","value":"Läbitud/Mitte läbitud"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n  "},{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"24"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"15"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"Läbitud"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n  "},{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"41"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"9.5"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"Läbitud"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n  "},{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"58"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"2"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"Mitte läbitud"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n  "},{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"101"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"5"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"Mitte läbitud"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n  "},{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"103"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"6.5"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"Mitte läbitud"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n  "},{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"215"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"6"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"Läbitud"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n"}]}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Missuguse järelduse saate teha õppimisele kulutatud tundide arvu ja eksami läbimise seosest selle tabeli põhjal? Me võiksime arvata, et kui meil oleks andmed sadade õpilaste kohta, siis võib-olla näeksime, kui palju on vaja õppida selle kursuse läbimiseks. Nagu te allpool näete, saame need andmed esitada graafiku kujul."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"exercise19","properties":{"quizid":"772d2b1f-4bda-4697-b22a-3cf17e2926dd"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Logistilist regressiooni kasutatakse ka paljudes erinevates AI rakendustes, nagu näiteks finantsriskide ennustamine, meditsiiniuuringud jne. Siiski, nagu ka lineaarse regressiooni puhul, on see piiratud lineaarsusega ja me vajame oma tööriistakohvrisse veel teisigi meetodeid. Me pöördume lineaarsuse teema juurde tagasi hiljem, kui käsitleme närvivõrke. "}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Masinõppe piirangud"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Kokkuvõttes on masinõpe väga võimas AI rakenduste loomise töövahend. Lisaks lähima naabri meetodile, lineaarsele regressioonile ja logistilisele regressioonile on sadu, kui mitte tuhandeid, erinevaid masinõppe meetodeid, aga need kõik taanduvad ühele asjale – nad püüavad leida andmetest mustreid ja sõltuvusi ning kasutada neid kas mingi nähtuse mõistmiseks või tuleviku ennustusteks. "}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Masinõpe võib olla väga raske ülesanne ja tavaliselt ei ole võimalik välja töötada täiuslikku meetodit, mis paneks alati õige tähise. Ometi on enamikel juhtudel hea, kuigi mitte täiuslik, ennustus ikkagi parem kui mitte midagi. Kuigi mõnikord suudaksime ise paremaid ennustusi teha, eelistame ikkagi kasutada masinõpet, sest masin teeb oma ennustused kiiremini ja suuremal hulgal ning väsimatult. Hea näide on soovitussüsteemid, mille ülesandeks on ennustada, missugune muusika, videod või reklaamid teile tõenäoliselt rohkem huvi pakuksid."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Saadud tulemuse kvaliteeti mõjutavad faktorid hõlmavad:"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"ul","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"ülesande raskust: kui numbrid on lohakalt kirjutatud, ei suuda käsitsi kirjutatud numbrite tuvastamisel isegi inimene alati õigesti ära arvata, mida kirjutaja mõtles"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"masinõppe meetodit: mõned meetodid on mingi teatud ülesande jaoks teistest märksa paremad "}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"treeningandmete hulka: ainult mõnest näitest on võimatu saada head klassifikaatorit "}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"andmete kvaliteeti"}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Andmekvaliteet on oluline","description":"Selle peatüki alguses rõhutasime piisava hulga andmete tähtsust ja ülesobitamise riske. Sama oluline faktor on andmete kvaliteet. Et luua mudelit, mis üldistuks hästi andmetele väljaspool treeningandmeid, peavad treeningandmed sisaldama käsiloleva ülesande jaoks piisavalt asjakohast informatsiooni. Kui te näiteks loote piltide klassifikaatorit, mis ütleb, mida algoritmile antav pilt kujutab, ja te olete seda treeninud ainult koerte ja kasside piltidega, liigitab ta iga nähtava pildi kas koeraks või kassiks. See oleks mõistlik, kui algoritmi kasutatakse keskkonnas, kus ta näeb ainult kasse ja koeri, aga sugugi mitte, kui ta peaks nägema ka paate, autosid ja lilli.<br><br>Me pöördume „kallutatud“ andmete poolt põhjustatud võimalike probleemide juurde tagasi."},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"On oluline rõhutada ka seda, et erinevad masinõppe meetodid on sobivad erinevatele ülesannetele. Seega ei ole olemas ühte parimat meetodit kõigi ülesannete jaoks („üht algoritmi nende kõigi valitsemiseks“). Õnneks on võimalik läbi proovida suurt hulka erinevaid meetodeid ja otsustada, missugune neist töötab käsiloleva ülesande puhul kõige paremini. "}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"See viib meid millegi väga oluliseni, mida aga praktikas jäetakse sageli tähele panemata - mida tähendab paremini töötamine. Numbrituvastamise ülesandes paneks hea meetod muidugi enamasti alati õige tähise. Seda saab mõõta klassifikaatori veaga - murdosaga juhtudest, kui meie klassifikaator väljastab vale klassi. Korterihindade ennustamisel on kvaliteedimõõtmeks tavaliselt midagi taolist nagu korterimüügi ennustatud hinna ja tegeliku lõpphinna erinevus. Paljudes reaalmaailma rakendustes on halvem eksida ühes suunas kui teises: liiga kõrge hinna panemine võib protsessi venitada kuudepikkuseks, kuid liiga madala hinna panemine tähendab müüja jaoks vähem raha. Ja tuues veel ühe näite, siis jalakäija mitte märkamine auto ees on palju raskem viga kui ekslik jalakäija tuvastamine, kui seal teda tegelikult pole."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Nagu eelnevalt öeldud, ei ole tavaliselt võimalik vigu vältida, aga oleme ehk õnnelikud, kui viga on väiksem kui üks sajast (või 1%). See sõltub jällegi rakendusest: te ei oleks väga õnnelik, kui ainult 99% autodest teedel oleksid ohutud, aga võimalus selle täpsusega ennustada, kas teile hakkab meeldima uus laul võib olla meeldiva kuulamiskogemuse jaoks enam kui piisav. Kui me peame alati meeles tegelikku eesmärki, aitab see meil tagada tegeliku lisandväärtuse loomise."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"part-summary","properties":{"chapter":"4","heading":"Pärast 4. peatüki lõpetamist peaksite oskama:","listitems":"[\n  {\"content\":\"selgitada, miks masinõppe meetodeid kasutatakse\"},\n  {\"content\":\"teha vahet juhendamata ja juhendatud masinõppe stsenaariumidel \"},\n  {\"content\":\"selgitada kolme juhendatud klassifitseerimismeetodi – lähima naabri meetodi, lineaarse regressiooni ja logistilise regressiooni - põhimõtteid\"}\n    ]"},"children":[{"type":"text","value":"\n  "}]},{"type":"text","value":"\n"}]}],"data":{"quirksMode":false}},"excerpt":"Peamine eesmärk lineaarses regressioonis on summeerida kõigi tunnusmuutujate mõju ennustatud väärtuse saamiseks. Tehniline termin selle…","frontmatter":{"path":"/ee/4/3","title":"Regressioon","part":4,"type":"section","lang":"ee","section":3}}}]},"allParts":{"totalCount":6,"edges":[{"node":{"frontmatter":{"title":"Mis on AI","path":"/ee/1","section":null,"part":1,"lang":"ee","bannerImage":{"publicURL":"/static/5cb707dcbce557b358c736c82a82b847/banner1.png"}}}},{"node":{"frontmatter":{"title":"AI probleemilahendus","path":"/ee/2","section":null,"part":2,"lang":"ee","bannerImage":{"publicURL":"/static/3217219fe81de9c2f030e51f04557962/banner2.png"}}}},{"node":{"frontmatter":{"title":"AI päris maailmas","path":"/ee/3","section":null,"part":3,"lang":"ee","bannerImage":{"publicURL":"/static/8433f94cdf930cb1172a332eda51a0ae/banner3.png"}}}},{"node":{"frontmatter":{"title":"Masinõpe","path":"/ee/4","section":null,"part":4,"lang":"ee","bannerImage":{"publicURL":"/static/fdc0e4c1dc187a976325542364658e54/banner4.png"}}}},{"node":{"frontmatter":{"title":"Närvivõrgud","path":"/ee/5","section":null,"part":5,"lang":"ee","bannerImage":{"publicURL":"/static/8d6d86ca3c422d98b6213f5ddfbe8c07/banner5.png"}}}},{"node":{"frontmatter":{"title":"Mõjud","path":"/ee/6","section":null,"part":6,"lang":"ee","bannerImage":{"publicURL":"/static/2943d36053a6dd8bd40b3dc3832bb0f8/banner6.png"}}}}]},"currentPart":{"htmlAst":{"type":"root","children":[],"data":{"quirksMode":false}},"frontmatter":{"path":"/ee/4","title":"Masinõpe","part":4,"lang":"ee","quote":"Ammu on aru saadud, et õppimine on intellekti võtmeelement. See kehtib nii loomuliku intellekti – me saame õppides targemaks – kui ka tehisintellekti kohta.","quoteAuthor":"","bannerImage":{"publicURL":"/static/fdc0e4c1dc187a976325542364658e54/banner4.png"}}},"allSections":{"totalCount":18,"edges":[{"node":{"frontmatter":{"title":"Kuidas defineerida tehisintellekti?","path":"/ee/1/1","section":1,"part":1,"lang":"ee"}}},{"node":{"frontmatter":{"title":"Otsing ja probleemilahendus","path":"/ee/2/1","section":1,"part":2,"lang":"ee"}}},{"node":{"frontmatter":{"title":"Võimalus ja tõenäosus","path":"/ee/3/1","section":1,"part":3,"lang":"ee"}}},{"node":{"frontmatter":{"title":"Masinõppe liigid","path":"/ee/4/1","section":1,"part":4,"lang":"ee"}}},{"node":{"frontmatter":{"title":"Närvivõrkude alused","path":"/ee/5/1","section":1,"part":5,"lang":"ee"}}},{"node":{"frontmatter":{"title":"Tuleviku ennustamisest","path":"/ee/6/1","section":1,"part":6,"lang":"ee"}}},{"node":{"frontmatter":{"title":"Seotud valdkonnad","path":"/ee/1/2","section":2,"part":1,"lang":"ee"}}},{"node":{"frontmatter":{"title":"Probleemilahendus tehisintellekti abil","path":"/ee/2/2","section":2,"part":2,"lang":"ee"}}},{"node":{"frontmatter":{"title":"Bayesi reegel","path":"/ee/3/2","section":2,"part":3,"lang":"ee"}}},{"node":{"frontmatter":{"title":"Lähima naabri klassifikaator","path":"/ee/4/2","section":2,"part":4,"lang":"ee"}}},{"node":{"frontmatter":{"title":"Millest närvivõrgud koosnevad","path":"/ee/5/2","section":2,"part":5,"lang":"ee"}}},{"node":{"frontmatter":{"title":"Tehisintellekti ühiskondlik mõju","path":"/ee/6/2","section":2,"part":6,"lang":"ee"}}},{"node":{"frontmatter":{"title":"Tehisintellekti filosoofia","path":"/ee/1/3","section":3,"part":1,"lang":"ee"}}},{"node":{"frontmatter":{"title":"Otsing ja mängud","path":"/ee/2/3","section":3,"part":2,"lang":"ee"}}},{"node":{"frontmatter":{"title":"Naiivne Bayesi klassifikatsioon","path":"/ee/3/3","section":3,"part":3,"lang":"ee"}}},{"node":{"frontmatter":{"title":"Regressioon","path":"/ee/4/3","section":3,"part":4,"lang":"ee"}}},{"node":{"frontmatter":{"title":"Kõrgema taseme närvivõrgumeetodid","path":"/ee/5/3","section":3,"part":5,"lang":"ee"}}},{"node":{"frontmatter":{"title":"Kokkuvõte","path":"/ee/6/3","section":3,"part":6,"lang":"ee"}}}]},"site":{"siteMetadata":{"languages":{"defaultLangKey":"en","langs":["en","fi","se","de","ee","fr","it","fr-be","no","lt","lv","nl-be","mt","hr","pl","en-ie","ga","nl","sk","da","ro","sl","is","de-at","en-lu","bg","cs","pt","es","el"]}}}},"pageContext":{"part":4,"type":"section","lang":"ee"}},"staticQueryHashes":["3539470774","3539470774"]}