{"componentChunkName":"component---src-templates-section-template-js","path":"/is/4/3","result":{"data":{"markdown":{"htmlAst":{"type":"root","children":[{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"lead","properties":{},"children":[{"type":"text","value":"Meginatriðið í þessum kafla er annað gott dæmi um stýrt vélnám sem er næstum eins einfalt og grannaflokkun, eða það sem kallað er línuleg aðhvarfsgreining (e. "},{"type":"element","tagName":"i","properties":{},"children":[{"type":"text","value":"linear regression analysis"}]},{"type":"text","value":"). Við nefnum líka aðra náskylda aðferð, eða tvíkosta aðhvarfsgreiningu (e. "},{"type":"element","tagName":"i","properties":{},"children":[{"type":"text","value":"logistic regression analysis"}]},{"type":"text","value":").\n"}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Hver er munurinn á flokkun og aðhvarfsgreiningu?","description":"Flokkun og aðhvarfsgreining eru báðar notaðar í stýrðu vélnámi, og á þeim er lítill en afar mikilvægur munur. Flokkunaraðferðir, til dæmis grannaflokkun, gefa svar eða niðurstöðu sem er tekin úr afmörkuðu mengi hugsanlegra svara (það mengi getur t.d. verið ruslpóstur/æskilegur póstur eða ein af tölunum 0,1...9). Þegar línuleg aðhvarfsgreining (eða önnur svipuð aðferð) er notuð er svarið hins vegar alltaf tala, sem þarf ekki að vera heil. Aðhvarfsgreining hentar því betur þegar svarið getur verið nánast hvaða tala sem er, t.d. verðið á tiltekinni vöru, fjarlægð milli tveggja hluta eða væntanlegar tekjur af næstu Star Wars-mynd."},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Línuleg aðhvarfsgreining byggist á þeirri grunnhugmynd að áætlað heildargildi er fengið með því að leggja saman áhrifin af einstökum breytum. Um þetta er notað tæknilega hugtakið línuleg samantekt (e. "},{"type":"element","tagName":"em","properties":{},"children":[{"type":"text","value":"linear combination"}]},{"type":"text","value":"). Hugmyndin er mjög einföld og við getum notað venjulega búðarkvittun til að útskýra hana."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Línuleg aðhvarfsgreining er eins og búðarkvittun","description":"Setjum sem svo að þú farir að versla og kaupir 2,5 kg af kartöflum, 1,0 kg af gulrótum og tvo lítra af mjólk. Ef kartöflurnar kosta 200 kr. hvert kg, gulræturnar 400 kr. hvert kg og mjólkurlítrinn 300 kr. þarftu að borga alls 2,5 × 200 kr. + 1,0 × 400 kr. + 2 × 300 kr. = 1.500 kr. við kassann. Þegar línuleg aðhvarfsgreining er notuð eru inntaksgögnin í dæmi eins og þessu hversu mikið er keypt af kartöflum, gulrótum og mjólk. Úttaksgögnin, eða niðurstaðan, er heildarverðið, og það ræðst auðvitað af verði hverrar vöru og hversu mikið er keypt af henni."},"children":[{"type":"text","value":"\n  "}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Orðið „línulegur“ felur í sér að við tiltekna aukningu í inntaksgögnum, eða einum þætti þeirra, kemur alltaf fram sama aukning í úttaksgögnum (niðurstöðu, svari). Það þýðir, með öðrum orðum, að þegar tvö kg af gulrótum bætast við innkaupin hækkar heildarverðið alltaf um 800 kr. Ef önnur 2 kg bætast við hækkar það aftur um 800 kr., og ef viðbótin er aðeins 1 kg hækkar verðið nákvæmlega helmingi minna, þ.e. um 400 kr."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"key-terminology","properties":{"terminologies":"[\n      {\"title\":\"Stuðlar og vægi\",\"content\":\"Þegar rætt er um línulega aðhvarfsgreiningu eru þættir á borð við verð mismunandi vörutegunda kallaðir stuðlar eða vægi. Einn helsti kosturinn við að nota línulega aðhvarfsgreiningu er hversu auðvelt er að túlka niðurstöður hennar. Stundum eru upplýsingar um vægi einstakra þátta í líkaninu áhugaverðari en gildið eða niðurstaðan sem líkanið skilar frá sér.<br><br>Dæmi um þetta er að þegar línuleg aðhvarfsgreining er notuð til að segja fyrir um lífslíkur er vægi reykinga (fjöldi vindlinga á dag) um það bil -0,5 ár, en það merkir að með hverjum vindlingi sem bætist við daglegar reykingar minnka lífslíkurnar um hálft ár að meðaltali. Á sama hátt er vægi tiltekins magns af grænmeti í fæðunni +1 ár. Með því að borða það magn af grænmeti daglega aukast lífslíkurnar sem sagt um eitt ár að meðaltali.\"}\n  ]"},"children":[{"type":"text","value":"\n"}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"quiz","properties":{"quizid":"8d3c98bf-e6e8-5d09-b68d-0617fcb072e0"},"children":[{"type":"text","value":"\n"}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Í æfingunni hér á undan hófum við útreikninginn á þeim stað að konur sem reykja ekki og sleppa öllu grænmeti geti vænst þess að ná 80 ára aldri. Tæknilega hugtakið fyrir slíkan upphafsstað í útreikningum er "},{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"ássnið"}]},{"type":"text","value":" (e. "},{"type":"element","tagName":"em","properties":{},"children":[{"type":"text","value":"intercept"}]},{"type":"text","value":") eða einfaldlega skurðpunktur. Það hugtak kemur við sögu hér á eftir."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Línuleg aðhvarfsgreiningarlíkön"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Við ræddum það hér á undan hvernig línuleg aðhvarfsgreining skilar niðurstöðum þegar einstakir þættir inntaksgagnanna og vægi þeirra hvers um sig eru þekktar stærðir. Niðurstaðan, þ.e. úttaksgögnin, er reiknuð út á grundvelli fyrirliggjandi upplýsinga um inntökin og vægi þeirra."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Stundum eru þekktu stærðirnar hins vegar inntök og úttök fyrir tiltekinn fjölda staka, og þá er verkefnið fólgið í því að áætla vægi einstakra þátta með þeim hætti að forsögn líkansins fari sem næst niðurstöðunni sem úttaksgögnin sýna. Vélnám hentar afar vel til að leysa verkefni af þessu tagi."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Dæmi","description":"Við tökum aftur dæmi af matarinnkaupum og gerum ráð fyrir að við fáum í hendur upplýsingar um vörurnar í nokkrum innkaupakörfum og hvert heildarverðið var fyrir hverja þeirra um sig. Við erum beðin að finna verðið á hverri vörutegund (kartöflum, gulrótum o.s.frv.). Þá nægir okkur ekki að skoða aðeins eina innkaupakörfu, sem hefur t.d. að geyma 1 kg af þorskflökum, 2 kg af gulrótum og 3 lítra af mjólk, og kostar 5.500 kr. Þær upplýsingar nægja okkur ekki til að finna einingaverðið, því að sama niðurstaðan fæst með mörgum verðsamsetningum. Eftir því sem innkaupakörfunum fjölgar verður hins vegar auðveldara að finna lausn."},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Í reynd eru verkefni af þessu tagi oftast flóknari en þetta, því að raunveruleg niðurstaða ræðst ekki alltaf af inntaksgögnunum einum, heldur geta ýmsir óvissuþættir eða „suð“ komið við sögu. Dæmi um þetta eru viðskipti á útimarkaði þar sem verðið fyrir eina og sömu vöru getur breyst án afláts, og reikningur á veitingastað þar sem endanlegt verð ræðst af þjórfénu sem gefið er. Við slíkar aðstæður getum við að vísu áætlað verðið, en ekki af fullkominni nákvæmni."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Það er sígilt viðfangsefni í tölfræði, sem rekja má allt aftur til 19. aldar, að ákvarða vægi einstakra þátta með þeim hætti að sem minnstur munur verði á niðurstöðu líkansins — spánni — og raunverulegri niðurstöðu. Með tölvum nútímans er auðvelt að leysa slík verkefni jafnvel þótt unnið sé með mjög stór gagnasöfn."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Meðal reiknirita sem notuð eru í þessu skyni er svokölluð aðferð minnstu fervika, en við fjöllum ekki nánar um þau hér þó að þau séu tiltölulega einföld. Í æfingunum hér á eftir færðu hins vegar tilfinningu fyrir því hvernig þau vinna."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Línuleg aðhvarfsgreining útskýrð á myndrænan hátt"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Góð leið til að átta sig á hvernig línuleg aðhvarfsgreining er notuð er að teikna upp mynd sem sýnir bæði gögnin sem unnið er úr og niðurstöður línulegu greiningarinnar. Við notum einfalt dæmi þar sem inntakið er aðeins ein breyta, þ.e. hversu marga bolla af kaffi hver starfsmaður drekkur á dag, en úttakið er hversu margar línur af kóða sami starfsmaður skrifar á hverjum degi. Þetta eru auðvitað ekki raunveruleg gögn, því að afköst starfsmanns ráðast af mörgum þáttum, ekki kaffidrykkjunni einni, og milli slíkra þátta er flókin gagnverkun. Sömuleiðis eru takmörk fyrir því hversu mikið afköstin geta aukist, því að of mikil koffínneysla getur valdið óróleika og dregið úr einbeitingu."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"linearreg","properties":{},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Þegar gögnin eru sett fram eins og í grafinu hér fyrir ofan, þar sem hver starfsmaður er sýndur sem einn punktur, kemur fram skýr leitni í þá veru að aukin kaffidrykkja fjölgar línunum sem skrifaðar eru (gleymum því ekki að þetta eru algerlega tilbúin gögn). Úr þessum gögnum getum við lesið stuðul, eða vægi, hvers kaffibolla, og með því einu að horfa á grafið getum við áætlað að það vægi sé um fimm, þ.e. við hvern kaffibolla fjölgar línum af kóða þann daginn um fimm eða þar um bil. Þannig virðast starfsmenn sem drekka tvo kaffibolla á dag skrifa um 20 línur af kóða á dag, en þegar kaffibollarnir eru orðnir fjórir skrifar hver starfsmaður 30 línur á dag."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Við tökum líka eftir því að sumir starfsmenn drekka alls ekki kaffi en skrifa samt um 10 línur af kóða á dag. Við lesum þá tölu þar sem línan sníður eða sker lóðrétta ásinn á grafinu og þaðan er komið heitið „ássnið“ eða „skurðpunktur“ sem við nefndum hér á undan. Í líkaninu er ássniðið fasti sem við getum lesið úr gögnunum, rétt eins og vægi hverrar breytu. Eins og í dæminu af lífslíkunum getum við hugsað ássniðið sem upphafsstað útreikninganna, og við hann bætast síðan áhrif breytunnar — eða breytnanna ef þær eru fleiri en ein — hvort sem sú breyta er kaffibollar eins og í þessu dæmi, eða reykingar og grænmetisneysla eins og í fyrra dæminu."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Línan á grafinu er niðurstaða spálíkansins. Hún fæst fram með því að áætla ássniðið og stuðullinn með þeirri aðferð við línulega aðhvarfsgreiningu sem kölluð er aðferð minnstu fervika (e. least squares). Við getum lesið af línunni hversu margar línur af kóða gera má ráð fyrir að hver starfsmaður skrifi ef hann drekkur tiltekinn fjölda kaffibolla þann dag. Taktu eftir að við getum einnig spáð fyrir um þetta þó að miðað sé við minni skammta en einn bolla (t.d. hálfan bolla, ¼ úr bolla o.s.frv.)."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"exercise17","properties":{"quizid":"70229556-c647-5bdd-bb4a-c2f4b064773a"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"exercise18","properties":{"quizid":"debca275-d64a-525f-b47e-eff9b11cea37"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Rétt er að benda á að líkön eins og þau sem við notuðum í æfingunum hér á undan segja okkur ekkert um hugsanlegt orsakasamband. Við getum með öðrum orðum ekki ályktað neitt af þessum gögnum einum og sér hvort menntun eykur lífslíkur, t.d. með því að auka meðvitund fólks um heilbrigða lífshætti eða á annan svipaðan hátt, eða hvort tengslin sem við þykjumst sjá milli menntunar og aukinnar lífslengdar stafa af öðrum þáttum sem hafa áhrif á þetta hvort tveggja. Það er til dæmis líklegt að í löndum þar sem fólk er almennt vel menntað njóti íbúarnir einnig góðs mataræðis, fái góða heilbrigðisþjónustu og búi við öryggi, og allir þessir þættir auka lífslíkur. Einföld greining af þessu tagi gerir okkur aðeins kleift að finna tengsl eða fylgni milli einstakra þátta, en slík fylgni getur engu að síður haft mikið forspárgildi."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h3","properties":{},"children":[{"type":"text","value":"Notkun línulegrar aðhvarfsgreiningar í gervigreindarkerfum"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Á sviði gagnavísinda og gervigreindar er línuleg aðhvarfsgreining sannkallaður vinnuþjarkur. Aðferðinni eru ýmis takmörk sett, en á móti kemur að hún er einföld, auðvelt er að túlka niðurstöður hennar og notkunarsviðið er afar breitt. Línuleg aðhvarfsgreining hefur verið notuð með góðum árangri til að segja fyrir um:"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"ul","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"fjölda þeirra sem smella á tiltekna vefauglýsingu"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"eftirspurn á smásölumarkaði"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"miðasölutekjur Hollywood-kvikmynda"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"útgjöld vegna kaupa á hugbúnaði"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"tryggingaútgjöld"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"glæpatíðni"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"fasteignaverð"}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Getum við notað aðhvarfsgreiningu sem flokkunaraðferð?"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Eins og þegar hefur verið nefnt skila línuleg aðhvarfsgreining og grannaflokkun ólíkum niðurstöðum. Niðurstöður línulegrar aðhvarfsgreiningar eru tölulegar, en niðurstöður grannaflokkunar eru heiti eða „flokkar“ sem kerfið velur úr lokuðu mengi möguleika."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Kostur línulegrar aðhvarfsgreiningar umfram grannaflokkun er hversu auðvelt er að túlka niðurstöður hennar. Hvað þýðir það? Segja má að ekki sé sérstaklega erfitt heldur að túlka grannaflokkun og einstakar niðurstöður hennar. Hver niðurstaða er einfaldlega það stak í þjálfunargögnunum sem stendur næst stakinu sem á að flokka! Þó að þetta sé rétt er mikill munur á túlkun þessara tveggja líkana í heild eftir að þau hafa verið þjálfuð. Við getum aldrei túlkað grannaflokkunarlíkan á sama hátt og vægin í línulegri aðhvarfsgreiningu. Líkanið sem grannaflokkunin lærir að nota er ekkert annað en gagnasafnið í heild, og slíkt gagnasafn er oftast allt of stórt og flókið til að gefa okkur skýra mynd af nokkrum hlut. Er þá til aðferð sem skilar sams konar niðurstöðum og grannaflokkun, þ.e. segir okkur hvaða flokki stökin tilheyra, en er auðtúlkanleg á sama hátt og línuleg aðhvarfsgreining?"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Bjargvætturinn: tvíkosta aðhvarfsgreining"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Góðar fréttir! Við getum breytt niðurstöðunum sem línuleg aðhvarfsgreining skilar í forsagnir um flokka. Til þess er notuð aðferð sem ber nafnið tvíkosta aðhvarfsgreining (e. logistic regression). Við útskýrum ekki tæknilegu hliðina á þessu hér, en í allra einföldustu mynd fer þetta þannig fram að niðurstöðu línulegrar aðhvarfsgreiningar, sem er tiltekin tala, er breytt í spá um flokk „A“ ef gildið er jákvætt (> 0), og spá um flokk „B“ ef gildið er 0 eða neikvætt (≤ 0). Tvíkosta aðhvarfsgreining nýtist raunar ekki aðeins til að segja fyrir um flokka, heldur einnig til að meta óvissuna í þeirri spá eða forsögn. Ef við viljum segja fyrir um hvort viðskiptavinir fyrirtækis muni kaupa nýjan snjallsíma á árinu gæti spáin fyrir viðskiptavin A til dæmis orðið sú að hann muni kaupa síma, og líkindin á því séu 90%. Erfiðara er að túlka gögnin um viðskiptavin B og niðurstaðan um hann verður að hann muni ekki kaupa nýjan síma og líkindin á því séu 55% (með öðrum orðum eru 45% líkindi á að hann kaupi síma)."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Sömu nálgun má nota þótt flokkarnir séu fleiri en tveir. Tvíkosta aðhvarfsgreining nýtist þannig ekki aðeins þegar svarið er annað hvort já eða nei (nýr sími keyptur eða ekki, falsfréttir eða ekki, ruslpóstur eða ekki o.s.frv.), heldur einnig til dæmis þegar bera þarf kennsl á handskrifaða tölustafi, en þá eru flokkarnir tíu."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h3","properties":{},"children":[{"type":"text","value":"Dæmi um tvíkosta aðhvarfsgreiningu"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Ímyndum okkur að við höfum safnað gögnum um nemendur sem sækja matreiðslunámskeið. Nemendurnir gefa upp nafn, fá auðkenni í nemendaskránni, og eru einnig beðnir að gefa upp hversu löngum tíma þeir eyddu í undirbúning fyrir lokaprófið (hvernig sem undirbúningur fyrir próf í matreiðslu fer fram). Við treystum því að allir segi satt og rétt frá. Þegar einkunnirnar liggja fyrir vitum við hvaða nemendur stóðust prófið. Brot af þeim gögnum er sýnt hér í töflunni:"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"table","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"tbody","properties":{},"children":[{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"th","properties":{},"children":[{"type":"text","value":"Auðkenni"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"th","properties":{},"children":[{"type":"text","value":"Undirbúningstími (klst.)"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"th","properties":{},"children":[{"type":"text","value":"Staðist/fall"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n  "},{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"24"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"15"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"Staðist"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n  "},{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"41"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"9,5"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"Staðist"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n  "},{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"58"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"2"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"Fall"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n  "},{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"101"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"5"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"Fall"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n  "},{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"103"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"6,5"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"Fall"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n  "},{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"215"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"6"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"Staðist"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n"}]}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Hvað segir þetta okkur um sambandið milli tímans sem fer í undirbúning og þess hvort nemandi stenst lokaprófið? Getum við komist að því hversu mikinn undirbúning þarf til að standast prófið með því að safna gögnum um nokkur hundruð nemenda? Við skulum hugsa okkur að við höfum slík gögn undir höndum og setjum þau upp í grafi eins og sést hér fyrir neðan."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"exercise19","properties":{"quizid":"be5f1f12-fcae-55f5-84d8-a25cce384690"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Eins og aðferðirnar sem við ræddum hér á undan er tvíkosta aðhvarfsgreining einnig mikið notuð til að leysa raunveruleg vandamál, svo sem að spá fyrir um áhættu af fjárfestingum, í læknisfræðilegum rannsóknum o.fl. Hún hefur þó vissa línulega eiginleika sem takmarka notagildi hennar á sama hátt og á við um línulega aðhvarfsgreiningu, og við þurfum því að hafa ýmis önnur tól í verkfærakassanum. Þegar kemur að umfjölluninni um tauganet víkjum við aftur að þeim takmörkunum sem línuleiki þessara aðferða setur okkur."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Takmarkanir vélnáms"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Sem samantekt á því sem við höfum fjallað um í þessum hluta námskeiðsins er óhætt að segja að vélnám sé mjög öflug aðferð við smíði gervigreindarkerfa. Auk grannaflokkunar, línulegrar aðhvarfsgreiningar og tvíkosta aðhvarfsgreiningar eru til hundruð, ef ekki þúsundir, annarra vélnámsaðferða. Allar stefna þær þó að sama marki, þ.e. að greina mynstur og tengsl í gögnunum og nota þær upplýsingar annað hvort til að öðlast skilning á tilteknu fyrirbæri eða segja fyrir um tiltekna niðurstöðu eða tiltekna þróun mála."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Viðfangsefni á sviði vélnáms geta verið afar krefjandi og yfirleitt tekst okkur ekki að smíða fullkomna aðferð sem gefur alltaf rétt svör. Oftast þurfum við þó ekki á fullkominni lausn að halda, heldur nægir okkur að finna góða lausn. Sum viðfangsefni eru þess eðlis að við getum sjálf sagt fyrir um einstakar niðurstöður af meiri nákvæmni en tölva, en vélnám getur engu að síður verið betri kostur. Tölvurnar vinna hraðar, skila meiri afköstum og þreytast aldrei. Góð dæmi um þetta eru meðmælakerfin sem notuð eru til að segja fyrir um hvaða tónlist, myndbönd eða auglýsingar muni höfða til okkar."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Þættirnir sem geta haft áhrif á hversu góðar niðurstöðurnar verða eru meðal annars:"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"ul","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"hversu erfitt verkefnið er: ef tölustafir eru mjög illa skrifaðir geta bæði maður og vél átt í stökustu erfiðleikum með að giska á rétta tölu"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"hvaða vélnámsaðferð er notuð: vissar aðferðir henta miklu betur en aðrar í sumum tegundum verkefna"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"hversu ítarleg þjálfunargögnin eru: ef byggja þarf á mjög fáum dæmum verður árangurinn af flokkuninni aldrei reglulega góður"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"hversu góð gögnin eru, sjá hér á eftir"}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Gæði gagnanna skipta máli","description":"Við nefndum í upphafi 4. hluta að mikilvægt væri að hafa nægilega mikið af gögnum og bentum á hætturnar sem fylgja ofmátun líkansins. Ekki er þó síður mikilvægt að hafa undir höndum nægilega <i>góð</i> gögn. Þjálfunargögnin verða að tengjast verkefninu sem þarf að leysa með nógu skýrum hætti til að við getum smíðað líkan sem nýtist til að greina önnur gögn. Ef flokkunarkerfi fyrir myndir á að segja til um hvað sést á hverri mynd sem lesin er inn, en kerfið er síðan þjálfað með hunda- og kattamyndum eingöngu, þá merkir kerfið allar myndir annað hvort sem hund eða kött. Þetta er fullkomlega rökrétt ef kerfinu er aðeins ætlað að flokka hunda- og kattamyndir, en út í hött ef það á líka að geta þekkt annað á myndunum, t.d. báta, bíla og blóm.<br><br>Við komum aftur að því í síðasta kaflanum hvernig farið er með svokölluð „bjöguð“ gögn."},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Það er einnig mikilvægt að hafa í huga að mismunandi er eftir verkefnum hvaða vélnámsaðferð hentar best. Engin ein aðferð skarar fram úr öðrum við allar aðstæður (ekkert „eitt reiknirit ræður þeim öllum...“). Sem betur fer er ekkert því til fyrirstöðu að prófa margar ólíkar aðferðir og komast þannig að því hver þeirra hentar best hverju sinni."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Með þessu erum við komin að afar mikilvægu atriði sem oft er þó lítið hugað að, þ.e. hvað það merkir að „henta best“. Þegar bera þarf kennsl á tölustafi er hentugasta aðferðin auðvitað sú sem flokkar tölustafina oftast rétt. Við getum mælt þetta með því að telja hversu oft flokkunarkerfið skilar rangri niðurstöðu. Þegar um fasteignaverð er að ræða er mælikvarðinn á aðferðina sem notuð er oft munurinn á spá líkansins um söluverð hverrar eignar og endanlegu söluverði. Í mörgum tilvikum getur skekkja í eina átt komið sér verr en skekkja í hina áttina. Ef fasteign er verðlögð of hátt getur salan dregist, en sé auglýst verð of lágt getur seljandinn tapað á því. Á sama hátt er það miklu alvarlegri skekkja ef gervigreindarkerfið í sjálfkeyrandi bíl sér ekki fótgangandi vegfaranda en þó að það greini ranglega að einhver standi á götunni."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Eins og við nefndum hér á undan getum við yfirleitt ekki komist hjá öllum villum og skekkjum, en oft er skekkja sem nemur t.d. 1 af 100 (eða 1%) fullkomlega viðunandi. Það fer þó einnig eftir aðstæðum. Við kærum okkur ekki um sjálfkeyrandi bíla sem aðeins sjá gangandi vegfarendur í 99% tilvika, en flestir yrðu trúlega ánægðir með kerfi sem gæti spáð fyrir um tónlist sem þeim líkar með þeirri nákvæmni. Til að ná þeim árangri sem stefnt er að er afar mikilvægt að hafa sett markmið alltaf skýrt í huga."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"part-summary","properties":{"chapter":"4","heading":"Eftir þessa yfirferð á 4. hluta ættir þú að geta:","listitems":"[\n  {\"content\":\"útskýrt ástæðurnar fyrir því að vélnámsaðferðir eru notaðar\"},\n  {\"content\":\"gert greinarmun á stýrðu og óstýrðu vélnámi og hvernig þær aðferðir eru notaðar\"},\n  {\"content\":\"útskýrt undirstöðuatriði þriggja stýrðra flokkunaraðferða: grannaflokkunar, línulegrar aðhvarfsgreiningar og tvíkosta aðhvarfsgreiningar\"}\n    ]"},"children":[{"type":"text","value":">\n  "}]},{"type":"text","value":"\n"}]}],"data":{"quirksMode":false}},"frontmatter":{"path":"/is/4/3","title":"Aðhvarfsgreining","section":3,"part":4,"lang":"is"}},"allRelatedSections":{"totalCount":3,"edges":[{"node":{"htmlAst":{"type":"root","children":[{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"lead","properties":{},"children":[{"type":"text","value":"Til að skýra hvernig vélnám kemur að gagni tökum við gamalt og gott dæmi um það, þ.e. hvernig slík aðferð er notuð til að bera kennsl á handskrifaða tölustafi."}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Hér fyrir neðan eru sýnd nokkur dæmi um handskrifaðar tölur, tekin úr gagnagrunninum MNIST, sem er mjög oft notaður einmitt fyrir þetta."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"illustrations","properties":{"motive":"mnist"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Fyrir ofan hverja mynd sést rétta talan (sú sem ritarinn ætlaði að skrifa). Taktu eftir að sumar „réttu“ tölurnar virðast vafasamar: Lítum til dæmis á aðra myndina frá vinstri: á hún að sýna töluna 7, eða kannski 4?"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"MNIST — Hvað er það eiginlega?","description":"Flestir sem þekkja eitthvað til vélnáms kannast við MNIST-gagnagrunninn. Færri vita fyrir hvað skammstöfunin stendur. Við þurftum sjálf að fletta því upp og sáum þá að M stendur fyrir <i>modified</i>, þ.e. „breyttur“, og NIST er skammstöfun á National Institute of Standards and Technology, en það er bandarísk ríkisstofnun sem stundar m.a. rannsóknir í tölvunarfræði. Núna veistu svolítið sem flestir sérfræðingar í vélnámi vita sennilega ekki!"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Flest algeng verkefni á sviði vélnáms eru þess eðlis að aðeins eitt gildi er rétt hverju sinni. Þetta á einnig við í MNIST-gagnagrunninum, enda þótt stundum geti verið erfitt að sjá hvert rétta gildið er, eins og við höfum þegar vikið að. Í verkefnum af þessu tagi tilheyrir hvert stak í menginu alltaf einum, og aðeins einum, flokki. Það sem við viljum gera er að smíða gervigreindarkerfi sem getur tekið inn myndir eins þær sem við sýndum hér á undan og skilað frá sér réttri merkingu eða flokki (einni talnanna frá 0 til 9)."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Leiðin sem við mælum ekki með","description":"Við gætum farið þá leið að láta sjálfvirkan talnalesara fylgja eftirfarandi reglum:\n    <ul>\n    <li>Ef svörtu dílarnir mynda í stórum dráttum óslitinn hringferil er rétt merking „0“.</li>\n    <li>Ef svörtu dílarnir mynda tvo samliggjandi hringferla er rétt merking „8“.</li>\n    <li>Ef svörtu dílarnir mynda beint lóðrétt strik fyrir miðju er rétt merking „1“.</li>\n    </ul>\n    o.s.frv...<br><br>\nÁ árunum upp úr 1980 voru flestar gervigreindaraðferðir byggðar á slíkri nálgun og voru kallaðar þekkingarkerfi (einnig „sérfræðikerfi“, á ensku expert systems). Það reyndist gríðarmikil vinna að skrifa reglur fyrir slík kerfi, jafnvel þótt þeim væri aðeins ætlað að leysa einfaldar þrautir á borð við að þekkja tölustafi. Forrit til að leysa slíkt verkefni þyrfti raunar miklu markvissari reglur en þær sem standa hér fyrir ofan. Við þyrftum einnig að skilgreina nákvæmlega hvað átt er við með orðunum „í stórum dráttum“, „hringferill“, „strik“, „fyrir miðju“ o.s.frv.<br><br>Og þó að okkur tækist það yrði afraksturinn að öllum líkindum fremur lélegt gervigreindarkerfi, því að handskrifaðir tölustafir geta verið mjög breytilegir í útliti og því þyrftu alls konar undantekningar að fylgja hverri reglu."},"children":[{"type":"text","value":"\n"}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Þrjár tegundir vélnáms"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Vélnám á rætur sínar í tölfræði, sem við getum einnig kallað listina að vinna þekkingu úr gögnum. Aðferðir á borð við línulega aðhvarfsgreiningu (einnig „aðfallsgreining“, á ensku linear regression) og Bayes-tölfræði, sem báðar eru meira en tvö hundruð ára gamlar, eru enn meðal grundvallaratriða í vélnámi. Enska Wikipedia-síðan   "},{"type":"element","tagName":"a","properties":{"href":"https://en.wikipedia.org/wiki/Timeline_of_machine_learning","target":"_blank","rel":["noopener","noreferrer"]},"children":[{"type":"text","value":"timeline of machine learning"}]},{"type":"text","value":" hefur að geyma fleiri dæmi og stutt ágrip af sögu vélnáms."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Sem vísindagrein er vélnámi oft skipt í undirsvið eftir því hvers eðlis úrlausnarefnið er. Skiptingin er í grófum dráttum sem hér segir:"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"Stýrt vélnám"}]},{"type":"text","value":" (e. "},{"type":"element","tagName":"em","properties":{},"children":[{"type":"text","value":"supervised learning"}]},{"type":"text","value":"): Við fáum í hendur tiltekin inntaksgögn (e. "},{"type":"element","tagName":"em","properties":{},"children":[{"type":"text","value":"input"}]},{"type":"text","value":" eða "},{"type":"element","tagName":"em","properties":{},"children":[{"type":"text","value":"input data"}]},{"type":"text","value":"), t.d. ljósmynd af umferðarmerki, og þurfum að láta kerfið flokka eða merkja myndina rétt, t.d. í samræmi við hvaða umferðarmerki hún sýnir (hraðatakmörkun, stöðvunarskylda o.s.frv.). Í einföldustu tilvikunum eru einu mögulegu svörin „já“ og „nei“. Það köllum við "},{"type":"element","tagName":"em","properties":{},"children":[{"type":"text","value":"tvígilda flokkun"}]},{"type":"text","value":" (e. "},{"type":"element","tagName":"em","properties":{},"children":[{"type":"text","value":"binary classification"}]},{"type":"text","value":")."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"Óstýrt vélnám"}]},{"type":"text","value":" (e. "},{"type":"element","tagName":"em","properties":{},"children":[{"type":"text","value":"unsupervised learning"}]},{"type":"text","value":"): Hér er ekki um nein kennimerki eða rétt svör að ræða, heldur er verkefnið fólgið í því að draga fram kerfisbundin einkenni í gögnunum, til dæmis með því að flokka saman í „klasa“ þau stök sem líkjast hvert öðru, eða skipta gögnunum í nokkrar mikilvægar „víddir“. Svokölluð sjóngerving gagna (e. "},{"type":"element","tagName":"em","properties":{},"children":[{"type":"text","value":"data visualization"}]},{"type":"text","value":") getur líka talist óstýrt nám."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"Styrkingarnám"}]},{"type":"text","value":" (e. "},{"type":"element","tagName":"em","properties":{},"children":[{"type":"text","value":"reinforcement learning"}]},{"type":"text","value":"): Þetta er oft notað þegar sjálfstæð eining sem nýtir sér gervigreind — t.d. sjálfkeyrandi bíll — þarf að athafna sig í umhverfi þar sem ekki fæst tafarlaust staðfesting á því hvort tiltekin ákvörðun var góð eða slæm. Styrkingarnám hentar einnig vel í leikjum þar sem úrslitin ráðast ekki fyrr en í lok leiktímans."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Skiptingin milli þessara flokka er ekki skýr og því er stundum álitamál hvernig á að flokka tiltekna aðferð. Dæmi um þetta er það sem kalla mætti "},{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"hálfstýrt vélnám"}]},{"type":"text","value":" (e. "},{"type":"element","tagName":"em","properties":{},"children":[{"type":"text","value":"semisupervised learning"}]},{"type":"text","value":") sem er eins og nafnið bendir til blanda af stýrðu og óstýrðu vélnámi."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Flokkun","description":"Í umfjöllun okkar verður mest talað um stýrt vélnám, og þá sérstaklega hvernig það er notað til að leysa flokkunarverkefni. Flokkun er í þessu samhengi fólgin í því að athuga inntaksgögnin, til dæmis ljósmynd af umferðarmerki, og nota þær upplýsingar til að álykta hvaða flokki myndin tilheyrir, t.d. hvaða gerðar umferðarmerkið er (hraðatakmörkun, gangbraut, stöðvunarskylda o.s.frv.). Önnur dæmi um flokkunarverkefni eru m.a. að koma auga á falska notendareikninga á Twitter (þar geta inntaksgögnin verið listi með nöfnum fylgjenda reikningsins og hversu hratt þeim hefur fjölgað, og flokkurinn annað hvort „gervireikningur“ eða „lögmætur reikningur“) og sjálfvirk greining handskrifaðra tölustafa (þar eru inntaksgögnin myndir og flokkurinn tala á bilinu 0 til 9)."},"children":[{"type":"text","value":"\n  "}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"illustrations","properties":{"motive":"supervised-learning"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Menn kenna vélum: stýrt vélnám"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Í stað þess að skrifa niður nákvæmar reglur um hvernig flokkunin á að fara fram byggist stýrt vélnám á því að taka nokkur dæmi, merkja þau með réttu nafni flokksins sem þau tilheyra og nota þau til að „þjálfa“ gervigreindarkerfi svo að þau geti fundið sjálfkrafa hvaða flokki hvert atriði tilheyrir, fyrst í þjálfunardæmunum, og síðan (vonandi) í öllum öðrum tilvikum. Forsendan fyrir þessu er auðvitað að rétt svör séu gefin í upphafi, og þess vegna er talað um stýrt vélnám. Notandinn sem gefur réttu svörin — „stýrimaðurinn“ eða „kennarinn“ — vísar kerfinu þannig veginn og kennir því smám saman að finna réttu svörin hjálparlaust."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Stýrt vélnám er þó ekki bundið við verkefni þar sem finna þarf rétta flokkinn af nokkrum mögulegum. Það nýtist einnig við aðstæður þar sem rétta svarið er tiltekin tala. Dæmi um það er þegar spáð er fyrir um hversu margir muni smella á tiltekna vefauglýsingu með því að greina efni auglýsingar og gögn um fyrri hegðun notenda, þegar spáð er fyrir um fjölda umferðaróhappa á grundvelli akstursskilyrða og hámarkshraða, og þegar upplýsingar um staðsetningu, stærð og ástand fasteignar eru notaðar til að segja fyrir um á hvaða verði hún muni seljast. Slík verkefni eru leyst með svonefndri aðhvarfsgreiningu. Þú kannast kannski við hugtakið línuleg aðhvarfsgreining, en þar er á ferðinni sígild aðferð sem enn er mikið notuð."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Dæmi","description":"Setjum sem svo að við höfum undir höndum gögn um íbúðaviðskipti á tilteknu svæði. Upplýsingarnar eru í hverju tilviki atriði á borð við kaupverð, fermetrastærð íbúðar, fjölda svefnherbergja, byggingarár og ástand eignarinnar (allt frá „þarfnast verulegra endurbóta“ til „eignin er í afar góðu ástandi“). Við gætum þá þjálfað aðhvarfslíkan til að segja fyrir um á hvaða verði hver íbúð muni seljast að teknu tilliti til þessara upplýsinga. Raunverulegt dæmi um þetta má finna <a target='_blank' rel='noopener noreferrer' href='http://kannattaakokauppa.fi/#/en/'>hér</a>."},"children":[{"type":"text","value":"\n  "}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"illustrations","properties":{"motive":"price-real-estate","color":"#85a0ff","frombottom":"4%","totalheight":"81%"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Viðvörun: Vélnámsreiknirit eru ekki öll þar sem þau eru séð"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Við viljum nefna nokkrar gryfjur sem nauðsynlegt er að forðast. Þegar vélnámsaðferðum er beitt þarf að stíga varlega niður og varast að gera sér of miklar væntingar um nákvæmni spálíkansins, því að vonbrigðin geta orðið mikil þegar þær vonir rætast ekki."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Til að forðast verstu mistökin þarf í fyrsta lagi að skipta gögnunum í tvennt: "},{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"þjálfunargögn"}]},{"type":"text","value":" og "},{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"prófunargögn"}]},{"type":"text","value":". Við þjálfun kerfisins notum við þjálfunargögnin eingöngu og smíðum þannig líkan eða reglu sem segir fyrir um niðurstöður á grundvelli nýrra gagna sem lesin eru inn."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Við getum hins vegar ekki notað þjálfunargögnin til að meta hversu góðar þær niðurstöður eru, því að líkanið hefur „séð“ þau gögn áður. Þó að okkur hafi tekist að smíða líkan sem skilar mikilli nákvæmni í þjálfunargögnunum er það engin trygging fyrir því að það skili sömu nákvæmni "},{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"í öðrum gögnum almennt"}]},{"type":"text","value":". Þar koma prófunargögnin til sögunnar: Við prófum líkanið með því að láta það segja fyrir um niðurstöður prófunargagnanna og bera þær saman við raunverulegar niðurstöður (t.d. fyrirliggjandi tölur um söluverð íbúða)."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Yfirmáta gott! Hættan á ofmátun","description":"Afar mikilvægt er að hafa í huga að verulegur munur getur verið á nákvæmni vélnámslíkans í þjálfunargögnum annars vegar og prófunargögnum hins vegar. Þetta er kallað ofmátun (e. overfitting). Rannsóknir í vélnámi snúast oft um að finna leiðir til að forðast vandamál af því tagi. Með einföldum orðum má segja að <b>ofmátun</b> sé afleiðing þess að hugsa of mikið um að vera snjall. Ef við vildum til dæmis reyna að segja fyrir um velgengni nýs lags frá þekktum tónlistarmanni gætum við skoðað hvernig öðrum lögum hans hefur farnast, og þannig gæti orðið til sú regla að „ef textinn er um ástina, og viðlagið grípandi, kemst lagið á vinsældalistann“. Meðal ástarlaganna eru þó kannski tvö lög með grípandi viðlag sem komust ekki í hóp vinsælustu laganna, og til að ráða bót á því ákveðum við að bæta við regluna skilyrðinu „...nema orðin Svíþjóð eða jóga komi fyrir í textanum“. Þannig mátum við regluna fullkomlega að sögulegum gögnum (þjálfunargögnunum), en hættan er sú að við rýrum með þessu spágildi hennar að því er varðar <b>ný gögn</b> (prófunargögn).<br><br>Einkum er hætt við ofmátun þegar vélnámsaðferðir eru notaðar, því að með þeim er auðvelt að prófa margar mismunandi reglur þar til ein finnst sem er fullkomlega sniðin að þjálfunargögnunum. Hættan á þessu er mest þegar aðferðin skilar mjög sveigjanlegum líkönum sem laga sig að nánast hvaða mynstri sem finnst í gögnunum. Þá er erfitt að forðast ofmátun nema notað sé gríðarstórt gagnasafn. Tauganet eru til dæmis þess eðlis — ólíkt þeim línulegu, og fremur ósveigjanlegu, líkönum sem búa má til með línulegri aðhvarfsgreiningu — að spárnar verða ekki áreiðanlegar fyrr en safnað hefur verið mjög miklu af gögnum."},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Eitt það mikilvægasta sem gagnavísindamenn þurfa að læra er að forðast ofmátun og velja líkön sem eru hæfilega sveigjanleg, þ.e. hvorki of né van."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Nám án kennara: Óstýrt vélnám"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Hér á undan töluðum við um stýrt vélnám, sem er notað þegar rétt svör eru þekkt og hlutverk vélnámsreikniritsins er að finna líkan sem getur sagt fyrir um svörin á grundvelli inntaksgagnanna."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Í óstýrðu námi liggja rétt svör ekki fyrir. Forsendurnar eru því gerbreyttar, því að þar með höfum við engin þjálfunargögn í höndunum sem við getum notað til að kenna líkaninu. Sömuleiðis verður miklu erfiðara að meta hversu áreiðanlegt líkanið er, því að við höfum ekki heldur nein prófunargögn sem við getum borið svör líkansins saman við."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Í óstýrðu vélnámi er markmiðið oftast að láta líkanið finna einhvers konar kerfisbundið skipulag, eða „strúktúr“, í gögnunum. Dæmi um það er svokölluð sjóngerving (e. "},{"type":"element","tagName":"em","properties":{},"children":[{"type":"text","value":"visualization"}]},{"type":"text","value":") þar sem atriði eða stök í gagnasafninu eru sýnd á mynd og þeim sem hafa ákveðin sameiginleg einkenni er raðað saman en lengra haft milli þeirra sem eiga lítið sameiginlegt. Annað dæmi er klösun (e. clustering), sem snýst um að raða saman í hópa eða „klasa“ þeim stökum sem eiga mest sameiginlegt hvert með öðru, en minna sameiginlegt með stökum í öðrum klösum."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Dæmi","description":"Óstýrt vélnám mætti nota til að greina gögn sem matvöruverslun safnar um innkaup viðskiptavina sinna, t.d. með aðstoð svokallaðra tryggðar- eða vildarkorta. Til að auka skilning sinn á viðskiptavinahópnum getur verslunin notað sjóngervingu, þ.e. mynd þar sem hver viðskiptavinur er sýndur sem punktur, og fólki sem kaupir mikið sömu vörurnar er raðað á svipaðan stað á myndinni, en lengra frá þeim sem sýna aðra kauphegðun. Verslunin gæti einnig unnið úr gögnunum með klösun þar sem búnir eru til afmarkaðir kaupendahópar, t.d. „áhugafólk um heilsufæði með litla kaupgetu“, „fólk sem kaupir dýrar fiskafurðir“, „gos og pizza 6 sinnum í viku“ o.s.frv. Taktu eftir að vélnámsaðferðin nýtist hér aðeins til að raða viðskiptavinunum verslunarinnar í klasa; heitin á klösunum („áhugafólk um heilsufæði“ o.s.frv.) verður notandinn sjálfur að búa til."},"children":[{"type":"text","value":"\n  "}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Enn eitt dæmi um óstýrt vélnám er það sem við getum nefnt "},{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"skapandi líkön"}]},{"type":"text","value":" (e. "},{"type":"element","tagName":"em","properties":{},"children":[{"type":"text","value":"generative modeling"}]},{"type":"text","value":"). Sú nálgun hefur á stuttum tíma náð talsverðri útbreiðslu vegna þeirra miklu framfara sem orðið hafa með djúpnámsaðferð sem nefnist á ensku "},{"type":"element","tagName":"em","properties":{},"children":[{"type":"text","value":"generative adversarial networks"}]},{"type":"text","value":" (GAN), og ef til vill mætti kalla „skapandi mótherjanet“. Skapandi líkan getur nýtt sér gagnasafn, til dæmis safn andlitsmynda, til að skapa nýjar myndir af sama tagi, þ.e. myndir sem eru fullkomlega raunverulegar að sjá en "},{"type":"element","tagName":"a","properties":{"href":"https://thispersondoesnotexist.com","target":"_blank","rel":["noopener","noreferrer"]},"children":[{"type":"text","value":"eru ekki myndir af raunverulegu fólki"}]},{"type":"text","value":"."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Við komum aftur að skapandi mótherjanetum síðar í námskeiðinu og fjöllum þá m.a. um hvaða afleiðingar það hefur að geta búið til myndir sem líkjast veruleikanum svona mikið, en fyrst ætlum við að líta betur á stýrt vélnám og hvernig það er notað."}]}],"data":{"quirksMode":false}},"excerpt":"Hér fyrir neðan eru sýnd nokkur dæmi um handskrifaðar tölur, tekin úr gagnagrunninum MNIST, sem er mjög oft notaður einmitt fyrir þetta…","frontmatter":{"path":"/is/4/1","title":"Mismunandi tegundir vélnáms","part":4,"type":"section","lang":"is","section":1}}},{"node":{"htmlAst":{"type":"root","children":[{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"lead","properties":{},"children":[{"type":"text","value":"Svonefnd grannaflokkun er ein allra einfaldasta flokkunaraðferðin. Þegar hún er notuð flokkar kerfið hvert nýtt atriði í samræmi við það atriði í þjálfunargögnunum sem á mest sameiginlegt með nýja atriðinu, og skilar frá sér merkimiða þess eða flokki. Dæmi um þetta er sýnt á myndunum hér fyrir neðan."}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"illustrations","properties":{"motive":"nearest-neighbor-graph-IS"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Á myndunum sést mengi atriða úr þjálfunargögnum sem tilheyra einum af tveimur flokkum — grænum eða bláum. Að auki eru tvö atriði úr prófunargögnum sýnd sem stjörnur, og við ætlum nú að flokka þau með grannaflokkun."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Prófunaratriðin lenda bæði í græna flokkinum vegna þess að næsti granni þeirra er í báðum tilvikum grænn (myndin hægra megin)."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Staðsetning dílanna á myndinni ræðst með einhverjum hætti af eiginleikum atriðanna sem þeir standa fyrir. Við notum hér tvívíða mynd — með öðrum orðum geta hreyfingar átt sér stað eftir tveimur sjálfstæðum ásum: upp eða niður og til vinstri eða til hægri — en það þýðir að við höfum aðeins rými til að lýsa tveimur eiginleikum hvers atriðis á myndinni. Við gætum til dæmis notað svipað mynd til að raða fólki sem er skráð á tiltekinni heilsugæslustöð eftir aldri og blóðsykursgildi. Dæmið hér á undan er þó fyrst og fremst myndræn lýsing á grunnhugmyndinni, þ.e. að röðun í flokk er látin ráðast af því hvað atriðin eiga sameiginlegt og hvernig þau eru í þeim skilningi „nálægt“ hvert öðru. Þetta takmarkast síður en svo við tvær víddir. Við getum auðveldlega notað grannaflokkun þó að víddirnar — þ.e. eiginleikarnir sem við viljum byggja flokkunina á — séu miklu fleiri en tvær (þó að auðvitað sé ógerningur að teikna slíka mynd á blað)."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Hvað er átt við með „næsta“ granna?"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Athyglisverð spurning sem tengist (meðal annars) grannaflokkun er hvernig við skilgreinum fjarlægð í þessu samhengi. Myndin hér fyrir ofan byggist á því — þó að við höfum ekki tekið það fram — að allar fjarlægðir séu eins og í venjulegu tvívíðu (eða þrívíðu) rými, svokölluðu evklíðsku rúmi. Það merkir einfaldlega að sé myndin teiknuð á blað (eða sýnd á tölvuskjá) getum við mælt fjarlægðina milli tveggja staða á henni til dæmis með því að draga þráð á milli þeirra og mæla lengdina á honum."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Skilgreiningin á „næsta“ granna","description":"Fjarlægð í rými er stundum óhentug, eða jafnvel ófær, leið til að finna næsta granna. Ef við þurfum til dæmis að flokka textabúta er ekki gott að sjá hvernig við getum sýnt líkindin með þeim sem fjarlægðir á mynd. Við verðum þess vegna að velja mælikvarðann í samræmi við það sem hentar hverju sinni."},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Þegar unnið er að aðferð til að bera kennsl á skrifaða tölustafi úr MNIST-gagnagrunninum er oft reynt að mæla hve mikið tvær myndir eiga sameiginlegt með því að telja sameiginlega díla. Við skoðum þá til dæmis vinstra hornið efst á báðum myndunum, teljum hversu margir dílar eru í sama eða svipuðum lit á því svæði á þeim báðum, og notum það sem mælikvarða á hversu líkar þær teljast vera. Við förum eins að með alla díla neðst til hægri á hvorri mynd, og á öllum öðrum hlutum myndanna. Samanburður af þessu tagi er þó mjög viðkvæmur fyrir tilfærslum og stærðarbreytingum. Ef mynd af tölustafnum „1“ er hnikað örlítið til vinstri eða hægri verður niðurstaða samanburðarins sú að myndirnar tvær (þ.e. fyrir og eftir tilfærslu) séu mjög ólíkar vegna þess að svörtu dílarnir eru ekki á sama stað á þeim báðum. Til þess að draga úr slíkum skekkjum hafa gögnin í MNIST-gagnagrunninum verið forunnin með því að miðja myndirnar. Það leysir þó ekki vanda á borð við mismunandi halla á handskrifuðu tölunum."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"illustrations","properties":{"motive":"recommendation-IS","color":"#ebe9ef","frombottom":"0","totalheight":"50%"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Grannaflokkun notuð til að segja fyrir um notendahegðun"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Dæmigert notkunarsvið grannaflokkunar í gervigreindarkerfum er þegar spá þarf fyrir um hegðun notenda til að geta gefið þeim ábendingar um tónlist til að hlusta á eða mælt með vörum í netverslun."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Byggt er á þeirri einföldu hugsun að notendur sem hafa sýnt svipaða hegðun hingað til muni einnig gera það áfram. Ímyndum okkur meðmælakerfi sem safnar gögnum um hvers konar tónlist notendur velja sér til hlusta á. Setjum sem svo að þú hafir hlustað mikið á diskótónlist, t.d. Bee Gees, Chic eða Village People. Tónlistarveitan sem þú notar kemst yfir klassískt diskólag sem hefur ekki verið gefið út lengi og bætir því í safnið. Kerfið þarf þá að segja fyrir um hvort lagið muni falla í kramið hjá þér. Þetta mætti gera með því að nota tónlistarstíl, söngvara eða hljómsveit og önnur svokölluð lýsigögn sem starfsmenn tónlistarveitunnar hafa fundið og skráð í kerfið. Upplýsingar af því tagi eru þó oft fremur fátæklegar og brotakenndar og nýtast þess vegna ekki til að gefa markvissar ábendingar."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Í staðinn er nú oftast notuð svokölluð „samvinnusíun“ (e. "},{"type":"element","tagName":"em","properties":{},"children":[{"type":"text","value":"collaborative filtering"}]},{"type":"text","value":"). Í því heiti vísar „samvinna“ til þess að gögn frá öðrum notendum eru notuð til að spá fyrir um hvað líklegt er að þú viljir hlusta á. Með „síun“ er síðan átt við að þú færð aðeins ábendingar um efni sem kemst í gegnum ákveðna síu. Efni sem líklegt er að þú kunnir að meta sleppur í gegn, annað ekki. (Þegar slíkar síur eru notaðar geta orðið til svokallaðar „skoðanabólur“ (e. "},{"type":"element","tagName":"em","properties":{},"children":[{"type":"text","value":"filter bubbles"}]},{"type":"text","value":"), sem við nefndum í 1. hluta. Við víkjum aftur að þeim hér á eftir.)"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Nú kemur í ljós að aðrir notendur sem hlusta á diskótónlist eru hrifnir af „nýja“ laginu og hlusta á það í sífellu. Kerfið veit þá annars vegar að hlustunarmynstur þitt er svipað og hjá öðrum sem hlusta á diskótónlist, og hins vegar að sá hópur er hrifinn af nýja laginu, og spáir því þess vegna að það muni líka falla þér í geð. Þetta verður til þess að lagið lendir ofarlega í listunum sem meðmælakerfið sýnir þér. Við getum einnig hugsað okkur að lagið sem bættist við þyki ekkert sérstaklega gott og að notendur með svipaða hegðun og þú hlusti lítið á það. Þá sýnir kerfið þér enga ábendingu um það, eða raðar því að minnsta kosti neðarlega á listunum."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Æfingin hér á eftir varpar ljósi á þetta."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"quiz","properties":{"quizid":"848a41f6-9b31-52ec-be78-226d14fb6578"},"children":[{"type":"text","value":"\n"}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"illustrations","properties":{"motive":"nearest-neighbor","color":"#ebe9ef","frombottom":"24.7%","totalheight":"63%"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Í æfingunni hér á undan höfðum við aðeins gögn frá sex kaupendum og þess vegna er líklegt að spáin hjá okkur hafi ekki verið mjög áreiðanleg. Í netverslunum skiptir fjöldi viðskiptavina hins vegar oft milljónum, og þær geta því safnað gríðarlegu magni upplýsinga um þann hóp. Oft er til stór hópur notenda sem hafa sýnt svipaða kauphegðun og þú, og innkaupasaga þeirra getur því gefið býsna góðar vísbendingar um hvað þú gætir haft áhuga á að kaupa."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Forsagnir eða spádómar af þessu tagi eiga það einnig til að rætast af sjálfum sér, í þeim skilningi að ef kerfið birtir ábendingar um tiltekna vöru eykur það líkurnar á að hún sé keypt, og þess vegna er erfitt að meta hversu mikil raunverulegt gagn er að ábendingum af þessu tagi. Sams konar meðmælakerfi eru notuð til að benda notendum á tónlist, kvikmyndir, fréttir og efni á samfélagsmiðlum. Hættan á að notendur lokist inni í skoðanabólum af þessum sökum er mest þegar um fréttir og samfélagsmiðla er að ræða."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"quiz","properties":{"quizid":"557258ee-4f3b-51f8-a732-8db40f35af58","peerreviewid":"ae752ef3-9ecd-59a2-ac86-3e620167c2cd"},"children":[{"type":"text","value":"\n"}]},{"type":"text","value":"\n"}]}],"data":{"quirksMode":false}},"excerpt":"Á myndunum sést mengi atriða úr þjálfunargögnum sem tilheyra einum af tveimur flokkum — grænum eða bláum. Að auki eru tvö atriði úr…","frontmatter":{"path":"/is/4/2","title":"Grannaflokkun","part":4,"type":"section","lang":"is","section":2}}},{"node":{"htmlAst":{"type":"root","children":[{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"lead","properties":{},"children":[{"type":"text","value":"Meginatriðið í þessum kafla er annað gott dæmi um stýrt vélnám sem er næstum eins einfalt og grannaflokkun, eða það sem kallað er línuleg aðhvarfsgreining (e. "},{"type":"element","tagName":"i","properties":{},"children":[{"type":"text","value":"linear regression analysis"}]},{"type":"text","value":"). Við nefnum líka aðra náskylda aðferð, eða tvíkosta aðhvarfsgreiningu (e. "},{"type":"element","tagName":"i","properties":{},"children":[{"type":"text","value":"logistic regression analysis"}]},{"type":"text","value":").\n"}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Hver er munurinn á flokkun og aðhvarfsgreiningu?","description":"Flokkun og aðhvarfsgreining eru báðar notaðar í stýrðu vélnámi, og á þeim er lítill en afar mikilvægur munur. Flokkunaraðferðir, til dæmis grannaflokkun, gefa svar eða niðurstöðu sem er tekin úr afmörkuðu mengi hugsanlegra svara (það mengi getur t.d. verið ruslpóstur/æskilegur póstur eða ein af tölunum 0,1...9). Þegar línuleg aðhvarfsgreining (eða önnur svipuð aðferð) er notuð er svarið hins vegar alltaf tala, sem þarf ekki að vera heil. Aðhvarfsgreining hentar því betur þegar svarið getur verið nánast hvaða tala sem er, t.d. verðið á tiltekinni vöru, fjarlægð milli tveggja hluta eða væntanlegar tekjur af næstu Star Wars-mynd."},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Línuleg aðhvarfsgreining byggist á þeirri grunnhugmynd að áætlað heildargildi er fengið með því að leggja saman áhrifin af einstökum breytum. Um þetta er notað tæknilega hugtakið línuleg samantekt (e. "},{"type":"element","tagName":"em","properties":{},"children":[{"type":"text","value":"linear combination"}]},{"type":"text","value":"). Hugmyndin er mjög einföld og við getum notað venjulega búðarkvittun til að útskýra hana."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Línuleg aðhvarfsgreining er eins og búðarkvittun","description":"Setjum sem svo að þú farir að versla og kaupir 2,5 kg af kartöflum, 1,0 kg af gulrótum og tvo lítra af mjólk. Ef kartöflurnar kosta 200 kr. hvert kg, gulræturnar 400 kr. hvert kg og mjólkurlítrinn 300 kr. þarftu að borga alls 2,5 × 200 kr. + 1,0 × 400 kr. + 2 × 300 kr. = 1.500 kr. við kassann. Þegar línuleg aðhvarfsgreining er notuð eru inntaksgögnin í dæmi eins og þessu hversu mikið er keypt af kartöflum, gulrótum og mjólk. Úttaksgögnin, eða niðurstaðan, er heildarverðið, og það ræðst auðvitað af verði hverrar vöru og hversu mikið er keypt af henni."},"children":[{"type":"text","value":"\n  "}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Orðið „línulegur“ felur í sér að við tiltekna aukningu í inntaksgögnum, eða einum þætti þeirra, kemur alltaf fram sama aukning í úttaksgögnum (niðurstöðu, svari). Það þýðir, með öðrum orðum, að þegar tvö kg af gulrótum bætast við innkaupin hækkar heildarverðið alltaf um 800 kr. Ef önnur 2 kg bætast við hækkar það aftur um 800 kr., og ef viðbótin er aðeins 1 kg hækkar verðið nákvæmlega helmingi minna, þ.e. um 400 kr."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"key-terminology","properties":{"terminologies":"[\n      {\"title\":\"Stuðlar og vægi\",\"content\":\"Þegar rætt er um línulega aðhvarfsgreiningu eru þættir á borð við verð mismunandi vörutegunda kallaðir stuðlar eða vægi. Einn helsti kosturinn við að nota línulega aðhvarfsgreiningu er hversu auðvelt er að túlka niðurstöður hennar. Stundum eru upplýsingar um vægi einstakra þátta í líkaninu áhugaverðari en gildið eða niðurstaðan sem líkanið skilar frá sér.<br><br>Dæmi um þetta er að þegar línuleg aðhvarfsgreining er notuð til að segja fyrir um lífslíkur er vægi reykinga (fjöldi vindlinga á dag) um það bil -0,5 ár, en það merkir að með hverjum vindlingi sem bætist við daglegar reykingar minnka lífslíkurnar um hálft ár að meðaltali. Á sama hátt er vægi tiltekins magns af grænmeti í fæðunni +1 ár. Með því að borða það magn af grænmeti daglega aukast lífslíkurnar sem sagt um eitt ár að meðaltali.\"}\n  ]"},"children":[{"type":"text","value":"\n"}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"quiz","properties":{"quizid":"8d3c98bf-e6e8-5d09-b68d-0617fcb072e0"},"children":[{"type":"text","value":"\n"}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Í æfingunni hér á undan hófum við útreikninginn á þeim stað að konur sem reykja ekki og sleppa öllu grænmeti geti vænst þess að ná 80 ára aldri. Tæknilega hugtakið fyrir slíkan upphafsstað í útreikningum er "},{"type":"element","tagName":"strong","properties":{},"children":[{"type":"text","value":"ássnið"}]},{"type":"text","value":" (e. "},{"type":"element","tagName":"em","properties":{},"children":[{"type":"text","value":"intercept"}]},{"type":"text","value":") eða einfaldlega skurðpunktur. Það hugtak kemur við sögu hér á eftir."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Línuleg aðhvarfsgreiningarlíkön"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Við ræddum það hér á undan hvernig línuleg aðhvarfsgreining skilar niðurstöðum þegar einstakir þættir inntaksgagnanna og vægi þeirra hvers um sig eru þekktar stærðir. Niðurstaðan, þ.e. úttaksgögnin, er reiknuð út á grundvelli fyrirliggjandi upplýsinga um inntökin og vægi þeirra."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Stundum eru þekktu stærðirnar hins vegar inntök og úttök fyrir tiltekinn fjölda staka, og þá er verkefnið fólgið í því að áætla vægi einstakra þátta með þeim hætti að forsögn líkansins fari sem næst niðurstöðunni sem úttaksgögnin sýna. Vélnám hentar afar vel til að leysa verkefni af þessu tagi."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Dæmi","description":"Við tökum aftur dæmi af matarinnkaupum og gerum ráð fyrir að við fáum í hendur upplýsingar um vörurnar í nokkrum innkaupakörfum og hvert heildarverðið var fyrir hverja þeirra um sig. Við erum beðin að finna verðið á hverri vörutegund (kartöflum, gulrótum o.s.frv.). Þá nægir okkur ekki að skoða aðeins eina innkaupakörfu, sem hefur t.d. að geyma 1 kg af þorskflökum, 2 kg af gulrótum og 3 lítra af mjólk, og kostar 5.500 kr. Þær upplýsingar nægja okkur ekki til að finna einingaverðið, því að sama niðurstaðan fæst með mörgum verðsamsetningum. Eftir því sem innkaupakörfunum fjölgar verður hins vegar auðveldara að finna lausn."},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Í reynd eru verkefni af þessu tagi oftast flóknari en þetta, því að raunveruleg niðurstaða ræðst ekki alltaf af inntaksgögnunum einum, heldur geta ýmsir óvissuþættir eða „suð“ komið við sögu. Dæmi um þetta eru viðskipti á útimarkaði þar sem verðið fyrir eina og sömu vöru getur breyst án afláts, og reikningur á veitingastað þar sem endanlegt verð ræðst af þjórfénu sem gefið er. Við slíkar aðstæður getum við að vísu áætlað verðið, en ekki af fullkominni nákvæmni."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Það er sígilt viðfangsefni í tölfræði, sem rekja má allt aftur til 19. aldar, að ákvarða vægi einstakra þátta með þeim hætti að sem minnstur munur verði á niðurstöðu líkansins — spánni — og raunverulegri niðurstöðu. Með tölvum nútímans er auðvelt að leysa slík verkefni jafnvel þótt unnið sé með mjög stór gagnasöfn."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Meðal reiknirita sem notuð eru í þessu skyni er svokölluð aðferð minnstu fervika, en við fjöllum ekki nánar um þau hér þó að þau séu tiltölulega einföld. Í æfingunum hér á eftir færðu hins vegar tilfinningu fyrir því hvernig þau vinna."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Línuleg aðhvarfsgreining útskýrð á myndrænan hátt"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Góð leið til að átta sig á hvernig línuleg aðhvarfsgreining er notuð er að teikna upp mynd sem sýnir bæði gögnin sem unnið er úr og niðurstöður línulegu greiningarinnar. Við notum einfalt dæmi þar sem inntakið er aðeins ein breyta, þ.e. hversu marga bolla af kaffi hver starfsmaður drekkur á dag, en úttakið er hversu margar línur af kóða sami starfsmaður skrifar á hverjum degi. Þetta eru auðvitað ekki raunveruleg gögn, því að afköst starfsmanns ráðast af mörgum þáttum, ekki kaffidrykkjunni einni, og milli slíkra þátta er flókin gagnverkun. Sömuleiðis eru takmörk fyrir því hversu mikið afköstin geta aukist, því að of mikil koffínneysla getur valdið óróleika og dregið úr einbeitingu."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"linearreg","properties":{},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Þegar gögnin eru sett fram eins og í grafinu hér fyrir ofan, þar sem hver starfsmaður er sýndur sem einn punktur, kemur fram skýr leitni í þá veru að aukin kaffidrykkja fjölgar línunum sem skrifaðar eru (gleymum því ekki að þetta eru algerlega tilbúin gögn). Úr þessum gögnum getum við lesið stuðul, eða vægi, hvers kaffibolla, og með því einu að horfa á grafið getum við áætlað að það vægi sé um fimm, þ.e. við hvern kaffibolla fjölgar línum af kóða þann daginn um fimm eða þar um bil. Þannig virðast starfsmenn sem drekka tvo kaffibolla á dag skrifa um 20 línur af kóða á dag, en þegar kaffibollarnir eru orðnir fjórir skrifar hver starfsmaður 30 línur á dag."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Við tökum líka eftir því að sumir starfsmenn drekka alls ekki kaffi en skrifa samt um 10 línur af kóða á dag. Við lesum þá tölu þar sem línan sníður eða sker lóðrétta ásinn á grafinu og þaðan er komið heitið „ássnið“ eða „skurðpunktur“ sem við nefndum hér á undan. Í líkaninu er ássniðið fasti sem við getum lesið úr gögnunum, rétt eins og vægi hverrar breytu. Eins og í dæminu af lífslíkunum getum við hugsað ássniðið sem upphafsstað útreikninganna, og við hann bætast síðan áhrif breytunnar — eða breytnanna ef þær eru fleiri en ein — hvort sem sú breyta er kaffibollar eins og í þessu dæmi, eða reykingar og grænmetisneysla eins og í fyrra dæminu."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Línan á grafinu er niðurstaða spálíkansins. Hún fæst fram með því að áætla ássniðið og stuðullinn með þeirri aðferð við línulega aðhvarfsgreiningu sem kölluð er aðferð minnstu fervika (e. least squares). Við getum lesið af línunni hversu margar línur af kóða gera má ráð fyrir að hver starfsmaður skrifi ef hann drekkur tiltekinn fjölda kaffibolla þann dag. Taktu eftir að við getum einnig spáð fyrir um þetta þó að miðað sé við minni skammta en einn bolla (t.d. hálfan bolla, ¼ úr bolla o.s.frv.)."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"exercise17","properties":{"quizid":"70229556-c647-5bdd-bb4a-c2f4b064773a"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"exercise18","properties":{"quizid":"debca275-d64a-525f-b47e-eff9b11cea37"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Rétt er að benda á að líkön eins og þau sem við notuðum í æfingunum hér á undan segja okkur ekkert um hugsanlegt orsakasamband. Við getum með öðrum orðum ekki ályktað neitt af þessum gögnum einum og sér hvort menntun eykur lífslíkur, t.d. með því að auka meðvitund fólks um heilbrigða lífshætti eða á annan svipaðan hátt, eða hvort tengslin sem við þykjumst sjá milli menntunar og aukinnar lífslengdar stafa af öðrum þáttum sem hafa áhrif á þetta hvort tveggja. Það er til dæmis líklegt að í löndum þar sem fólk er almennt vel menntað njóti íbúarnir einnig góðs mataræðis, fái góða heilbrigðisþjónustu og búi við öryggi, og allir þessir þættir auka lífslíkur. Einföld greining af þessu tagi gerir okkur aðeins kleift að finna tengsl eða fylgni milli einstakra þátta, en slík fylgni getur engu að síður haft mikið forspárgildi."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h3","properties":{},"children":[{"type":"text","value":"Notkun línulegrar aðhvarfsgreiningar í gervigreindarkerfum"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Á sviði gagnavísinda og gervigreindar er línuleg aðhvarfsgreining sannkallaður vinnuþjarkur. Aðferðinni eru ýmis takmörk sett, en á móti kemur að hún er einföld, auðvelt er að túlka niðurstöður hennar og notkunarsviðið er afar breitt. Línuleg aðhvarfsgreining hefur verið notuð með góðum árangri til að segja fyrir um:"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"ul","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"fjölda þeirra sem smella á tiltekna vefauglýsingu"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"eftirspurn á smásölumarkaði"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"miðasölutekjur Hollywood-kvikmynda"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"útgjöld vegna kaupa á hugbúnaði"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"tryggingaútgjöld"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"glæpatíðni"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"fasteignaverð"}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Getum við notað aðhvarfsgreiningu sem flokkunaraðferð?"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Eins og þegar hefur verið nefnt skila línuleg aðhvarfsgreining og grannaflokkun ólíkum niðurstöðum. Niðurstöður línulegrar aðhvarfsgreiningar eru tölulegar, en niðurstöður grannaflokkunar eru heiti eða „flokkar“ sem kerfið velur úr lokuðu mengi möguleika."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Kostur línulegrar aðhvarfsgreiningar umfram grannaflokkun er hversu auðvelt er að túlka niðurstöður hennar. Hvað þýðir það? Segja má að ekki sé sérstaklega erfitt heldur að túlka grannaflokkun og einstakar niðurstöður hennar. Hver niðurstaða er einfaldlega það stak í þjálfunargögnunum sem stendur næst stakinu sem á að flokka! Þó að þetta sé rétt er mikill munur á túlkun þessara tveggja líkana í heild eftir að þau hafa verið þjálfuð. Við getum aldrei túlkað grannaflokkunarlíkan á sama hátt og vægin í línulegri aðhvarfsgreiningu. Líkanið sem grannaflokkunin lærir að nota er ekkert annað en gagnasafnið í heild, og slíkt gagnasafn er oftast allt of stórt og flókið til að gefa okkur skýra mynd af nokkrum hlut. Er þá til aðferð sem skilar sams konar niðurstöðum og grannaflokkun, þ.e. segir okkur hvaða flokki stökin tilheyra, en er auðtúlkanleg á sama hátt og línuleg aðhvarfsgreining?"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Bjargvætturinn: tvíkosta aðhvarfsgreining"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Góðar fréttir! Við getum breytt niðurstöðunum sem línuleg aðhvarfsgreining skilar í forsagnir um flokka. Til þess er notuð aðferð sem ber nafnið tvíkosta aðhvarfsgreining (e. logistic regression). Við útskýrum ekki tæknilegu hliðina á þessu hér, en í allra einföldustu mynd fer þetta þannig fram að niðurstöðu línulegrar aðhvarfsgreiningar, sem er tiltekin tala, er breytt í spá um flokk „A“ ef gildið er jákvætt (> 0), og spá um flokk „B“ ef gildið er 0 eða neikvætt (≤ 0). Tvíkosta aðhvarfsgreining nýtist raunar ekki aðeins til að segja fyrir um flokka, heldur einnig til að meta óvissuna í þeirri spá eða forsögn. Ef við viljum segja fyrir um hvort viðskiptavinir fyrirtækis muni kaupa nýjan snjallsíma á árinu gæti spáin fyrir viðskiptavin A til dæmis orðið sú að hann muni kaupa síma, og líkindin á því séu 90%. Erfiðara er að túlka gögnin um viðskiptavin B og niðurstaðan um hann verður að hann muni ekki kaupa nýjan síma og líkindin á því séu 55% (með öðrum orðum eru 45% líkindi á að hann kaupi síma)."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Sömu nálgun má nota þótt flokkarnir séu fleiri en tveir. Tvíkosta aðhvarfsgreining nýtist þannig ekki aðeins þegar svarið er annað hvort já eða nei (nýr sími keyptur eða ekki, falsfréttir eða ekki, ruslpóstur eða ekki o.s.frv.), heldur einnig til dæmis þegar bera þarf kennsl á handskrifaða tölustafi, en þá eru flokkarnir tíu."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h3","properties":{},"children":[{"type":"text","value":"Dæmi um tvíkosta aðhvarfsgreiningu"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Ímyndum okkur að við höfum safnað gögnum um nemendur sem sækja matreiðslunámskeið. Nemendurnir gefa upp nafn, fá auðkenni í nemendaskránni, og eru einnig beðnir að gefa upp hversu löngum tíma þeir eyddu í undirbúning fyrir lokaprófið (hvernig sem undirbúningur fyrir próf í matreiðslu fer fram). Við treystum því að allir segi satt og rétt frá. Þegar einkunnirnar liggja fyrir vitum við hvaða nemendur stóðust prófið. Brot af þeim gögnum er sýnt hér í töflunni:"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"table","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"tbody","properties":{},"children":[{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"th","properties":{},"children":[{"type":"text","value":"Auðkenni"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"th","properties":{},"children":[{"type":"text","value":"Undirbúningstími (klst.)"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"th","properties":{},"children":[{"type":"text","value":"Staðist/fall"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n  "},{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"24"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"15"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"Staðist"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n  "},{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"41"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"9,5"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"Staðist"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n  "},{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"58"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"2"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"Fall"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n  "},{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"101"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"5"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"Fall"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n  "},{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"103"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"6,5"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"Fall"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n  "},{"type":"element","tagName":"tr","properties":{},"children":[{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"215"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"6"}]},{"type":"text","value":"\n    "},{"type":"element","tagName":"td","properties":{},"children":[{"type":"text","value":"Staðist"}]},{"type":"text","value":"\n  "}]},{"type":"text","value":"\n"}]}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Hvað segir þetta okkur um sambandið milli tímans sem fer í undirbúning og þess hvort nemandi stenst lokaprófið? Getum við komist að því hversu mikinn undirbúning þarf til að standast prófið með því að safna gögnum um nokkur hundruð nemenda? Við skulum hugsa okkur að við höfum slík gögn undir höndum og setjum þau upp í grafi eins og sést hér fyrir neðan."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"exercise19","properties":{"quizid":"be5f1f12-fcae-55f5-84d8-a25cce384690"},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Eins og aðferðirnar sem við ræddum hér á undan er tvíkosta aðhvarfsgreining einnig mikið notuð til að leysa raunveruleg vandamál, svo sem að spá fyrir um áhættu af fjárfestingum, í læknisfræðilegum rannsóknum o.fl. Hún hefur þó vissa línulega eiginleika sem takmarka notagildi hennar á sama hátt og á við um línulega aðhvarfsgreiningu, og við þurfum því að hafa ýmis önnur tól í verkfærakassanum. Þegar kemur að umfjölluninni um tauganet víkjum við aftur að þeim takmörkunum sem línuleiki þessara aðferða setur okkur."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"h2","properties":{},"children":[{"type":"text","value":"Takmarkanir vélnáms"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Sem samantekt á því sem við höfum fjallað um í þessum hluta námskeiðsins er óhætt að segja að vélnám sé mjög öflug aðferð við smíði gervigreindarkerfa. Auk grannaflokkunar, línulegrar aðhvarfsgreiningar og tvíkosta aðhvarfsgreiningar eru til hundruð, ef ekki þúsundir, annarra vélnámsaðferða. Allar stefna þær þó að sama marki, þ.e. að greina mynstur og tengsl í gögnunum og nota þær upplýsingar annað hvort til að öðlast skilning á tilteknu fyrirbæri eða segja fyrir um tiltekna niðurstöðu eða tiltekna þróun mála."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Viðfangsefni á sviði vélnáms geta verið afar krefjandi og yfirleitt tekst okkur ekki að smíða fullkomna aðferð sem gefur alltaf rétt svör. Oftast þurfum við þó ekki á fullkominni lausn að halda, heldur nægir okkur að finna góða lausn. Sum viðfangsefni eru þess eðlis að við getum sjálf sagt fyrir um einstakar niðurstöður af meiri nákvæmni en tölva, en vélnám getur engu að síður verið betri kostur. Tölvurnar vinna hraðar, skila meiri afköstum og þreytast aldrei. Góð dæmi um þetta eru meðmælakerfin sem notuð eru til að segja fyrir um hvaða tónlist, myndbönd eða auglýsingar muni höfða til okkar."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Þættirnir sem geta haft áhrif á hversu góðar niðurstöðurnar verða eru meðal annars:"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"ul","properties":{},"children":[{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"hversu erfitt verkefnið er: ef tölustafir eru mjög illa skrifaðir geta bæði maður og vél átt í stökustu erfiðleikum með að giska á rétta tölu"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"hvaða vélnámsaðferð er notuð: vissar aðferðir henta miklu betur en aðrar í sumum tegundum verkefna"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"hversu ítarleg þjálfunargögnin eru: ef byggja þarf á mjög fáum dæmum verður árangurinn af flokkuninni aldrei reglulega góður"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"li","properties":{},"children":[{"type":"text","value":"hversu góð gögnin eru, sjá hér á eftir"}]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"note","properties":{"heading":"Gæði gagnanna skipta máli","description":"Við nefndum í upphafi 4. hluta að mikilvægt væri að hafa nægilega mikið af gögnum og bentum á hætturnar sem fylgja ofmátun líkansins. Ekki er þó síður mikilvægt að hafa undir höndum nægilega <i>góð</i> gögn. Þjálfunargögnin verða að tengjast verkefninu sem þarf að leysa með nógu skýrum hætti til að við getum smíðað líkan sem nýtist til að greina önnur gögn. Ef flokkunarkerfi fyrir myndir á að segja til um hvað sést á hverri mynd sem lesin er inn, en kerfið er síðan þjálfað með hunda- og kattamyndum eingöngu, þá merkir kerfið allar myndir annað hvort sem hund eða kött. Þetta er fullkomlega rökrétt ef kerfinu er aðeins ætlað að flokka hunda- og kattamyndir, en út í hött ef það á líka að geta þekkt annað á myndunum, t.d. báta, bíla og blóm.<br><br>Við komum aftur að því í síðasta kaflanum hvernig farið er með svokölluð „bjöguð“ gögn."},"children":[]},{"type":"text","value":"\n"}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Það er einnig mikilvægt að hafa í huga að mismunandi er eftir verkefnum hvaða vélnámsaðferð hentar best. Engin ein aðferð skarar fram úr öðrum við allar aðstæður (ekkert „eitt reiknirit ræður þeim öllum...“). Sem betur fer er ekkert því til fyrirstöðu að prófa margar ólíkar aðferðir og komast þannig að því hver þeirra hentar best hverju sinni."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Með þessu erum við komin að afar mikilvægu atriði sem oft er þó lítið hugað að, þ.e. hvað það merkir að „henta best“. Þegar bera þarf kennsl á tölustafi er hentugasta aðferðin auðvitað sú sem flokkar tölustafina oftast rétt. Við getum mælt þetta með því að telja hversu oft flokkunarkerfið skilar rangri niðurstöðu. Þegar um fasteignaverð er að ræða er mælikvarðinn á aðferðina sem notuð er oft munurinn á spá líkansins um söluverð hverrar eignar og endanlegu söluverði. Í mörgum tilvikum getur skekkja í eina átt komið sér verr en skekkja í hina áttina. Ef fasteign er verðlögð of hátt getur salan dregist, en sé auglýst verð of lágt getur seljandinn tapað á því. Á sama hátt er það miklu alvarlegri skekkja ef gervigreindarkerfið í sjálfkeyrandi bíl sér ekki fótgangandi vegfaranda en þó að það greini ranglega að einhver standi á götunni."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"p","properties":{},"children":[{"type":"text","value":"Eins og við nefndum hér á undan getum við yfirleitt ekki komist hjá öllum villum og skekkjum, en oft er skekkja sem nemur t.d. 1 af 100 (eða 1%) fullkomlega viðunandi. Það fer þó einnig eftir aðstæðum. Við kærum okkur ekki um sjálfkeyrandi bíla sem aðeins sjá gangandi vegfarendur í 99% tilvika, en flestir yrðu trúlega ánægðir með kerfi sem gæti spáð fyrir um tónlist sem þeim líkar með þeirri nákvæmni. Til að ná þeim árangri sem stefnt er að er afar mikilvægt að hafa sett markmið alltaf skýrt í huga."}]},{"type":"text","value":"\n"},{"type":"element","tagName":"div","properties":{},"children":[{"type":"text","value":"\n  "},{"type":"element","tagName":"part-summary","properties":{"chapter":"4","heading":"Eftir þessa yfirferð á 4. hluta ættir þú að geta:","listitems":"[\n  {\"content\":\"útskýrt ástæðurnar fyrir því að vélnámsaðferðir eru notaðar\"},\n  {\"content\":\"gert greinarmun á stýrðu og óstýrðu vélnámi og hvernig þær aðferðir eru notaðar\"},\n  {\"content\":\"útskýrt undirstöðuatriði þriggja stýrðra flokkunaraðferða: grannaflokkunar, línulegrar aðhvarfsgreiningar og tvíkosta aðhvarfsgreiningar\"}\n    ]"},"children":[{"type":"text","value":">\n  "}]},{"type":"text","value":"\n"}]}],"data":{"quirksMode":false}},"excerpt":"Línuleg aðhvarfsgreining byggist á þeirri grunnhugmynd að áætlað heildargildi er fengið með því að leggja saman áhrifin af einstökum breytum…","frontmatter":{"path":"/is/4/3","title":"Aðhvarfsgreining","part":4,"type":"section","lang":"is","section":3}}}]},"allParts":{"totalCount":6,"edges":[{"node":{"frontmatter":{"title":"Hvað er gervigreind?","path":"/is/1","section":null,"part":1,"lang":"is","bannerImage":{"publicURL":"/static/5cb707dcbce557b358c736c82a82b847/banner1.png"}}}},{"node":{"frontmatter":{"title":"Að leysa vandamál með gervigreind","path":"/is/2","section":null,"part":2,"lang":"is","bannerImage":{"publicURL":"/static/3217219fe81de9c2f030e51f04557962/banner2.png"}}}},{"node":{"frontmatter":{"title":"Gervigreind í verki","path":"/is/3","section":null,"part":3,"lang":"is","bannerImage":{"publicURL":"/static/8433f94cdf930cb1172a332eda51a0ae/banner3.png"}}}},{"node":{"frontmatter":{"title":"Vélnám","path":"/is/4","section":null,"part":4,"lang":"is","bannerImage":{"publicURL":"/static/fdc0e4c1dc187a976325542364658e54/banner4.png"}}}},{"node":{"frontmatter":{"title":"Tauganet","path":"/is/5","section":null,"part":5,"lang":"is","bannerImage":{"publicURL":"/static/8d6d86ca3c422d98b6213f5ddfbe8c07/banner5.png"}}}},{"node":{"frontmatter":{"title":"Áhrif á daglegt líf","path":"/is/6","section":null,"part":6,"lang":"is","bannerImage":{"publicURL":"/static/2943d36053a6dd8bd40b3dc3832bb0f8/banner6.png"}}}}]},"currentPart":{"htmlAst":{"type":"root","children":[],"data":{"quirksMode":false}},"frontmatter":{"path":"/is/4","title":"Vélnám","part":4,"lang":"is","quote":"Það er vel þekkt að lærdómur er einn veigamesti þáttur greindar. Þetta á bæði við um náttúrulega greind — við getum öll aukið greind okkar með því að læra meira — og gervigreind.","quoteAuthor":"","bannerImage":{"publicURL":"/static/fdc0e4c1dc187a976325542364658e54/banner4.png"}}},"allSections":{"totalCount":18,"edges":[{"node":{"frontmatter":{"title":"Leit og þrautalausn","path":"/is/2/1","section":1,"part":2,"lang":"is"}}},{"node":{"frontmatter":{"title":"Hlutfallslíkur og líkindi","path":"/is/3/1","section":1,"part":3,"lang":"is"}}},{"node":{"frontmatter":{"title":"Mismunandi tegundir vélnáms","path":"/is/4/1","section":1,"part":4,"lang":"is"}}},{"node":{"frontmatter":{"title":"Grundvallaratriði tauganeta","path":"/is/5/1","section":1,"part":5,"lang":"is"}}},{"node":{"frontmatter":{"title":"Spáð í framtíðina","path":"/is/6/1","section":1,"part":6,"lang":"is"}}},{"node":{"frontmatter":{"title":"Hver er skilgreiningin á gervigreind?","path":"/is/1/1","section":1,"part":1,"lang":"is"}}},{"node":{"frontmatter":{"title":"Lausn þrauta með gervigreind","path":"/is/2/2","section":2,"part":2,"lang":"is"}}},{"node":{"frontmatter":{"title":"Bayes-reglan","path":"/is/3/2","section":2,"part":3,"lang":"is"}}},{"node":{"frontmatter":{"title":"Grannaflokkun","path":"/is/4/2","section":2,"part":4,"lang":"is"}}},{"node":{"frontmatter":{"title":"Hvernig eru tauganet byggð upp?","path":"/is/5/2","section":2,"part":5,"lang":"is"}}},{"node":{"frontmatter":{"title":"Samfélagsleg áhrif gervigreindar","path":"/is/6/2","section":2,"part":6,"lang":"is"}}},{"node":{"frontmatter":{"title":"Skyld fræðasvið","path":"/is/1/2","section":2,"part":1,"lang":"is"}}},{"node":{"frontmatter":{"title":"Leit og leikir","path":"/is/2/3","section":3,"part":2,"lang":"is"}}},{"node":{"frontmatter":{"title":"Einföld Bayes-flokkun","path":"/is/3/3","section":3,"part":3,"lang":"is"}}},{"node":{"frontmatter":{"title":"Aðhvarfsgreining","path":"/is/4/3","section":3,"part":4,"lang":"is"}}},{"node":{"frontmatter":{"title":"Háþróaðar tauganetsaðferðir","path":"/is/5/3","section":3,"part":5,"lang":"is"}}},{"node":{"frontmatter":{"title":"Samantekt","path":"/is/6/3","section":3,"part":6,"lang":"is"}}},{"node":{"frontmatter":{"title":"Gervigreind og heimspeki","path":"/is/1/3","section":3,"part":1,"lang":"is"}}}]},"site":{"siteMetadata":{"languages":{"defaultLangKey":"en","langs":["en","fi","se","de","ee","fr","it","fr-be","no","lt","lv","nl-be","mt","hr","pl","en-ie","ga","nl","sk","da","ro","sl","is","de-at","en-lu","bg","cs","pt","es","el"]}}}},"pageContext":{"part":4,"type":"section","lang":"is"}},"staticQueryHashes":["3539470774","3539470774"]}