На диаграмата по-горе виждаме множество от елементи на данни за обучение, някои от които спадат към един или друг клас (зелено или синьо). Освен това има два елемента от тестови данни (звездите), които ще класифицираме по метода на най-близкия съсед.
И двата тестови елемента са класифицирани в клас „зелено“, защото най-близките им съседи са зелени (вижте диаграма б) по-горе).
Разположението на точките по кривата донякъде представя свойствата на елемента. Тъй като начертахме диаграма на плоска двуизмерна повърхност (т.е. можем да се движим в две независими посоки — нагоре и надолу или наляво и надясно), елементите имат две свойства, които можем да използваме за сравнение. Да вземем за пример представянето на болнични пациенти по възраст и ниво на кръвната захар. Диаграмата по-горе трябва да се приема само като визуален инструмент за онагледяване на принципната идея, а именно свързването на стойностите за клас с подобието и близостта. Тази принципна идея в никакъв случай не е ограничена до две измерения. Напротив, класификаторът по най-близкия съсед може лесно да се прилага при елементи с много повече от две свойства.
Един интересен въпрос, свързан с класификатора по най-близкия съсед (и с други неща), е как се определя разстоянието или подобието между примерите. В илюстрацията по-горе допуснахме, че е използвано стандартното геометрично разстояние, което технически се нарича евклидово разстояние. Казано по-просто, това означава, че ако точките се нанесат на лист хартия (и на екрана ви), можете да измерите разстоянието между два елемента, като опънете конец помежду им и измерите дължината му.
Бележка
Използването на геометричното разстояние за намиране на най-близкия елемент вероятно невинаги е разумно или дори възможно — например ако входните данни са текст, където не е ясно как елементите могат да се представят геометрично и как трябва да се измерят разстоянията. Затова трябва да избирате метриката за определяне на разстоянието в зависимост от случая.
В случая с разпознаването на цифри от набора MNIST един популярен начин да се измери подобието между изображения е като се преброят сходствата им пиксел по пиксел. С други думи, сравняваме пикселите в горния ляв ъгъл на всяко изображение и колкото по-подобни са цветовете им (нюанси на сивото), толкова по-сходни са двете изображения. Сравняваме също пикселите в долния десен ъгъл на всяко изображение и всички останали пиксели в средата. Техниката се влияе чувствително от наклона или мащаба на изображенията. Така например, ако вземем изображение на цифрата 1 и го наклоним макар и малко наляво или надясно, двете изображения (преди и след промяната) ще са много различни, защото и в двете изображения черните пиксели са с различно местоположение. За щастие, данните от набора MNIST са обработени предварително и изображенията са центрирани, така че този проблем е решен.
Един обикновен пример за прилагане на метода за най-близкия съсед е предвиждането на потребителското поведение от приложения, основани на ИИ, като например системите за препоръчване на съдържание.
Идеята е да използваме основния принцип, според който потребителите със сходно поведение в миналото обикновено имат сходно поведение в бъдещето. Да вземем за пример система за препоръчване на музика, която събира данни за потребителските навици на слушателите. Да речем, че слушате диско от 80-те (само за пример). Един ден доставчикът на услуги успява да се сдобие с много рядка диско класика от 80-те и я добавя в музикалната библиотека. Задачата на системата е да предвиди дали вие ще я харесате или не. За целта бихме могли да използваме информацията за жанра, изпълнителя и други метаданни, въведени от старателния екип на доставчика на услуги. Тази информация обаче е сравнително оскъдна и не е подробна, тоест от нея могат да се направят само приблизителни прогнози.
Вместо ръчно въведени метаданни днешните системи за препоръчване на съдържание използват т.нар. колаборативно филтриране. Тук колаборативният аспект е, че се използват данни от други потребители за предвиждане на вашите предпочитания. С думата „филтър“ се има предвид това, че ще ви бъде препоръчано съдържание, което се филтрира. Съдържанието, което вие вероятно харесвате, ще премине през филтъра, а останалото ще бъде отсято (този вид филтри могат да създадат т.нар. филтърни балони, които споменахме в глава 1, но тях ще разгледаме по-нататък).
А сега да предположим, че други потребители, които са слушали диско от 80-те, харесват новото попълнение във фонотеката и го слушат непрекъснато. Системата ще установи сходство между вашето поведение в миналото и това на другите ценители на диско музиката от 80-те и тъй като те харесват новото попълнение, системата ще предвиди, че то ще допадне и на вас. Затова въпросната песен ще бъде изведена в началото на представения ви списък с препоръки. В една алтернативна реалност добавената песен не е чак толкова страхотна и не се харесва на другите потребители, с музикални навици, сходни на вашите в миналото. В такъв случай системата няма да ви я препоръча или поне няма да я изведе на предна позиция в списъка с препоръчвани изпълнения.
Ще илюстрираме тази идея със следващото упражнение.
В примера по-горе разполагахме с данните само на шестима потребители и вероятно прогнозата ни не е много надеждна. Уебсайтовете за онлайн пазаруване обаче често имат милиони потребители, които генерират огромен обем данни. В повечето случаи има много голяма група потребители, чието поведение в миналото е било много подобно на вашето, като от тяхната потребителска история могат да се извлекат ценни данни за интересите ви.
Тези прогнози могат да са и самоизпълняващи се пророчества в смисъл, че има по-голяма вероятност да закупите даден продукт, ако той ви е препоръчан от системата, което усложнява оценката на ефективността им. Същият вид системи за препоръчване на съдържание се използват и за препоръчване на музика, филми, новини и съдържание в социалните медии. В контекста на новинарските и социалните медии, създаваните от такива системи филтри могат да доведат до възникването на филтърни балони.