Nadzorovano učenje

Samodejno izboljševanje algoritmov ob pridobivanju izkušenj $\to$ gradnja modela z analizo učnih podatkov

Učni primeri so podani kot vrednosti vhodov in izhodov - označenih učnih primerov

(x_{1}, y_{1}), ..., (x_{n}, y_{n}) x_{j} y_{j} ... u \overset{c}{ˇ} ni p r im er i ... a t r ib u t i ... v re d n os t n ez nan e f u nk c ij e y = f (x)

Učimo se funkcije, ki preslika vhode v izhode: iščemo funkcijo $h$ … hipoteza, ki je najboljši približek funkciji $f$

Vrste problemov

Klasifikacijski problemi

$y$ je diskretna spremenljivka - razred (končen nabor vrednosti)
Atributna predstavitev podatkov: vsak učni primer (vrstice) ima vrednosti atributov (stolpci)

Regresijski problemi

$y$ je zvezna spremenljivka - označba (npr. število)

Evalviranje hipotez

Prostor hipotez lahko vsebuje več hipotez, ki so konsistentne z učno množico
Dobra hipoteza je dovolj splošna: pravilno napoveduje vrednost $y$ tudi za še nevidene primere
Kriteriji evalviranja hipotez: konsistentnost (z učnimi primeri), splošnost, razumljivost
Točnosti hipotez: TP, TN, FP, FN
Klasifikacija točnosti:

C A = \frac{TP + TN}{TP + TN + FP + FN} = \frac{TP + TN}{N}

Odločitvena drevesa

Odločitveno drevo: model, ki ponazarja relacijo med atributi in odločitvijo / ciljno spremenljivko:

notranja vozlišča ~ pogoji glede na vrednost atributa
listi ~ odločitev
pot ~ konjunkcija pogojev na poti do lista

Cilj: gradnja čim manjšega drevesa, ki je konsistentno z učnimi podatki

Top Down Induction of Decision Trees

Hevristični požrešni algoritev:

izberi najpomembnejši atribut - najbolj vpliva na klasifikacijo primera
rekurzivno razdeli primere v poddrevesa glede na njihove vrednosti
če vsi elementi v listu pripadajo istemu razredu, ustavi gradnjo

Požrešni algoritem je kratkoviden - izbira “lokalni” najboljši atribut, ne upošteva povezav med atributi, ki pripeljejo do optimalne rešitve

Iskanje najpomembnejšega atributa

Entropija / nedoločenost minimiziramo:

H = - k \sum p_{k} * l o g_{2} p_{k} [bi t in f or ma c ij e]

Informacijski prispevek maksimiziramo:

G ain (A) I_{res} = i \sum p_{v_{i}} * H (c / v_{i}) = I - I_{res} (A) = - i \sum p_{v_{i}} * c \sum p (c / v_{i}) * l o g_{2} p (c / v_{i})

I ... I_{res} ... I (A) ... z a \overset{c}{ˇ} e t na e n t ro p ija res i d u a l na e n t ro p ija e n t ro p ija a t r ib u t a

Večvrednostni atributi

Problem: informacijski prispevek precenjuje kakovost večvrednostnih atributov (višja entropija zaradi več vrednosti, namesto zaradi kakovosti)
Rešitve:

Normalizacija informacijskega prispevka - relativni informacijski prispevek (information gain ratio):

G ain R a t i o (A) = \frac{G ain ( A )}{I ( A )}

Uporaba alternativnih mer - Gini index:

G ini G ini (A) = c_{1} \neq = c_{2} \sum p (c_{1}) * p_{(} c_{2}) = v \sum p (v) c_{1} \neq = c_{2} \sum p (c_{1} / v) * p (c_{2} / v)

Diskretizacija / binarizacija atributov - zalogo vrednosti razbijemo v 2 / več diskretnih množic
Diskretni atributi: odločitvena drevesa delijo prvotno množico na vse manjše podmnožice
Zvezni atributi: delitev podmnožice glede na smiselno mejo izbranega atributa
- intervali enake širine / z enako frekvenco primerov / maksimizirajo informacijski prispevek
- prostor tako delimo na particije (hiper-kvadre), katerih meje so vzporedne koordinatnim osem

Manjkajoči atributi

Učenje: ignoriramo / uporaba vrednosti NA/UNKNOWN / nadomestimo z npr. povprečjem
Napovedovanje: verjetnostna klasifikacija glede na vse možne vrednosti atributa

Uporabnost odločitvenega drevesa

Privzeta točnost: minimalna pričakovana točnost drevesa je verjetnost večinskega razreda v učni množici (če je manjša vzamemo kar splošno bolj verjetno opcijo)
Pretirano prilagajanje (overfitting): izguba splošnosti ob prevelikem prilagajanju učnim podatkom $\to$ uporaba nevidenih/testnih primerov iz množice učnih primerov za sprotno preverjanje med gradnjo drevesa

Učenje dreves iz šumnih podatkov

Nepopolni podatki z napakami $\to$ učenje šuma, slaba razumljivost, nižja klasifikacijska točnost, overfitting
Rezanje odločitvenega drevesa: posplošitev drevesa z rezanjem šumnih in pretirano prilagojenih nižjih delov drevesa

Strategije rezanja

Rezanje vnaprej (forward pruning)

Uporaba dodatnega kriterija glede na obseg šuma za zaustavitev gradnje drevesa $\to$ hitrejše, a kratkovidno

Rezanje nazaj (post-pruning)

Po gradnji drevesa odstranimo manj zanesljive dele drevesa $\to$ počasnejše, a upoštevamo informacijo celega drevesa

Rezanje z zmanjšanjem napake (Reduced Error Pruning)

Uporaba rezalne/validacijske množice primerne velikosti za zanesljivost (npr. vzamemo 30% učnih primerov)
Postopek:

Potuj po vozliščih od vključno staršev listov drevesa navzgor
št. napačnih klasifikacij v listih poddrevesa $\geq$ št. napačnih klasifikacij v vozlišču $\to$ ohrani samo vozlišče (reži potomce)

Rezanje z minimizacijo napake (Minimal Error Pruning)

Uporaba učne množice (in ne ločene rezalne množice)
Cilj: minimizacija klasifikacijske napake $E$ / maksimizacija točnosti $C A$
Postopek:

Za vozlišče izračunamo:
- statično napako - verjetnost klasifikacije v napačen razred

e (v) = p (r a zre d \neq = C / v)

- ==vzvratno napako==

i \sum p_{i} E (T_{i}) = p_{1} E (T_{1}) + p_{2} E (T_{2}) + ...

Režemo, če: $stati \overset{c}{ˇ} na napaka < vzvratna napaka$
Napaka optimalno obrezanega drevesa:

E (T) E (T) = e (v) = min (e (v), i \sum p_{i} E (T_{i})); v j e l i s t; s i cer

Ocenjevanje verjetnosti

Relativna frekvenca: v listih z malo primeri ni dobra ocena (hitro spreminjajoča)
Ocena verjetnosti: boljša stabilnost z upoštevanjem apriorne verjetnosti: domensko znanje verjetnosti o problemu (npr. 50% pri metu kovanca)

Laplaceova ocena verjetnosti

Ne upošteva apriorne verjetnosti

p = \frac{n + 1}{N + k}

$n$ … št. primerov v razredu C
$N$ … št. vseh primerov
$k$ … št. vseh razredov

m-ocena verjetnosti

Posplošitev Laplaceove ocene za $m = k$ in $p_{a} = \frac{1}{k}$

p = \frac{n + p _{a} m}{N + m} = p_{a} \frac{m}{N + m} + \frac{n}{N} \frac{N}{N + m}

$p_{a}$ … apriorna verjetnost razreda C
$m$ … parameter vpliva apriorne verjetnosti ( $m$ linearno korelira z močjo rezanja)

Ocenjevanje učenja

Nasprotujoča cilja: potrebujemo hkrati čimveč podatkov za učenje in za ocenjevanje točnosti

učnih podatkov dovolj $\to$ naključno ali stratificirano izločimo testno množico
učnih podatkov premalo $\to$ večkratne delitve na učno in testno množico

Prečno preverjanje

k-kratno prečno preverjanje (k-fold cross-validation): najpogosteje $k = 10$

Celo učno množico razbij na $k$ disjunktnih množic
Za vsako od $k$ podmnožic izberi testno množico $\to$ ostale so učne in vsakič oceni točnost
Povpreči dobljenih $k$ ocen točnosti v končno oceno

Negiranje vpliva izbranega razbitja na podmnožice:

večkrat ponovimo preverjanje z različnimi razbitji
metoda izloči enega (Leave-One-Out): $k = \overset{s}{ˇ} t. primerov$ $\to$ testna množica je 1 primer

Naivni Bayesov klasifikator

Bayesovo pravilo izraža diagnostično pogojno verjetnost na podlagi vzorčne pogojne verjetnosti

P (hi p o t ez a / o p a \overset{z}{ˇ} anj e) = \frac{P ( o p a z ˇ anj e / hi p o t ez a ) * P ( hi p o t ez a )}{P ( o p a z ˇ anj e )}

Verjetnost razreda $C$ (hipoteze) pri podanih vrednostih atributov:

P (C / X_{1} X_{2} ... X_{n}) = \frac{P ( C ) * P ( X _{1} / X _{2} ... X _{n} )}{P ( X _{1} X _{2} ... X _{n} )}

Poznavanje velikega števila pogojnih verjetnosti verižnega pravila je v praksi težavno:

P (X_{1} X_{2} ... X_{n}) = P (X_{1} / X_{2} ... X_{n}) * P (X_{2} / X_{3} ... X_{n}) * ... * P (X_{n - 1} / X_{n}) * P (X_{n})

Zato predpostavimo medsebojno neodvisnost - dobri približki:

P (C / X_{1} X_{2} ... X_{n}) \sim \frac{P ( C ) * \prod _{i} P ( X _{i} / C ))}{\prod _{i} P ( X _{i} )}

Bayesov klasifikator: primer klasificiramo v najbolj verjeten razred

h (C / X_{1} X_{2} ... X_{n}) = P (C) * i = 1 \prod n P (X_{i} / C)

učenje: ocenimo verjetnosti $P (C_{k})$ in $P (X_{i} / C_{k})$ za vse razrede $C_{k}$ in vrednosti atributov $X_{i}$
napovedovnje: uporaba zgornje enačbe za napoved razreda novim primerom + normalizacija rezultatov (poenostavitev formule $\to$ $\sum P (C) \neq = 1$ )

Nomogrami

Nomogram: grafična upodobitev numeričnih odnosov med spremenljivkami $\to$ pristop k vizualizaciji naivnega Bayesovega modela

pomembnost posameznih vrednosti vsakega atributa na ciljni razred
pomembnost posameznih atributov na ciljni razred

Vsaka vrednost atributa doprinaša določeno št. točk k skupni vsoti točk, razpon točk atributa predstavlja pomembnost atributa na napoved ciljnega razreda

Izračun nomograma

Logistična funkcija: verjetnost na intervalu $[0, 1]$ preslika na interval $(- \infty, \infty)$

l o g i t P = l o g \frac{P}{1 - P}

l o g i t h (C / X_{1} X_{2} ... X_{n}) = ... = l o g i t P (C) + i \sum l o g \frac{P ( X _{i} / C )}{P ( X _{i} / C )} = l o g i t P (C) + i \sum l o g OR (X_{i})

Edino razmerje verjetja (Odds Ratio) je odvisno od vrednosti atributov $X_{i}$ $\to$ uporabimo za točkovanje doprinosa atributa

t o \overset{c}{ˇ} k e (C / X_{i}) = l o g OR (X_{i}) = l o g \frac{P ( X _{i} / C )}{P ( X _{i} / C )}

t o \overset{c}{ˇ} k e (C / X_{1} X_{2} ... X_{n}) = ... = i \sum l o g \frac{\frac{P ( X _{i} / C )}{P ( X _{i} / C )}}{\frac{P ( C )}{P ( C )}}

Metoda k najbližjih sosedov

neparametrična metoda - ne ocenjuje parametrov
leno učenje - z učenjem odlaša vse do povpraševanja o novem primeru
učenje na podlagi posameznih primerov

Metoda: poišči k primerov, ki so najbližji glede na podano mero razdalje

klasifikacija $\to$ napovej večinski razred
regresija $\to$ povprečna vrednost označb sosedov

Izbira k (običajno $k = 5$ ):

liho št. $\to$ izognemo se neodločenim primerom
premajhen / prevelik $\to$ pretirano / prešibko prilagajanje

Mere razdalj:

razdalja Minkowskega:

L^{p} (x_{i}, x_{j}) = (k \sum ∣ x_{i, k} - x_{j, k} ∣^{p})^{\frac{1}{p}}

evklidska razdalja: $p = 2$
manhattanska razdalja: $p = 1$

Diskretni atributi $\to$ Hammingova razdalja … št. neujemajočih atributov
Zvezni atribti $\to$ razlika med vrednostma

različno veliki intervali vrednosti $\to$ normalizacija
več dimenzij $\to$ prekletstvo dimenzionalnosti … primere to naredi bolj odmaknjene

k najbližjih sosedov za regresijo

Naloga: najti k primerov, ki so najbližji glede na podano mero razdalje
Izračun napovedi $\to$ utežena vsota: $w_{i}$ … utež

h (x_{?}) = \frac{\sum _{i = 1}^{k} w _{i} * f ( x _{i} )}{\sum _{i = 1}^{k} w _{i}}

za funkcijo $f$ uporabimo poljubno jedrno funkcijo, npr. Gaussovo jedro

Regresijska drevesa

Listi v regresijskem drevesu zvezne ciljne spremenljivke predstavljajo nek napovedn model (npr. povprečno vrednost)

Srednja kvadratna napaka vozlišča v: mera nedoločenosti, ki jo želimo minimizirati

MSE (v) = \frac{1}{n} i = 1 \sum n (y_{i} - \overline{y})^{2}

Pričakovana rezidualna nečistost:

I_{res} (A) = p_{l e f t} * l_{l e f t} + p_{r i g h t} * l_{r i g h t}

Linearna regresija

Linearna regresija: iskanje funkcije z eno odvisno spremenljivko (in večimi utežmi), ki se najbolje prilega učnim podatkom

h (x) = w_{1} x + w_{0}

Računanje / optimizacija z minimizacijo srednje kvadratne napake:

na p aka (h) = j = 1 \sum N (y_{j} - (w_{1} x_{j} + w_{0}))^{2}

Analitična rešitev:

w_{1} w_{2} = \frac{N ( \sum x _{j} y _{j} ) - ( \sum x _{j} ) ( \sum y _{j} )}{N ( \sum x _{j}^{2} ) - ( \sum x _{j} ) ^{2}} = \frac{\sum y _{j} - w _{1} ( \sum x _{j} )}{N}

Uporaba: klasifikacija - separator razredov / regresija - prileganje skozi podane točke

Posplošitev v več dimenzij

Več neodisnih spremenljivk:

h (x) = w_{0} + i \sum w_{i} x_{j, i}

Določevanje uteži:

analitično: $w = (X^{T} X)^{- 1} X^{T} y$
gradientni spust - približek, a veliko hitrejši od analitičnega
$η$ … hitrost učenja
$x_{i}$ … vrednost $i$ -tega atributa učnega primera

Linearni modeli pri klasifikaciji

Stohastični gradientni spust: preprosto iskanje rešitve s posodabljanjem uteži za vsak učni primer, hitrejše učenje kot pri klasičnem gradientnem spustu

w_{i} \leftarrow w_{i} + η * (y - h (x)) * x_{i}

$y$ … ciljna vrednost
$h (x)$ … izhodna vrednost za učni primer

		$y - h (x)$	$(y - h (x)) * x_{i}$	rezultat
$y = h (x)$	izhod enak ciljni vrednosti	0	ni popravka	utež ostane enaka
$y > h (x)$	potreben popravek $h (x)$ navzgor	>0	$x_{i} > 0 ⟹ > 0$ $x_{i} < 0 ⟹ < 0$	utež povečamo za pozitivne $x_{i}$ utež zmanjšamo za negativne $x_{i}$
$y < h (x)$	potreben popravek $h (x)$ navzdol	<0	$x_{i} > 0 ⟹ < 0$ $x_{i} < 0 ⟹ > 0$	utež zmajšamo za pozitivne $x_{i}$ utež povečamo za negativne $x_{i}$

Nevronske mreže

Umetni nevron izračuna uteženo linearno kombinacijo vhodov in jo z aktivacijsko funckcijo preslika v izhodno vrednost

a_{j} = g (i \sum w_{i, j} a_{i}) = g (z_{i})

Nevronska mreža: medsebojno povezani nevroni lahko izračunavajo bolj kompleksne funkcije (medsebojno kombiniranje funkcij)
Implementacije:

feed-forward network: aciklične povezave od vhoda proti izhodu - organizacija v plasti, možen en ali več izhodnih nevronov (napoved ene zvezne vrednosti ali klasifikacija)
rekurenčna mreža: izhodi kot ponovni vhodi v mrežo $\to$ dinamičen sistem z notranjim stanjem
konvolucijske mreže

Vzvratno razširjanje napake

Inicializacija uteži: majhne neničelne naključne vrednosti
Izračun napovedi za učne primere
Izračun izgube - funkcije napake na izhodnih nevronih
Vzvratno razširjanje napake od izhoda proti vhodu: izračun gradienta napake za izhodni in skriti nivo
Gradientni spust z določeno hitrostjo učenja za popravke vrednosti uteži po formuli

Ponavljaj korake 2-5 do ustavitvenega kriterija: izbrano št. epoh, znižanje napake do željene meje, …

Učenje nevronske mreže

Ovrednotimo napako s primerjavo aktivacij nevronov izhodne plasti in ciljnih vrednosti
Cilj: minimizacija napake preko nastavljanja uteži

SubNotes

Explorer