Úvod do AI – cvičení

A*CSP Automatické plánování Pravděpodobnost Teorie her Strojové učení

A*

u Dijkstra v nekonečném grafu použijeme hashovací tabulku
v A* heuristice nevybíráme vrcholy u podle vzdálenosti od startu, ale přičteme k ní heuristiku vzdálenosti od cíle
- v domácím úkolu to vrací heuristiku nula (tzn. je to Dijkstra)
- chceme, aby byla heuristika nezáporná
- heuristika by neměla přestřelovat skutečnou vzdálenost
  - tzn. měla by být přípustná
  - pokud přestřelí, může se stát, že nalezená cesta nebude nejkratší
- v reálném světě je vhodná heuristika vzdálenost vzdušnou čarou
heuristika
- přípustnost $0\leq h(u)\leq c^*(u)$
- monotonie $0\leq h(u)\leq h(v)+c(u,v)$
příklady metrik, jejich vlastnosti pro silniční síť
- Euklidovská – je přípustná, je i monotónní
  - $h(u,t)\leq h(u,v)+h(v,t)\leq c(u,v)+h(v,t)$ $h (u, t) \leq h (u, v) + h (v, t) \leq c (u, v) + h (v, t)$
    - z trojúhelníkové nerovnosti a přípustnosti
    - přičemž $h(x,t)=h(x)$
- Manhattanská – přestřeluje (kdyby cesta vedla diagonálně), takže není přípustná, tudíž není ani monotónní
- maximová (Chebyshevova) – je přípustná (maximum je menší rovno Euklidovi)
k důkazu monotonie metriky potřebujeme trojúhelníkovou nerovnost dané metriky a její přípustnost
monotonie implikuje přípustnost
existují nemonotónní přípustné heuristiky
monotonii potřebujeme, abychom se při prohledávání posouvali ve směru cíle
Sokoban
- nepříliš dobrá (ale monotónní) heuristika – pro každou krabici vzdálenost od nejbližšího cíle, přes to součet
  - monotónní je, protože v každém kroku se sníží nejvýš o jedna
- chtěli bychom najít přiřazení krabic, které má nejmenší celkovou cenu
  - hledáme minimální vážené perfektní párování – to jde v lineárním čase
- chceme řešit vzdálenost panáčka, takže do heuristiky započteme vzdálenost panáčka od nejbližší krabice minus jedna
- když je krabice v rohu, tak se nemůžeme dostat nikam dál
  - takže je to nepřípustný stav
  - můžeme algoritmu o tom stavu vůbec neříkat
  - můžeme nastavit heuristiku na „nekonečno“
vlastnosti A*
- $f(u)=h(u)+g(u)$ , kde $h$ je heuristika, $g$ je vzdálenost ze startu do $u$
- uvažujme monotónní heuristiku
- hodnoty $f(u)$ $f (u)$ jsou neklesající na všech nejkratších cestách ze startu
  - $h(u)+g(u)\leq h(v)+g(v)$
  - $h(u)\leq h(v)+g(v)-g(u)$
  - pro $u,v$ $u, v$ na nejkratší cestě
    - $h(u)\leq h(v)+c(u,v)$
- A* prozkoumává stavy v pořadí, ve kterém hodnoty $f(u)$ neklesají
kombinování heuristik
- afinní kombinace $\alpha h_1+(1-\alpha)h_2$ , kde $\alpha\in[0,1]$
- maximová kombinace $\max\set{h_1,h_2}$
- přípustnost je jednoduché ukázat
- jsou-li heuristiky monotónní, je monotónní jejich kombinace?
  - afinní
    - máme
      - $h_1(u)\leq h_1(v)+c(u,v)$
      - $h_2(u)\leq h_2(v)+c(u,v)$
    - chceme $\alpha h_1(u)+(1-\alpha)h_2(u)\leq c(u,v)+\alpha h_1(v)+(1-\alpha)h_2(v)$
    - stačí přenásobit ty dvě rovnosti $\alpha$ a $(1-\alpha)$ a sečíst
  - maximová
    - $\max\set{h_1(u),h_2(u)}$ se BÚNO rovná $h_1(u)\leq c(u,v)+h_1(u)$
    - $\leq c(u,v)+\max\set{h_1(v),h_2(v)}$
- maximum je vždycky větší (blíž reálné hodnotě) než afinní
- typicky nechceme strávit hodně času výpočtem heuristiky
- dává smysl vymyslet několik heuristik a pak použít jejich maximum
- k domácímu úkolu
  - je fajn se podívat do zdrojáků
  - kratší řešení jsou typicky lepší

CSP

NP-úplný problém
na vstupu
- proměnné
- domény (pro každou proměnnou jedna)
- podmínky
typické podmínky
- nerovnost
- all_different(…)
- logické spojky
- aritmetika
dva hlavní problémy
- solving
  - algoritmy: backtracking, forward check, look ahead
  - backtracking
    - zkusím ohodnotit proměnnou
    - zkontroluju constraints
    - když constraints jsou splněny, ohodnotím další proměnnou
      - jinak zkusím jiné ohodnocení
      - když žádné ohodnocení nefunguje, vrátím fail
  - forward check
    - při backtrackingu začínám v proměnné A
    - přiřadím jí hodnotu, ostatní prvky z domény vyškrtnu
    - přejdu do proměnné B
    - podívám se na všechny hrany (constraints), které vedou z B do již přiřazených proměnných (?)
      - proškrtám prvky v doméně B, které constraints nemůžou splnit
  - look ahead
    - jako forward check
    - pokud zmenším doménu, zkontroluju hrany, které do ní vedou (?)
- modelování
jak najít chromatické číslo?
- binární vyhledávání?
- pro náš úkol je lepší po jednom zvyšovat $k$ (počet barev)
- začít u hodnoty o jedno vyšší než nejvyšší stupeň vrcholu
tvorba SAT klauzulí
- aspoň jeden … disjunkce
- nejvýš jeden … konjunkce přes disjunkce všech dvojic negací
- nejvýš $k$ … konjunkce disjunkcí negací všech $k+1$ -tic
- alespoň $k$ … převedeme na nejvýše $n-k$ negací
jakmile máme k CSP úloze k dispozici testy, je jasné, co máme dát do constraints

Automatické plánování

v domácím úkolů nepoužívat typování objektů – „typovat“ klasicky unárními predikáty
v SISu jsou nahrávky přednášek
PDDL robot s chapadly
- neexistenční kvantifikátor nemůžeme použít, tak tam dáme pomocný predikát free (chapadlo je prázdné)
- při move nechceme přesouvat všechny věci, které robot drží – místo toho je zrušíme z místnosti a dáme mu je do ruky
- predikáty definujeme tak, aby se úloha zapisovala co nejjednodušeji
u neorientovaného grafu je potřeba vyjmenovat oba směry hran
PDDL v základní verzi neumí negace předpokladů
hanojské věže
- při přesunu potřebujeme znát disk nahoře na cílové tyči – přidáme si další argument
- typové predikáty nepotřebujeme, protože relaci „menší“ definujeme jenom pro disky a stůl (a nic není větší než stůl, takže ho nemůžeme přesouvat)
v domácím úkolu je potřeba akce nazvat správně a mít správné pořadí argumentů kvůli testu

Pravděpodobnost

výsledek akce nemusí být deterministický, nemáme kompletní informaci o stavu apod.
v bayesovské síti … $P(X_1,\dots,X_n)=P(X_1|\text{parents}(X_1))\cdot\ldots\cdot P(X_n|\text{parents}(X_n))$ $P (X_{1}, \dots, X_{n}) = P (X_{1} ∣ parents (X_{1})) \cdot \dots \cdot P (X_{n} ∣ parents (X_{n}))$
- kde parents jsou přímí předci vrcholu (vrcholy, z nichž do něj vedou šipky)
eliminace proměnných
minesweeper – korektní postup
- rozdělíme na komponenty souvislosti podle závislosti pravděpodobností
- pak už to můžu dát solveru
- dvě miny, jedna nemina
  - $p^2(1-p)$
- jedna mina, dvě neminy
  - $(1-p)^2p$
lokalizace robota
- $M_t$ nemá informace o tom, co robot viděl dřív
- našim cílem je časově oddělené informace $M_t$ spojit, abychom zjistili, kde robot může být
deterministická varianta – máme přesnou informaci o senzorech a pohybu robota
- filtering
  - zjevně $A_1=M_1$
  - $A_t=t(A_{t-1})\cap M_t$
- predikce
  - $B_t=A_t$
  - $B_k=t(B_{k-1})$
- smoothing/vyhlazování
  - $C_t=A_t$
  - $C_k=t^{-1}(C_{k+1})\cup A_k$
pravděpodobnostní varianta
- velká písmena označují náhodné proměnné, malá jejich konkrétní hodnoty
- $P(X_{t+1}=v|e_{1:t})=\sum_{u}P(X_t=u|e_{1:t})\cdot P(X_{t+1}=v|X_t=u)$ $P (X_{t + 1} = v ∣ e_{1 : t}) = \sum_{u} P (X_{t} = u ∣ e_{1 : t}) \cdot P (X_{t + 1} = v ∣ X_{t} = u)$
  - to, kam se robot dostane, nezáleží na tom, co dříve naměřil, proto lze použít tento vzorec (místo podmíněné marginalizace)
lokalizace v domácím úkolu
- filtering
- z přednášky $P(X_{t+1}|e_{1:t+1})=\alpha P(e_{t+1}|X_{t+1})\sum_{x_t}P(X_{t+1}|x_t)P(x_t|e_{1:t})$
- z cvičení $P(X_{t+1}|e_{1:t+1})=P(e_{t+1}|X_{t+1})\cdot \frac{P(X_{t+1}|e_{1:t})}{P(e_{t+1}|e_{1:t})}$ $P (X_{t + 1} ∣ e_{1 : t + 1}) = P (e_{t + 1} ∣ X_{t + 1}) \cdot \frac{P ( X _{t + 1} ∣ e _{1 : t} )}{P ( e _{t + 1} ∣ e _{1 : t} )}$
  - $P(e_{t+1}|e_{1:t})=P(e_{t+1})=0.5$ (asi?)
  - $P(X_{t+1}|e_{1:t})=\sum_{x_t} P(X_{t+1}|x_t)P(x_t|e_{1:t})$
  - zjevně jako předchozí políčko přichází v úvahu právě jedno
    - $P(X_{t+1}|e_{1:t})=P(X_t|e_{1:t})$
- tudíž snad $P(X_{t+1}|e_{1:t+1})=P(e_{t+1}|X_{t+1})\cdot \frac{P(X_{t}|e_{1:t})}{0.5}$
jiný přístup k plánování
- dostaneme odměnu $R(s)$ za navštívení stavu $s$
- stejnou odměnu dostaneme i při opakovaném navštívení
- máme funkci popisující akumulaci odměn
- Bellmanova rovnice $U(s)=R(s)+\gamma\sum_{s'} P(s'|s,a)U(s')$ $U (s) = R (s) + γ \sum_{s^{'}} P (s^{'} ∣ s, a) U (s^{'})$
  - $R(s)$ … odměna konkrétního jevu
  - kam se přesuneme – to je náhodný jev
    - takže marginalizujeme
  - pokud neznáme správnou akci, tak vybereme tu, pro kterou bude suma maximální
    - $U(s)=R(s)+\max_a\sum_{s'} P(s'|s,a)U(s')$
  - $\gamma$ $γ$ … „faktor zapomnění“
    - je tam proto, aby existoval algoritmus, který najde řešení
    - pro gamma rovno jedné by to nemuselo konvergovat
- zjednodušená varianta robota z přednášky
  - $U(5,5)=10$
  - $U(5,4)=-0.1+1\cdot10=9.9$
  - $U(4,3)=-0.1+0.8\cdot 9.8+0.2\cdot1$
  - $U(3,4)=-0.1+0.8\cdot6.9+0.2\cdot 1$ $U (3, 4) = - 0.1 + 0.8 \cdot 6.9 + 0.2 \cdot 1$
    - kde $6.9$ je $U(3,5)$
  - obecně budeme počítat maximum z akcí
- pokud tam budou cykly
  - budeme iterovat
  - začneme s $\forall s:U(s)=0$
  - jak dlouho iterovat?
    - dokud maximální delta hodnot není menší než $\epsilon(1-\gamma)/\gamma$
- z akcí můžeme spočítat užitek pomocí soustavy lineárních rovnic
- takže jsou dva přístupy – value iteration a policy iteration
v domácím úkol
- máme torus → pozor na modulo
- podívat se do zdrojáku
- soustředit se na pomocné testy

Teorie her

hra Nim s Fibonacciho čísly
- vyhráváme tehdy, když protihráče umíme dostat do prohrávajícího stavu
- stačí nám jednoduchá dynamika, zpětné prohledávání
- může to být náročné na paměť
- pokud má každý hráč jiná pravidla, stačí nám k tomu dvě pole místo jednoho
dopředné prohledávání
- je paměťově úspornější
- některé stavy prohledáváme vícekrát
- u netriviální her hodně časově složité
- pokud má každý hráč jiná pravidla, použijeme dvě rekurzivní funkce místo jedné
- máme volnost v tom, v jakém pořadí stavy procházíme
  - u Nimu funguje dobře procházet čísla od největšího
- když chceme prokázat, že je stav prohrávající, musíme projít všechny jeho podstavy
úkol
- první tah nemusíme řešit, ten má speciální pravidla
- musí to vracet správné výsledky
- musí to fungovat obecně

Strojové učení

nevýhody neuronových sítí
- vyžadují vysoký výpočetní výkon
- nejsme schopni vysvětlit, proč to vrací konkrétní výsledek
- nejsme schopni zaručit (dokázat), že bude neuronka v konkrétních situacích vracet správné výsledky
klasifikace
- true positive, true negative, false positive, false negative
- měření kvality binární klasifikace
  - accuracy … správnost odpovědí ze všech testů
    - $TP+TN\over TP+TN+FP+FN$
  - precision … správnost odpovědí ze všech pozitivních testů
    - $TP\over TP+FP$
  - recall … správnost odpovědí ze všecch nemocných jedinců
    - $TP\over TP+FN$
- proč nestačí jedno měřítko kvality
  - mějme nemoc, kterou má 1 % obyvatel
  - test, který je vždy negativní
    - accuracy 99 %
    - precision není definována
    - recall 0
  - test, který z nemocných pozná 1 %
    - accuracy cca 99 %
    - precision 100 %
    - recall 1 %
  - test, který je vždy pozitivní
    - accuracy 1 %
    - precision 1 %
    - recall 100 %
- Simpsonův paradox
neuronové sítě
- lineární klasifikace
  - hledáme nadrovinu rozdělující A a B
  - začneme s nějakou nadrovinou, tu postupně posouváme
- XOR klasifikujeme pomocí dvou nadrovin
  - tím nám přibudou dimenze/souřadnice (podle toho, jestli je bod vlevo nebo vpravo od nadroviny)
    - pak už můžeme najít nadrovinu
    - každá nadrovina nám vlastně reprezentujeme jeden neuron, jejich výstupy spojíme ve třetím neuronu
  - support vector machines
- aktivační funkce
  - step (hard treshold) – je těžké ji naučit, protože nemá derivaci v jednom bodě a všude jinde jsou derivace nulové
  - logistická funkce
  - spousta dalších
- cílem je najít lokální minimum funkce
  - použijeme gradient
- algoritmus zpětné propagace
  - v prezentaci chyba – inicializace vah má být před repeatem