this dir | view | cards | source | edit | dark
top
Úvod do počítačové lingvistiky
Morfologie
- indický lingvista Pānini ve 4. století př.n.l. formuloval pravidla morfologie sanskrtu
- jeden ze zakladatelů moderní lingvisitky, Ferdinand de Saussure, byl profesorem sanskrtu
- předmětem morfologie je studium vnitřní struktury slov
- lexikologie – slova se studují jako jednotky slovní zásoby
- lexikografie – sestavování slovníků
- morfém – nejmenší znaková jednotka jazyka nesoucí význam
- lexikální morfém – nese význam slova jako takového
- gramatický morfém – určuje gramatickou roli slovního tvaru
- další pojmy
- morfologie studuje skloňování a časování
- tvaroslovné dublety – odlišné slovní tvary mající stejnou gramatickou funkci (na hradě / o hradu, o balíčcích/balíčkách apod.)
- homonymní tvary – stejné slovní tvary odvozené od různých slovních základů (žena, tři, hnát, stát, už apod.)
- alternace – změna hlásek uvnitř kmene (vůz – vozu, švec – ševce, prkno – prken)
- autosémantická (plnovýznamová) slova
- synsémantická (pomocná) slova
- morfologická typologie jazyků
- přílkad: vyjádření množného čísla – nulový rozdíl, funkční slovo, afixace, zvukový rozdíl, reduplikace
- jazyky
- analytické – slovo = morfém
- syntetické – slovo > morfém
- flektivní jazyky (skloňování, časování, hodně tvarů ke každému základu)
- introflexe – změny probíhají v kořeni
- aglutinační jazyky (lepí se k sobě morfémy)
- polysyntetické – slovo = věta
- přístupy ke zpracování morfologie
- morfologie založená na morfémech – vidí slovo jako řetízek morfémů, jako korálky na niti
- morfologie založená na lexémech – vidí slovo jako výsledek aplikace pravidel, která slovo mění a tím vytváří nový slovní tvar
- morfologie založená na slovech – centrální roli mají vzory
- ze základního tvaru a vzoru (k němuž slovo patří) umíme vygenerovat všechny tvary slova
- Two-Level Morphology
- první obecný model zpracování morfologie přirozeného jazyka
- založen na konečných automatech
- tradiční počítačové zpracování morfologie se orientovalo na generování tvarů slov ze základního tvaru – nebralo v úvahu, že opačný směr (analýza) může být víceznačný
- 2 úrovně – lexikální a povrchová
- základní myšlenky
- pravidla se aplikují paralelně, ne sekvenčně
- podmínky se mohou vztahovat k jedné nebo oběma úrovním
- lexikální vyhledávání (trie) a morfologická analýza probíhají současně
- česká morfologie
- vyvíjena od roku 1989 zejména profesorem Hajičem
- využívá poziční značky, každá pozice má svůj jednoznačný význam
- značky jsou 15místné, rozeznává se pouze 13 kategorií
- lemma – jednoznačný identifikátor slova
- činnosti využívající morfologii
- morfologická analýza – na vstupu slovní tvar, na výstupu seznam všech lemmat a značek, které jsou pravděpodobné
- morfologické značkování (tagging) – proces výběru správné značky v daném kontextu (statistické metody)
- částečná morfologická desambiguace založená na pravidlech (Olive, Petkevič) – pomocí spolehlivých pravidel redukuje počet značek
- lemmatizace – na vstupu slovní tvar, na výstupu lemma
- stemming – odříznutí koncovky (na vstupu slovní tvar, na výstupu kmen slova)
- generování – výběr správného slovního tvaru na základě lemmatu a kombinace gramatických kategorií