Získávání pravidel, tj. specifických typů logických tvrzení, z dat
představuje hlavní směr dobývání znalostí z dat, ať už z toho
hlediska, jak často se s ním setkáváme v praktických aplikacích, či
z hlediska počtu metod, které se k
němu používají. Tyto metody jsou přitom založeny na širokém spektru
principů, od metod čistě logických
(induktivní logické programovaní, metody AQ, CN2 apod.), přes metody,
v nichž hlavní roli hraje statistický nebo pravděpodobnostní přístup
(metoda Guha, klasifikační a regresní stromy) až po metody spočívající na
umělých neuronových sítích a genetických algoritmech. Získávaná pravidla lze ze
sémantického hlediska dělit jednak podle použitých spojek v případě
výrokové logiky (na implikace a ekvivalence) a použitých zobecněných
kvantifikátorů v případě logiky predikátové, jednak podle přípustných
pravdivostních hodnot na booleovská pravidla a pravidla některé z fuzzy
logik. Kombinací obou těchto kriterií lze vymezit některé prakticky významné
třídy pravidel, např. klasifikační pravidla nebo asociační pravidla. Mezi fuzzy
pravidly je z takovýchto kombinací zajímavá třída ekvivalencí. Má-li totiž
některý z datových atributů po případném přeškálování význam stupně
pravdivosti nějakho tvrzení, vede získávání ekvivalencí s tímto tvrzením
za velmi obecných předpokladů k prokládání funkce mnoha proměnných
hodnotami atributu. Právě získáváním takových fuzzy ekvivalencí by se měla
zabývat navržená diplomová práce.
Student se nejdříve seznámí s důležitými metodami získávání booleovských pravidel z dat, konkrétně se získáváním rúzných typů pravidel (včetně pravidel asociačních) pomocí obzervační logiky a se získáváním klasifikačních pravidel pomocí klasifikačních stromů. Současně se také seznámí s běžnými fuzzy logikami, alespoň do takové hloubky, aby mohl s dostatečným nadhledem získávat z dat formule, které jsou v těchto logikách ekvivalencemi. S využitím nabytých znalostí analyzuje získávání fuzzy ekvivalencí z dat jednak z hlediska srovnání jejich sémantiky se sémantikou booleovských pravidel, jednak z hlediska měření jejich kvality pomocí zobecnění měr kvality booleovských pravidel. Přitom zváží případnou nejednoznačnost při zobecňování některých měr kvality z booleovských pravidel na fuzzy pravidla. Na základě provedené analýzy navrhne metodu získávání fuzzy ekvivalencí z dat, srovnání jejich sémantiky se sémantikou pravidel získaných pomocí obzervační logiky a klasifikačních stromů a měření jejich kvality vybranými mírami kvality. Přitom zdůvodní svůj výběr měr kvality zahrnutých do metody, jakož i případný výběr pouze některého z možných zobecnění uvažované míry na fuzzy pravidla. Navrženou metodu student rozpracuje až do stádia prototypové implmentace. Nakonec implementaci otestuje na mezinárodně používaných testovacích souborech dat, jakož i na datech ze skutečných aplikací, která dostane od vedoucího práce.
· L. Geng, H.J. Hamilton. Choosing the right lens: Finding what is interesting in data mining. In Quality Measures in Data Mining, Springer, 2007, 3–24.
· P. Hájek. Metamathematics of Fuzzy Logic, Kluwer, 1998, kapitoly 1–5.
· M. Holeňa. Získávání pravidel z dat. Statistika, 83 (2003), 48–60.
· P. Lenca, B. Vaiilant, P. Meyer, S. Lalich. Association rule interestingness measures: Experimental and theoretical studies. In Quality Measures in Data Mining, Springer, 2007, 51–76.
· D. Nauck. Fuzzy Data Analysis with NEFCLASS. International Journal of Approximate Reasoning, 32 (2002), 103–130.