K nejrychleji se rozvíjejícím informačním technologiím patří
od první poloviny 90. let tzv. data mining ("vytěžování dat"). Pod
tímto názvem se skrývají metody, které z nepřehledné spousty primárních dat, s
níž se dnes člověk musí prakticky ve všech oblastech potýkat, umožňují
extrahovat přehledné množiny strukturovaných znalostí, v těchto datech latentně
obsažených. Jedním z nejpoužívanějších způsobů strukturovaného vyjádření
znalostí obsažených v datech jsou speciální typy logických implikací, tzv.
pravidla. Speciálních metod pro získávání pravidel z dat bylo od počátku 90.let
navrženo velké množství. Nejjednodušší z nich konstruují pravidla z relativních
frekvencí výskytu jednotlivých kombinací hodnot atributů, u složitějších je
tato konstrukce založena na různých typech klasifikačních a regresních stromů
nebo na pohledu na data prostřednictvím teorie neostrých množin. Všechny
uvedené metody konstruují pravidla přímo na základě atributů jednotlivých
datových záznamů, proto hovoříme o tzv. přímých metodách. Jako alternativa k
nim byly vypracovány metody, v nichž se nejdříve data použijí k natrénování
umělé neuronové sítě, a pravidla se pak získávají nikoliv přímo z dat, nýbrž ze
zobrazení počítaného natrénovanou sítí. Koexistence metod založených na různých
teoretických principech s sebou přináší jeden závažný problém - různými
metodami lze totiž potom i ze stejných dat získat naprosto rozdílné množiny
pravidel. Pro správné rozhodnutí, kterou metodu v určité situaci zvolit, je
tudíž velmi potřebné mít k dispozici výsledky rozsáhlých porovnání
jednotlivých metod, jak teoretických porovnání jejich vlastností, tak testování
jednotlivých metod na rozmanitých datových souborech. Právě takové porovnání by
mělo být cílem navrhované diplomové práce.
Diplomant by se měl v rámci rešeršní práce důkladně seznámit s hlavními
metodami získávání pravidel z dat. Na základě prostudované literatury by měl
potom analyzovat vhodnost či nevhodnost jednotlivých metod pro různé typy dat.
Hlavní náplní práce bude doplnění a rozšíření závěrů této analýzy pomocí
testování jednotlivých metod na speciálních testovacích souborech dat i na
datech z reálných aplikací. K testování bude diplomant převážně využívat
existujících implementací metod získávání pravidel z dat, několik metod bude
muset nejdříve sám implementovat.
· C. Apte, S. Weiss. Data mining with decision trees and decision rules. Future Generation Computer Systems, 13: 197-210, 1997.
· M. Berthold, D. Hand. Intelligent Data Analysis. An Introduction, Springer Verlag, Berlin, 1999.
· L.P. Khoo, S.B. Tor, L.Y. Zhai. A rough-set approach for classification and rule induction. International Journal of Advanced Manufacturing Technology. 15: 438-444, 1999.
· B. Mak, T. Munakata. Rule extraction from expert heuristics: A comparative study of rough sets with neural networks and ID3. European Journal of Operational Research, 136: 212-229, 2002.
· W. Müller, E. Wiederhold. Applying decision tree methodology for rules extraction under cognitive constraints. European Journal of Operational Research, 136: 282-289, 2002.
· A.B. Tickle, R. Andrews, M. Golea, J. Diederich. The truth will come to light: directions and challenges in extracting rules from trained artificial neural networks. IEEE Transactions on Neural Networks, 9: 1057-1068, 1998.
· M. Zaki, S. Parathasarathy, M. Ogihara, W. Li. New parallel algorithms for fast discovery of association rules. Data Mining and Knowledge Discovery, 1: 343-373, 1997.