K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny
90. let dobývání znalostí z dat (data mining). Pod tímto názvem se skrývají
metody, které z nepřehledné spousty primárních dat, s níž se dnes člověk musí
prakticky ve všech oblastech potýkat, umožňují extrahovat přehledné
množiny strukturovaných znalostí, v těchto datech latentně obsažených. Jedním z
nejpoužívanějších způsobů strukturovaného vyjádření znalostí obsažených v
datech jsou specifické typy logických tvrzení, tzv. pravidla. K nejstarším
metodám získávání logických pravidel z dat patří metoda Guha, jež byla
naposledy implementována v systémech LISP-Miner a Ferda, používaných na VŠE i
některých dalších vysokých školách. Metodou Guha lze mimo jiné získávat
asociační pravidla, která představují typ pravidel nejčastěji získávaný
v komerčních systémech pro dobývání znalostí z dat. Dalšími velmi
rozšířenými typy pravidel jsou klasifikační a regresní pravidla.
K získávání pravidel těchto typů se nejčastěji používá klasifikačních a
regresních stromů. Cílem navrhované diplomové práce je získávání pravidel o
vztazích mezi chemickým složením materiálů a jejich katalytickými vlastnostmi
v určitých chemických reakcích. Znalosti takového typu jsou velmi důležité
pro chemický průmysl.
Student se nejdříve důkladně seznámí s implementací metody Guha v systému LISP-Miner. Pravidla bude získávat pro řadu kvantifikátorů metody Guha, a pro každý z nich pro řadu hodnot jejich nastavitelných parametrů, přičemž obojí bude vybírat v dohodě s vedoucím práce. Pro srovnání naučí na datech regresní strom maximální možné velikosti a prořeže ho na stromy o výškách odpovídajících délkám pravidel získaných pomocí metody Guha. Na závěr vyhodnotí získaná pravidla z hlediska jejich sémantiky a srovná rozdíly mezi pravidly získanými pomocí metody Guha a pomocí regresních stromů.
· M. Šimůnek, Systém LISP-Miner. Akademický systém pro dobývání znalostí z databází. SkriptaVŠE, 2011.
· Classification Trees and Regression Trees. In Statistics Toolbox User’s Guide, Version 4. The MathWorks, 2008, 13.25–13.49.
·
P. Hájek, M. Holeňa, J. Rauch,
The GUHA Method and Foundations of (Relational) Data Mining. In Theory and Application of Relational
Structures as Knowledge Instruments, Springer, 2003, 17-37.
· M. Holeňa, M.Baerns, Computer-Aided Strategies for Catalyst Development. In Handbook of Heterogeneous Catalysis. Wiley-WCH, Weinheim, 2007.