K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny
90. let dobývání znalostí z dat (data mining). Pod tímto názvem se skrývají
metody, které z nepřehledné spousty primárních dat, s níž se dnes člověk musí
prakticky ve všech oblastech potýkat, umožňují extrahovat přehledné
množiny strukturovaných znalostí, v těchto datech latentně obsažených. Jedním z
nejpoužívanějších způsobů strukturovaného vyjádření znalostí obsažených v
datech jsou specifické typy logických tvrzení, tzv. pravidla. K nejstarším
metodám získávání logických pravidel z dat patří metoda Guha, jež byla
naposledy implementována v systémech LISP-Miner a Ferda, používaných na VŠE i
některých dalších vysokých školách. Metodou Guha lze mimo jiné získávat
asociační pravidla, která představují typ pravidel nejčastěji získávaný
v komerčních systémech pro dobývání znalostí z dat. Dalšími velmi
rozšířenými typy pravidel jsou klasifikační a regresní pravidla.
K získávání pravidel těchto typů se nejčastěji používá klasifikačních a
regresních stromů. Cílem navrhované diplomové práce je získávání pravidel o
vztazích mezi hodnotami spekter EEG signálů a typem mozkové aktivity jedince,
kterému byly tyto signály snímány, stanovené expertem neurofyziologem
z časového průběhu signálů. Práce bude součástí rosáhlého společného
projektu řady pracovišť, jehož cílem je vývoj systému umožňujícího automatickou
detekci mikrospánku profesionálních řidičů nákladní dopravy a strojvedoucích.
Diplomová práce by se proto měla zaměřit zejména na pravidla, v nichž
uvažovaným typem mozkové aktivity bude upadání do mikrospánku.
Student se nejdříve důkladně seznámí s implementací metody Guha v systémech LISP-Miner a Ferda i s dalšími metodami získávání pravidel z dat, zejména s klasifikačními stromy, jakož i s daty a s problematikou, které se týkají. Na základě všech získaných poznatků se rozhodne, který z obou uvedených systémů bude k získávání pravidel pro detekci mikrospánku používat. Pravidla bude získávat pro řadu kvantifikátorů metody Guha, a pro každý z nich pro řadu hodnot jejich nastavitelných parametrů, přičemž obojí bude vybírat v dohodě s vedoucím práce. Pro srovnání naučí na datech klasifikační strom maximální možné velikosti a prořeže ho na stromy o výškách odpovídajících délkám pravidel získaných pomocí metody Guha. Na závěr vyhodnotí získaná pravidla z hlediska jejich sémantiky a srovná rozdíly mezi pravidly získanými pomocí metody Guha a pomocí klasifikačních stromů.
·
Dokumentace systému LISP-Miner na VŠE.
·
Dokumentace systému Ferda na VŠE.
·
Nonparametric
Models. In Statistics Toolbox User’s Guide, The MathWorks, Natick, 2004, p. 8.7–8.14.
·
P. Hájek, M. Holeňa, J. Rauch,
The GUHA Method and Foundations of (Relational) Data Mining. In Theory and Application of Relational
Structures as Knowledge Instruments, Springer, Berlin, 2003, p. 17-37.
· M. Holeňa, Získávání pravidel z dat. Statistika, 83: 48-60, 2003.
· J. Faber, M. Novák, P. Svoboda, V. Tatarinov, Electrical Brain Wave Analysis During Hypnagogium. Neural Network World, 13: 41–54, 2003.