K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny 90.
let dobývání znalostí z dat (data mining). Pod tímto názvem se skrývají metody,
které z nepřehledné spousty primárních dat, s níž se dnes člověk musí prakticky
ve všech oblastech potýkat, umožňují extrahovat přehledné množiny
strukturovaných znalostí, v těchto datech latentně obsažených. Jedním z
nejpoužívanějších způsobů strukturovaného vyjádření znalostí obsažených v
datech jsou specifické typy logických tvrzení, tzv. pravidla. Dnes již existuje
několik desítek metod pro extrakci pravidel z dat, pomocí nichž lze často
získat velmi rozsáhlé soubory velmi rozmanitých pravidel. Tím se ztrácí původní
účel dobývání znalostí z dat – nahradit velké množství dat malým množstvím důležitých znalostí. Z
pravidel, která lze v datech nalézt, je proto nutné vybírat pouze ta, která
jsou nejzajímavější nebo z nějakého jiného hlediska nejdůležitější. To vede na
úlohu optimalizace na množině pravidel, tedy na diskrétní množině která neleží
v žádném běžném metrickém prostoru. K nejmodernějším
metodám, které se pro optimalizaci na takových množinách používají, patří
evoluční algoritmy, zejména jeden jejich typ - genetické algoritmy. Jejich
charakteristickým rysem je, že způsob, kterým se metoda přibližuje k hledanému
optimu, je inspirován přirozeným výběrem ve vývoji biologických druhů, v
případě genetických algoritmů potom speciálně mutacemi a křížením chromozomů.
Právě využití genetických algoritmů k optimalizaci získávání pravidel
z dat by mělo být náplní navržené diplomové práce.
Student
se nejdříve důkladně seznámí s principy genetických algoritmů a zejména s
jejich použitím při dobývání znalostí z dat. Současně si udělá celkový přehled
o metodách získávání pravidel z dat a detailně se seznámí s některým
ze systémů pro získávání znalostí z dat používaných při výuce dobývání
znalostí z dat na českých vysokých školách (např. LISP-Miner, Ferda). V
kontextu tohoto systému navrhne metodu optimalizace získávání pravidel
z dat s využitím genetických algoritmů. Metodu implementuje pomocí
vývojového prostředí Matlab.
·
A.A. Freitas. Data Mining and Knowledge Discovery with Evolutionary
Algorithms. Springer, Berlin, 2002.
·
L. Geng, H.J. Hamilton. Choosing the Right Lens: Finding What is
Interesting in Data Mining. In Quality
Measures in Data Mining. Springer, Berlin, 2007.
·
M.
Holeňa. Získávání pravidel z dat. Statistika, 83: 48-60, 2003.
·
C.R.
Reeves, J.E. Rowe. Genetic Algorithms: Principles and Perspectives,
Kluwer, Boston, 2003. Kapitoly 1–5.