K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny
90. let tzv. data mining ("vytěžování dat"). Pod tímto názvem se
skrývají metody které z nepřehledné spousty primárních dat, s níž se dnes
člověk musí prakticky ve všech oblastech potýkat, umožňují extrahovat
přehledné množiny strukturovaných znalostí, v těchto datech latentně
obsažených. Jedním z nejpoužívanějších způsobů strukturovaného vyjádření
znalostí obsažených v datech jsou speciální typy logických implikací, tzv.
pravidla. Pravidla lze získat nejjednodušším způsobem z relativních frekvencí
výskytu jednotlivých kombinací hodnot atributů, lze je ale také odvodit z
výsledků řady statistických metod, např. testů hypotéz v kontingenčních
tabulkách nebo regresní analýzy, i metod založených na nestatistických
přístupech, např. na neuronových sítích, rozhodovacích stromech či induktivní
logice. Velký počet různých přístupů k extrakci pravidel z dat s sebou přináší
jeden závažný problém - přístupy založenými na různých teoretických principech
lze totiž i ze stejných dat extrahovat naprosto rozdílné množiny pravidel.
Proto v posledních letech rychle vzrůstá význam metod umožňujících měřit a
srovnávat kvalitu extrahovaných množin pravidel. Další rozvoj takových metod má
velkou důležitost již i pro běžné praktické využívání existujících
dataminingových systémů, neboť dnes i ve velkých komerčních systémech
bývá implementováno celé spektrum různých přístupů k extrakci pravidel z dat.
Příspěvkem k rozvoji těchto metod by měla být i navrhovaná diplomová práce.
Diplomant by se měl seznámit s hlavními přístupy k extrakci pravidel z dat, jak
teoreticky, tak i prakticky na konkrétním dataminingovém systému. Měl by získat
dobrý přehled o dosud existujících metodách měření a srovnávání kvality
extrahovaných množin pravidel. Vlastní tvůrčí přínos práce začne analýzou
předností a nedostatků jedotlivých existujících metod, a to jednak teoreticky
na základě vlastností těchto metod, jednak rozborem výsledků získaných při
použití vybraných metod na reálná data. Završen by potom měl být návrhem a
praktickým ověřením vhodných modifikací jedné či více z těchto metod s cílem
posílení jejich předností nebo oslabení jejich nedostatků.
Manuály k použitému dataminingovému systému, např.