K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny
90. let tzv. data mining ("vytěžování dat"). Pod tímto názvem se
skrývají metody umožňující z nepřehledné spousty primárních dat, s níž se dnes
člověk musí prakticky ve všech oblastech potýkat, extrahovat přehledné množiny
strukturovaných znalostí, v těchto datech latentně obsažených. Jednou z prvních
metod tohoto typu byla metoda Guha (General unary hypotheses automaton),
vyvinutá v 70. letech českými matematiky. Guha je vpodstatě kombinací logiky a
metod kategoriální statistiky, tj. metod určených primárně pro náhodné veličiny
s nízkým počtem diskrétních hodnot. Pokud jde o propracované propojení logiky
a testování statistických hypotéz, nevyrovná se metodě Guha dodnes žádná z
moderních metod pro data mining, jichž mezitím již existuje mnoho desítek.
Proto se Guha dodnes používá, a v roce 1999 byla již počtvrté implementována.V
jiných směrech ovšem Guha za novějšími metodami zaostává. Jedním z jejích
hlavních nedostatků je, že pro zpracování dat, která jsou realizacemi spojitých
náhodných veličin, poskytuje pouze nejjednodušší možnosti diskretizace. Právě k
tomuto účelu byla v průběhu uplynulých dvaceti let vyvinuta celá řada
důmyslnějších metod. Většina z nich se opírá o teorii informace, používají se
ale i metody založené na shlukové analýze nebo na genetických
algoritmech. Cílem navrhované diplomové práce by mělo být obohatit metodu Guha
o některé z důmyslnějších diskretizačních metod.
Diplomant by se měl seznámit s moderními metodami diskretizace spojitých
náhodných veličin a analyzovat je z hlediska propojení s algoritmy extrakce
znalostí z dat používanými v metodě Guha. Výsledky teoretické analýzy by měl
pro vybrané metody ověřit na reálných datech..