K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny
90. let tzv. data mining ("vytěžování dat"). Pod tímto názvem se
skrývají metody umožňující z nepřehledné spousty primárních dat, s níž se dnes
člověk musí prakticky ve všech oblastech potýkat, extrahovat přehledné množiny
strukturovaných znalostí, v těchto datech latentně obsažených. Jednou z prvních
metod tohoto typu byla metoda Guha (General unary hypotheses automaton),
vyvinutá v 70. letech českými matematiky. Guha je vpodstatě kombinací logiky a
statistiky, zejména statistických odhadů parametrů a testování hypotéz. Pokud
jde o propracované propojení logiky a testování statistických hypotéz,
nevyrovná se metodě Guha dodnes žádná z moderních metod pro data mining, jichž
mezitím již existuje mnoho desítek. Proto se Guha dodnes používá, a v roce 1999
byla již počtvrté implementována.V jiných směrech ovšem Guha za novějšími
metodami zaostává. Jedním z jejích hlavních nedostatků je, že poskytuje pouze
nejjednodušší možnosti ošetření chybějících hodnot v datech. Dnes je naproti
tomu již známa celá řad důmyslnějších metod, jak se s chybějícími hodnotami
veličin vypořádat. Většina z nich je založena na statistickém přístupu, k
ošetření chybějích hodnot se ale používají i umělé neuronové sítě a teorie
evidence. Cílem navrhované diplomové práce by mělo být obohatit metodu Guha o
některou nebo některé z důmyslnějších možností ošetřování chybějících hodnot
veličin.
Diplomant by se měl seznámit s moderními metodami ošetřování chybějících
hodnot veličin v datech a pro některé z nich by měl rozpracovat propojení s
vybranými algoritmy extrakce znalostí z dat používanými v metodě Guha. Měl by
teoreticky studovat, jak se tímto propojením změní množina výsledků,
které lze pomocí uvažovaných algoritmů získat, případně jak se změní výpočetní
složitost těchto algoritmů. Alespoň pro jednu z metod by měl navržené propojení
implementovat.