diplomka5.html

Zadání diplomové práce

Data mining při chybějících hodnotách veličin

K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny 90. let tzv. data mining ("vytěžování dat"). Pod tímto názvem se skrývají metody umožňující z nepřehledné spousty primárních dat, s níž se dnes člověk musí prakticky ve všech oblastech potýkat, extrahovat přehledné množiny strukturovaných znalostí, v těchto datech latentně obsažených. Jednou z prvních metod tohoto typu byla metoda Guha (General unary hypotheses automaton), vyvinutá v 70. letech českými matematiky. Guha je vpodstatě kombinací logiky a statistiky, zejména statistických odhadů parametrů a testování hypotéz. Pokud jde o propracované propojení logiky a testování statistických hypotéz, nevyrovná se metodě Guha dodnes žádná z moderních metod pro data mining, jichž mezitím již existuje mnoho desítek. Proto se Guha dodnes používá, a v roce 1999 byla již počtvrté implementována.V jiných směrech ovšem Guha za novějšími metodami zaostává. Jedním z jejích hlavních nedostatků je, že poskytuje pouze nejjednodušší možnosti ošetření chybějících hodnot v datech. Dnes je naproti tomu již známa celá řad důmyslnějších metod, jak se s chybějícími hodnotami veličin vypořádat. Většina z nich je založena na statistickém přístupu, k ošetření chybějích hodnot se ale používají i umělé neuronové sítě a teorie evidence. Cílem navrhované diplomové práce by mělo být obohatit metodu Guha o některou nebo některé z důmyslnějších možností ošetřování chybějících hodnot veličin.

Diplomant by se měl seznámit s moderními metodami ošetřování chybějících hodnot veličin v datech a pro některé z nich by měl rozpracovat propojení s vybranými algoritmy extrakce znalostí z dat používanými v metodě Guha. Měl by teoreticky studovat, jak se tímto propojením změní množina výsledků, které lze pomocí uvažovaných algoritmů získat, případně jak se změní výpočetní složitost těchto algoritmů. Alespoň pro jednu z metod by měl navržené propojení implementovat.

Doporučená literatura

1. k ošetřování chybějících hodnot v datech

S.S. Anand, D.A. Bell, J.G. Hughes. EDM: A general framework for data mining based on evidence theory. Data and Knowledge Engineering, 18: 189-223, 1996.
G.M. Fitzmaurice, N.M. Laird, M. Nan. Regression models for mixed discrete and continuous responses with potentially missing values. Biometrics, 53: 110-122, 1997.
A. Gupta, M. Lam. Estimating missing values using neural networks. Journal of the Operational Research Society, 47: 229-238, 1996.
A. Gupta, M. Lam. The weight decay backpropagation for generalizations with missing values. Annals of Operational Research, 78: 165-187, 1998.
M. Jaenner, P. Stahlecker. Minimax least squares and quasimininmax estimation in linear models with missing values. Acta Applicandae Mathematicae, 43: 159-167, 1996.
J.F. Lawless, J.D. Kalbfleisch, C.J. Wild. Semiparametric methods for response-selective and missing data problems in regression. Journal of the Royal Statistical Society, Series B, 61: 413-438, 1999.
S.R. Lipsitz, G.M. Fitzmaurice. The score test of independence in R x C contingency table with missing data. Biometrics, 52: 751-762, 1996.
S.F. Nielsen. Inference and missing data: Asymptotic results. Scandinavian Journal of Statistics, 24: 261-274, 1997.

2. k metodě Guha

P. Hájek, T. Havránek. Mechanizing Hypothesis Formation. Springer-Verlag, Berlin, 1978.
P. Hájek, T. Havránek, M.K. Chytil. Metoda GUHA. Automatická Tvorba Hypotéz. Academia, Praha, 1983.