Zadání diplomové práce
Data mining a moderní kontingenční
analýza
K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny
90. let tzv. data mining ("vytěžování dat"). Pod tímto názvem se
skrývají metody umožňující z nepřehledné spousty primárních dat, s níž se dnes
člověk musí prakticky ve všech oblastech potýkat, extrahovat přehledné množiny
strukturovaných znalostí, v těchto datech latentně obsažených. Jednou z prvních
metod tohoto typu byla metoda Guha (General unary hypotheses automaton),
vyvinutá v 70. letech českými matematiky. Guha je vpodstatě kombinací logiky a
statistické analýzy kategoriálních dat, zejména odhadů parametrů a testování
hypotéz v kontingenčních tabulkách. Pokud jde o propracované propojení
logiky a testování statistických hypotéz, nevyrovná se metodě Guha dodnes žádná
z moderních metod pro data mining, jichž mezitím již existuje mnoho desítek.
Proto se Guha dodnes používá, a v roce 1999 byla již počtvrté implementována. Z
hlediska statistiky Guha nicméně obráží stav metod kontingenční analýzy v první
polovině sedmdesátých let. Tyto metody přitom byly za posledních 25 let výrazně
zdokonaleny a kromě tradičních frekventistických metod se stále více prosazují
i metody založené na bayesovském přístupu a na teorii informace. Cílem
navrhované diplomové práce by mělo být rozšířit metodu Guha o některé z
moderních algoritmů kontingenční analýzy.
Diplomant by se měl seznámit se současným stavem kontingenční analýzy a
zkoumat možnosti propojení některých jejích nových algoritmů s algoritmy
logického usuzování používanými v metodě Guha. Měl by prokázat jak schopnost
samostatně odvozovat jednoduché teoretické výsledky týkající se propojení
nových algoritmů kontingenční analýzy s algoritmy logického usuzování, tak i
schopnost rozpracovat některá z těchto propojení až do prakticky použitelné
podoby. K tomu účelu by měl alespoň dvě navržená propojení implementovat.
Doporučená literatura
1. k moderním metodám kontingenční analýzy
- J.H. Albert. Bayesian
testing and estimation of association in a two-way contingency table. Journal
of the American Statistical Association, 92: 685-693, 1997.
- F. Bulacu. TxJxK
contingency tables. Testing for partial linear dependence using the
covariance weighted with fuzzy weights. Revue Roumaine de Mathematique
Pures et Appliquées, 42: 203-210, 1997.
- J.F. Crook, I.J. Good. The
Computation of a Bayes factor against independence in contingency tables. Journal
of the Royal Statistical Society. C. Applied Statistics, C45: 255-265,
1996.
- D. Kim, A. Agresti. Nearly
exact test of conditional independence and marginal homogenity for sparse
contingency tables. Computational Statistics and Data Analysis, 24:
89-104, 1997.
- C.I.C. Lee, S.Y. Shen.
Convergence rates and powers of six power-divergence statistics for
testing independence in 2 by 2 contingency table. Communications in
Statistics. A. Theory and Methods, 23: 2113-2126, 1994.
- S.R. Lipsitz, G.M.
Fitzmaurice. The score test for independence in RxC contingency tables with missing data. Biometrics,
52: 751-762, 1996.
- J.M.C. Ocerin, R.E.
Mohedano, A.G. Segador: Automatic aggregation of categories in
multivariate contingency tables using information theory. Computational
Statistics and Data Analysis, 29: 285-294, 1999.
- B.O. Oluyede. Test of
independence against a class of ordered alternatives in an RxC contingency table. Biometrical
Journal, 36: 935-951, 1994.
- M.C. Pardo. An empirical
investigation of Cressie and Read tests for the hypothesis of independence
in three-way contingency tables. Kybernetika, 32: 175-183, 1996.
2. k metodě Guha
- P. Hájek, T. Havránek. Mechanizing
Hypothesis Formation. Springer-Verlag, Berlin, 1978.
- P. Hájek, T. Havránek, M.K.
Chytil. Metoda GUHA. Automatická Tvorba Hypotéz. Academia, Praha,
1983.