Jednou ze základních úloh řešených při dobývání znalostí z dat je klasifikace,
tj. zařazování dat do tříd vymezených pouze na základě příkladů se známou
příslušností. Protože zpracování empirických dat bylo původně doménou
statistiky, spočívají tradiční klasifikační metody na statistických principech.
Nástup počítačů a neustálý růst jejich výkonu však vedl ke vzniku a rychlému
rozvoji klasifikačních metod založených na principech strojového učení –
např. klasifikace pomocí umělých neuronových sítí, pomocí klasifikačních
stromů, či tzv. SVM klasifikátory (support vector machines), spočívající na
jádrových funkcích. Většina klasifikátorů přitom závisí na nějakém volitelném
parametru či parametrech, jejichž volba může podstatým způsobem ovlivnit
výsledek klasifikace. Díky tomu jsme při řešení klasifikačních problémů často v situaci,
že máme k dispozici několik přibližně stejně přesných klasifikátorů
spočívajících na různých principech. V takovém případě buď stojíme před
nelehkou volbou, který z nich použít, nebo nejdříve provedeme klasifikaci
pomocí všech a potom se snažíme získané výsledky nějak zkombinovat. Druhá
z těchto možností může v ideálním případě případě vést ke spojení
předností kombinaovaných klasifikátorů, takže výsledný klasifikátor je
přesnější než kterýkoliv z nich. Metod kombinování klasifikátorů existuje
několik desítek, od prosté volby té klasifikace, kterou navrhuje nejvíce
z nich, až po velmi důmyslné agregační metody založené na teorii míry.
Velmi novou a dosud jen nedostatečně prozkoumanou metodou je hledání
nejvhodnější kombinace klasifikátorů pomocí genetických algoritmů.
Spočívá na přístupu ke kombinování jako k optimalizaci přesnosti
klasifikace (nebo nějaké jiné empirické optimalizované funkce charakterizující
její kvalitu) vzhledem k možným kombinacím uvažované množiny klasifikátorů
a případně i vzhledem k možným kombinacím podmnožin trénovacích dat
použitých pro jednotlivé z nich. A právě na dalším teoretickém
rozpracování a testování této metody by se měla podílet navržená diplomová
práce.
Student se nejdříve seznámí s hlavními typy klasifikátorů a hlavními přístupy k jejich kombinování. Současně se dostatečně do hloubky seznámí s funkcí genetických algoritmů a případně i dalších typů evolučních algoritmů. Vyzbrojen všemi těmito znalostmi, zmapuje současný stav využití genetických a jiných evolučních algoritmů ke kombinování klasifikátorů a analyzuje, pro jaké typy klasifikátorů a jaké typy jejich kombinací je nejvíce žádoucí použití genetických algoritmů rozpracovat a jak obtížné takové rozpracování pro jednotlivé z těchto typů bude. Na základě provedené analýzy vybere dva konkrétní typy, pro které metodu rozpracuje až do podoby prototypové implementace. Nakonec implementaci otestuje na mezinárodně používaných testovacích souborech dat, jakož i na datech ze skutečných aplikací, které dostane od vedoucího práce.
· B. Gabrys, D. Ruta. Genetic algorithms in classifier fusion. Applied Soft Computing, 6 (2006) 337–347.
· L.I. Kuncheva. Combining Pattern Classifiers: Methods and Algorithms. Wiley, 2004.
· L.I. Kuncheva. L.C. Jain. Designing classifier fusion systems by genetic algorithms. IEEE Transactions on Evolutionary Computation, 4 (2000) 327–336.
· C.R. Reeves, J.E. Rowe. Genetic Algorithms: Principles and Perspectives, Kluwer, 2003. Kapitoly 1–5.
· B. Schölkopf, A. Smola. Learning with Kernels, kapitoly 1–10, MIT Press, 2002. Kapitoly 1–7.