Regrese je spolu s klasifikací jednou z hlavních metod vyhodnocování
dat. Regresní modely navíc hrají klíčovou roli při nejrůznějších předpovědích.
Přesnost takových předpovědí vzrůstá se vzrůstajícím množstvím dat, na jejichž
základě byl regresní model konstruován. Různé regresní modely však mohou pro
stejný vstup dávat i velmi odlišné předpovědi a v takovém případě je velmi
žádoucí mít nějakou představu o tom, nakolik jsou jednotlivé z nich pro
uvažovaný vstup použitelné. Jde o podobný problém jako když při klasifikaci přiřadí
různé klasifikátory stejný vzor do různých tříd. Z toho důvodu jsou již po
řadu let předmětem teoretického i aplikovaného výzkumu metody hodnocení
použitelnosti klasifikátorů a regresních modelů pro uvažovaný vstup. Nejčastějí
používané regresní modely zahrnují již 30 roků i modely založené na
rozhodovacích stromech, tzv. regresní stromy. I v jejich případě je
hodnocení použitelnosti různých stromů pro konkrétní vstup věnována velká
pozornost, zejména v souvislosti se sdružováním rozhodovacích stromů do
souborů, tzv. náhodných lesů. Regresních stromy jsou však velmi specifické
v tom, že mají po částech konstantní regresní funkci s oblastmi různých
hodnot oddělenými nadrovinami kolmými na souřadné osy, a v tom, že mají velmi
blízkou obdobu mezi klasifikátory, tzv. klasifikační stromy. Proto byly i pro
hodnocení jejich použitelnosti navrženy specifické metody, založené na
specifických vlastnostech regresních a klasifikačních stromů. Dosud nebyla
věnována žádná pozornost srovnání takových specifických metod s metodami
pro obecné regresní modely. Pokusem o srovnání specifického a obecného přístupu
by měla být navržená diplomová práce.
Student se důkladně seznámí s obecnými metodami hodnocení použitelnosti různých regresních modelů pro uvažovaný vstup, i se specifickými metodami hodnocení použitelnosti regresních stromů. Metody obou typů implementuje ve vývojovém prostředí Matlab a otestuje je na regresních stromech a náhodných lesech konstruovaných na základě shodných dat, která dostane od vedoucího práce. Na základě výsledků teoretického studia a testování srovná obecné a specifické metody pro hodnocení použitelnosti regresních stromů. Navrhne doporučení, kdy je kterou metodu vhodné používat, a případně i modifikace či kombinace různých metod.
Regression belongs together with classification to main data analysis methods. Moreover, regression models play a key role in various predictions. The accuracy of such predictions increases with an increasing amount of data on which the construction of the model was based. However, different regression models may yield even very different predictions for the same input, and in such a case, it is very desirable to have some idea of how much usable for the considered input the individual models are. It is a problem similar to that of classifiers assigning the same pattern to different classes. For that reason, methods for assessing the usability of classifiers and of regression models for a given input are for several years subject of both theoretical and applied research. The most frequently used regression models include since 30 years also models based on decision trees, called regression trees. Also in their case, much attention is paid to assessing the usability of different trees for a particular input, especially in connection with joining decision trees into ensembles, called random forests. However, regression trees are very specific in having a piecewise-constant regression function, and in having a very close counterpart among classifiers, called classification trees. Therefore, specific methods based on specific properties of regression and classification trees were proposed also for assessing their usability. So far, however, no attention has been paid to comparing such specific methods with methods for general regression models. A comparison of the specific and the general approach should be attempted by the proposed master thesis.
· Z. Bosnić, I. Kononenko. Comparison of approaches for estimating reliability of individual regression predictions. Data & Knowledge Engineering, 67 (2008) 504–516.
· L. Breiman. Random forests. Machine Leanring, 45 (2001) 5-32
· A. Gammerman, V. Vovk. Hedging predictions. Computer Journal, 50 (2007) 151–163
· G. Zech. Frequentist and Bayesian confidence intervals. European Physical Journal Direct 4 (2002) 1–81