Zadání diplomové práce
Hodnocení použitelnosti předpovědí různých regresních modelů
(klíčová slova:
regresní modely, predikce, spolehlivost klasifikace a regrese, analýza
citlivosti, kombinování přepovědí)
Regrese je spolu s klasifikací
jednou z hlavních metod vyhodnocování dat. Regresní modely navíc hrají
klíčovou roli při nejrůznějších předpovědích. Přesnost takových předpovědí
vzrůstá se vzrůstajícím množstvím dat, na jejichž základě byl regresní model
konstruován. Proto není divu, že od doby nástupu databází, tj. v průběhu
posledních čtyř desetiletí, je věnováno velké úsilí rozvoji nových regresních
modelů. K tradiční lineární a polynomiální regresi, které byly již dlouhou
dobu rozvíjeny ve statistice, přibyly důležité nelineární regresní modely
pocházející z oblasti strojového učení, zejména umělé neuronové sítě,
rozhodovací stromy a regrese založená na jádrových funkcích. Různé regresní
modely však mohou pro stejný vstup dávat i velmi odlišné předpovědi a
v takovém případě je velmi žádoucí mít nějakou představu o tom, nakolik
jsou jednotlivé z nich pro uvažovaný vstup použitelné. Jde o podobný
problém jako když při klasifikaci přiřadí různé klasifikátory stejný vzor do
různých tříd. V případě regrese má však tento problém i jeden zcela
specifický rys, totiž otázku citlivosti regresního modelu na malé změny vstupů.
Především díky neexistenci problému citlivosti na změny vstupů je hodnocení
použitelnosti různých klasifikátorů snazší než hodnocení použitelnosti různých
regresních modelů. Proto jsou metody hodnocení použitelnosti klasifikátorů pro
uvažovaný vstup již po řadu let předmětem teoretického i aplikovaného výzkumu.
Výzkum hodnocení použitelnosti předpovědí různých regresních modelů je naproti
tomu teprve na samém začátku. Příspěvkem k němu by měla být i navržená
diplomová práce.
Student se důkladně seznámí s existujícími
metodami hodnocení použitelnosti různých regresních modelů pro uvažovaný vstup
a v širším kontextu i s metodami hodnocení použitelnosti různých
klasifikátorů. Metody hodnocení použitelnosti regresních modelů implementuje ve
vývojovém prostředí Matlab a otestuje je na důležitých typech regresních modelů
konstruovaných na základě shodných dat, která dostane od vedoucího práce.
Výsledky teoretického studia těchto metod a jejich testování jednak shrne do závěrů o vhodnosti
jednotlivých z nich pro jednotlivé typy regresních modelů, jednak je
využije pro návrh modifikací jedné nebo dvou z těchto metod.
Assessing the usability of predictions of different
regression models
Regression belongs together with
classification to main data analysis methods. Moreover, regression models play
a key role in various predictions. The accuracy of such predictions increases
with an incrasing amount of data on which the construction of the model was
based. Therefore, it is not surprising that since the advent of databases,
i.e., during the last four decades, great efforts were devoted to the
development of new regression models. To traditional linear and polynomial
regression, whcih had been developed for many years in statistics, important
non-linear regression models of machine-learning origin came, in particular,
artificial neural networks, decision trees, and regression based on kernel
functions. However, different regression models may yield even very different
predictions for the same input, and in such a case, it is very desirable to
have some idea of how much usable are the individual models for the considered
input. It is a similar proble as with classifiers assigning the same pattern to
different classes.
Doporučená
literatura
- Z. Bosnić, I. Kononenko.
Comparison of approaches for estimating reliability of individual
regression predictions. Data &
Knowledge Engineering, 67 (2008) 504–516.
- Z. Bosnić, I. Kononenko.
Estimation of individual prediction reliability using the local
sensitivity analysis. Applied Intelligence, 29 (2008) 187–203.
- J.G. Carney, P. Cunnigham,
U. Bhagwan. Confidence and prediction intervals for neural network
ensembles. In IJCNN 1999, 1215–1218.
- G. Giacinto, F. Roli. Dynamic
classifier selection based on multiple classifier behaviour. Pattern Recognition, 34 (2001)
1879–1881.
- M.Kukar, I. Kononenko.
Reliable Classifications with Machine Learning. In ECML 2002, 219–231.
- V. Vovk. Asymptotic
Optimality of Transductive Confidence Machine. In ATL 2002, 336–350.