Zadání diplomové práce
Klasifikace
sekvencí pomocí pravidel vytěžených z dat
Jedním z klíčových směrů vytěžování dat (data mining) je získávat
z dat znalosti reprezentované jako pravidla, tj. implikace nějaké formální
logiky. Velký význam pravidlové reprezentace spočívá v tom, že je typicky
mnohem srozumitelnější člověku než reprezentace numerická, zvláště když
uživatelé získaných znalostí jsou z jiné oblasti než analýza dat a
matematika. K hlavním typům pravidel patří pravidla klasifikační,
v nichž premisou implikace je konjunkce podmínek na klasifikovaný objekt a
důsledkem je příslušnost ke konkrétní třídě. Jejich srozumitelnost je zvláště
cenná u objektů se složitější strukturou, na které nelze přímočaře použít
úspěšné numerické klasifikátory jako umělé neuronové sítě či klasifikátory
založené na opěrných vektorech nadrovin (support vector machines). Důležitým
typem takových objektů jsou sekvence kombinací kategoriálních a numerických
atributů, často se vyskytující v přírodních vědách, ale také např.
v síťové bezpečnosti. Právě takovým typem dat se bude zabývat navržená
diplomová práce.
Diplomant se seznámí s problematikou klasifikačních pravidel a zejména
detailně klasifikačními pravidly pro sekvence kombinací kategoriálních a
numerických atributů typu diskriminační kronika (diskriminant chronicle). Naučí
se také dobře používat existující pythonovskou implementaci metody pro
získávání tohoto typu pravidel z dat. V rámci diplomové práce zobecní
tuto metodu ze skalárních celočíselných atributů na vektorové obecné numerické
atributy a odpovídajícím způsobem rozšíří její implementaci. Zdokonalenou
metodu otestuje na reálných datech dodaných vedoucím práce.
Doporučená
literatura
·
W.W.
Cohen. Fast Effective Rule Induction, ICML
1995, 115-123.
·
Y. Dauxais,
T. Guyet, D. Gross-Amblard, A. Happe. Discriminant chronicles mining, European Conference on Artificial
Intelligence in Medicine, 2017, 234-244.
·
D.J.
Hand. Construction and Assessment of
Classification Rules, Wiley, 1997.
·
Generalized
Discriminant Chronicle Pattern-Based Classification. INRIA GitLab:
https://gitlab.inria.fr/ydauxais/GDC-PBC