Implementacja ID3

Sprawozdanie

Sprawozdanie można oddać na dwa sposoby – w formie pisemnego raportu lub w postaci prezentacji i komentarza ustnego związanego z Państwa wnioskami. Ostateczną postać pozostawiam do Państwa wyboru, należy to jednak wcześniej jednoznacznie ustalić.

Elementem minimalnym do uzyskania zaliczenia (ocena 3,0) jest poprawna implementacja algorytmu ID3 zgodnie z zadanymi instrukcjami. Po tym mają Państwo do wyboru dwa warianty porównania swojej implementacji:

  • modyfikacje algorytmu ID3 – np. poprzez niedeterministyczny wybór podziału w węźle (z zadanym prawdopodobieństwem drugi co do wielkości lub np. z zastosowaniem koła ruletki);
  • inne algorytmy do konstruowania drzew decyzyjnych z systemu WEKA (np. CART – SimpleCart i C4.5 – J48).

W porównaniu należy przede wszystkim zwrócić uwagę na wyniki algorytmów. Nie ma konieczności rysowania, czy też innej prezentacji drzewa decyzyjnego, będzie to jednak miły dodatek.
Porównując zaimplementowany algorytm do modyfikacji (wersja 1) lub innych algorytmów (wersja 2) należy przede wszystkim skupić się na ocenie jakości klasyfikacji (analogicznie do wykładu), liczbie węzłów w drzewie decyzyjnym lub wysokości drzewa decyzyjnego. Mogą Państwo ograniczyć się do sposobu testowania metodą trenuj i testuj, choć nie jest to ograniczenie i jeśli zaimplementują Państwo inne metody omawiane na wykładzie, to będzie to kolejny plus w odbiorze pracy.

Przy opisie analizowanych zbiorów danych (minimum trzy różne zbiory danych) nie ma konieczności dokładnej analizy dziedziny zbioru danych (w tym przypadku), ale niezbędne będą m.in. informacje o:

  • liczbie atrybutów warunkowych,
  • liczbie wartości tych atrybutów lub określeniu, czy są one np. ciągłe albo dyskretne,
  • liczbie klas decyzyjnych,
  • liczności każdej z klas decyzyjnych.

Zawarcie tych informacji pozwoli na lepszą interpretację wyników Państwa pracy. Przypominam jednocześnie, że sposoby oceny jakości omawiane na wykładzie dotyczyły problemów dwuklasowych.

Założenia minimalne można przedstawić w następujący sposób (przy założeniu dobrego wykonania i wysokiej jakości pracy):

Ocena Implementacja ID3 Modyfikacja ID3 Inne algorytmy (WEKA) Liczba zbiorów danych Sposoby testowania
3,0 1 0 0 2 1
3,0-4,0 1 2 0 3 1
3,0-4,0 1 0 3 5 1
4,0-5,0 1 2 0 5 1
4,0-5,0 1 0 4 6 1

Proszę to traktować, jako przykładowe warianty z możliwością dostosowania w razie indywidualnych Państwa potrzeb. Przygotowane sprawozdanie lub prezentacja musi zawierać informację o wszystkich wspomnianych powyżej kwestiach, m.in. metodzie testowania, wybranych algorytmach, cechach zbiorów danych.