WEKA – uruchomienie i obsługa

  • Proszę pobrać program: WEKA i go rozpakować.
  • Uruchomić wiersz poleceń (CMD):
    cmd
  • Przejść do rozpakowanego folderu weka-3-6-14 i wpisać polecenie:
    java -jar weka.jar
    Proszę przy tym pamiętać, że w konsoli poruszamy się używając m.in. komend cd:
    konsola
  • Po uruchomieniu programu, powinno pojawić się okno, w którym należy wybrać:
    Explorer
    weka1
  • Tak otwarta WEKA pozwala na wczytanie pliku danych o formacie ARFF. Przykładowe zbiory danych dostępne są w pobranym wcześniej pliku:
    ...\weka-3-6-14\data
    Po wczytaniu danych ułatwiona jest m.in. analiza związana z atrybutami wczytanego zbioru danych:
    weka2
  • W przypadku zajęć potrzebna będzie zakładka Classify, tam po kliknięciu na przycisk Choose należy wybrać odpowiedni klasyfikator. Ustawić parametry testowania i wykonać obliczenia:
    weka3

Sprawozdanie

Sprawozdanie można oddać na dwa sposoby – w formie pisemnego raportu lub w postaci prezentacji i komentarza ustnego związanego z Państwa wnioskami. Ostateczną postać pozostawiam do Państwa wyboru, należy to jednak wcześniej jednoznacznie ustalić.

Warianty eksperymentów są w pewnym sensie rozmyte, a ich płynność można negocjować indywidualnie. Podstawowe propozycje da się jednak ująć w trzech sposobach opisanych poniżej. Proszę jednocześnie pamiętać, że w każdym ze sposobów do dokładnej interpretacji niezbędne są informacje o zbiorze danych. Nie ma konieczności dokładnej analizy dziedziny zbioru danych (w tym przypadku), ale niezbędne będą m.in. informacje o:

  • liczbie atrybutów warunkowych,
  • liczbie wartości tych atrybutów lub określeniu, czy są one np. ciągłe albo dyskretne,
  • liczbie klas decyzyjnych,
  • liczności każdej z klas decyzyjnych.

Wspomniane wcześniej trzy sposoby, czy też warianty testowania, to:

  1. analiza pod względem zbiorów danych (zbiory danych) – w tym przypadku należ się skupić na większej liczbie zbiorów danych o innej charakterystyce (różne liczby parametrów, liczności klas decyzyjnych itd.) przy zachowaniu podobnych warunków testowania i parametrów związanych z konkretnymi algorytmami;
  2. analiza pod względem testowania (testowanie) – w tej analizie największy nakład powinien zostać poświęcony metodom testowania i różnym wartością parametrów z tym związanym, oczywiście przy zachowaniu reprezentatywnej liczby zbiorów danych.
  3. analiza pod względem ustawienia parametrów (parametry) – w takim podejściu należy skupić się na analizie wybranych algorytmów i wpływu ich parametrów na uzyskiwane rezultaty, także tutaj należy sprawdzić sprawność tych algorytmów w zależności od zbioru danych, czy sposobu testowania, ale z odpowiednim naciskiem na cel analizy.

W każdym przypadku zaleca się użyć po kilka zbiorów danych, sposobów testowania i algorytmów, jednak odpowiednio przekładając nacisk na inne obserwacje. W tabeli poniżej zaprezentowane są minimalne „wielkości” analizy w zależności od wybranego wariantu.

Zbiory danych Testowanie Parametry
Liczba zbiorów danych 10 3 3
Sposoby / warianty testowania 2 5 2
Liczba algorytmów 3 3 3

Przypominam jednocześnie, że zaleca się, aby analizować różne algorytmy, np. z zakresu budowy drzew decyzyjnych (np. SimpleCart, J48), komitetów klasyfikatorów (np. AdaBoostM1, Bagging, RandomForest) i reguł decyzyjnych. Podczas każdej z analiz należy też zastanowić się nad jakością algorytmów (ze względu na różne, omawiane miary jakości klasyfikacji oraz pokrycie).