WEKA – uruchomienie i obsługa

Proszę pobrać program: WEKA i go rozpakować.
Uruchomić wiersz poleceń (CMD):
Przejść do rozpakowanego folderu weka-3-6-14 i wpisać polecenie:
java -jar weka.jar
Proszę przy tym pamiętać, że w konsoli poruszamy się używając m.in. komend cd:
Po uruchomieniu programu, powinno pojawić się okno, w którym należy wybrać:
Explorer
Tak otwarta WEKA pozwala na wczytanie pliku danych o formacie ARFF. Przykładowe zbiory danych dostępne są w pobranym wcześniej pliku:
...\weka-3-6-14\data
Po wczytaniu danych ułatwiona jest m.in. analiza związana z atrybutami wczytanego zbioru danych:
W przypadku zajęć potrzebna będzie zakładka Classify, tam po kliknięciu na przycisk Choose należy wybrać odpowiedni klasyfikator. Ustawić parametry testowania i wykonać obliczenia:

Sprawozdanie

Sprawozdanie można oddać na dwa sposoby – w formie pisemnego raportu lub w postaci prezentacji i komentarza ustnego związanego z Państwa wnioskami. Ostateczną postać pozostawiam do Państwa wyboru, należy to jednak wcześniej jednoznacznie ustalić.

Warianty eksperymentów są w pewnym sensie rozmyte, a ich płynność można negocjować indywidualnie. Podstawowe propozycje da się jednak ująć w trzech sposobach opisanych poniżej. Proszę jednocześnie pamiętać, że w każdym ze sposobów do dokładnej interpretacji niezbędne są informacje o zbiorze danych. Nie ma konieczności dokładnej analizy dziedziny zbioru danych (w tym przypadku), ale niezbędne będą m.in. informacje o:

liczbie atrybutów warunkowych,
liczbie wartości tych atrybutów lub określeniu, czy są one np. ciągłe albo dyskretne,
liczbie klas decyzyjnych,
liczności każdej z klas decyzyjnych.

Wspomniane wcześniej trzy sposoby, czy też warianty testowania, to:

analiza pod względem zbiorów danych (zbiory danych) – w tym przypadku należ się skupić na większej liczbie zbiorów danych o innej charakterystyce (różne liczby parametrów, liczności klas decyzyjnych itd.) przy zachowaniu podobnych warunków testowania i parametrów związanych z konkretnymi algorytmami;
analiza pod względem testowania (testowanie) – w tej analizie największy nakład powinien zostać poświęcony metodom testowania i różnym wartością parametrów z tym związanym, oczywiście przy zachowaniu reprezentatywnej liczby zbiorów danych.
analiza pod względem ustawienia parametrów (parametry) – w takim podejściu należy skupić się na analizie wybranych algorytmów i wpływu ich parametrów na uzyskiwane rezultaty, także tutaj należy sprawdzić sprawność tych algorytmów w zależności od zbioru danych, czy sposobu testowania, ale z odpowiednim naciskiem na cel analizy.

W każdym przypadku zaleca się użyć po kilka zbiorów danych, sposobów testowania i algorytmów, jednak odpowiednio przekładając nacisk na inne obserwacje. W tabeli poniżej zaprezentowane są minimalne „wielkości” analizy w zależności od wybranego wariantu.

	Zbiory danych	Testowanie	Parametry
Liczba zbiorów danych	10	3	3
Sposoby / warianty testowania	2	5	2
Liczba algorytmów	3	3	3

Przypominam jednocześnie, że zaleca się, aby analizować różne algorytmy, np. z zakresu budowy drzew decyzyjnych (np. SimpleCart, J48), komitetów klasyfikatorów (np. AdaBoostM1, Bagging, RandomForest) i reguł decyzyjnych. Podczas każdej z analiz należy też zastanowić się nad jakością algorytmów (ze względu na różne, omawiane miary jakości klasyfikacji oraz pokrycie).

Tydzień A i B:	terminy konsultacji
Pokój	202 (budynek B)
jan.kozak@ue.katowice.pl

jkozak.pl

Materiały do ćwiczeń

WEKA – uruchomienie i obsługa

Sprawozdanie

Konsultacje

Aktualności

Odnośniki