Przejść do rozpakowanego folderu weka-3-6-14 i wpisać polecenie: java -jar weka.jar
Proszę przy tym pamiętać, że w konsoli poruszamy się używając m.in. komend cd:
Po uruchomieniu programu, powinno pojawić się okno, w którym należy wybrać: Explorer
Tak otwarta WEKA pozwala na wczytanie pliku danych o formacie ARFF. Przykładowe zbiory danych dostępne są w pobranym wcześniej pliku: ...\weka-3-6-14\data
Po wczytaniu danych ułatwiona jest m.in. analiza związana z atrybutami wczytanego zbioru danych:
W przypadku zajęć potrzebna będzie zakładka Classify, tam po kliknięciu na przycisk Choose należy wybrać odpowiedni klasyfikator. Ustawić parametry testowania i wykonać obliczenia:
Sprawozdanie
Sprawozdanie można oddać na dwa sposoby – w formie pisemnego raportu lub w postaci prezentacji i komentarza ustnego związanego z Państwa wnioskami. Ostateczną postać pozostawiam do Państwa wyboru, należy to jednak wcześniej jednoznacznie ustalić.
Warianty eksperymentów są w pewnym sensie rozmyte, a ich płynność można negocjować indywidualnie. Podstawowe propozycje da się jednak ująć w trzech sposobach opisanych poniżej. Proszę jednocześnie pamiętać, że w każdym ze sposobów do dokładnej interpretacji niezbędne są informacje o zbiorze danych. Nie ma konieczności dokładnej analizy dziedziny zbioru danych (w tym przypadku), ale niezbędne będą m.in. informacje o:
liczbie atrybutów warunkowych,
liczbie wartości tych atrybutów lub określeniu, czy są one np. ciągłe albo dyskretne,
liczbie klas decyzyjnych,
liczności każdej z klas decyzyjnych.
Wspomniane wcześniej trzy sposoby, czy też warianty testowania, to:
analiza pod względem zbiorów danych (zbiory danych) – w tym przypadku należ się skupić na większej liczbie zbiorów danych o innej charakterystyce (różne liczby parametrów, liczności klas decyzyjnych itd.) przy zachowaniu podobnych warunków testowania i parametrów związanych z konkretnymi algorytmami;
analiza pod względem testowania (testowanie) – w tej analizie największy nakład powinien zostać poświęcony metodom testowania i różnym wartością parametrów z tym związanym, oczywiście przy zachowaniu reprezentatywnej liczby zbiorów danych.
analiza pod względem ustawienia parametrów (parametry) – w takim podejściu należy skupić się na analizie wybranych algorytmów i wpływu ich parametrów na uzyskiwane rezultaty, także tutaj należy sprawdzić sprawność tych algorytmów w zależności od zbioru danych, czy sposobu testowania, ale z odpowiednim naciskiem na cel analizy.
W każdym przypadku zaleca się użyć po kilka zbiorów danych, sposobów testowania i algorytmów, jednak odpowiednio przekładając nacisk na inne obserwacje. W tabeli poniżej zaprezentowane są minimalne „wielkości” analizy w zależności od wybranego wariantu.
Zbiory danych
Testowanie
Parametry
Liczba zbiorów danych
10
3
3
Sposoby / warianty testowania
2
5
2
Liczba algorytmów
3
3
3
Przypominam jednocześnie, że zaleca się, aby analizować różne algorytmy, np. z zakresu budowy drzew decyzyjnych (np. SimpleCart, J48), komitetów klasyfikatorów (np. AdaBoostM1, Bagging, RandomForest) i reguł decyzyjnych. Podczas każdej z analiz należy też zastanowić się nad jakością algorytmów (ze względu na różne, omawiane miary jakości klasyfikacji oraz pokrycie).
WEKA – uruchomienie i obsługa
java -jar weka.jar
Proszę przy tym pamiętać, że w konsoli poruszamy się używając m.in. komend cd:
Explorer
...\weka-3-6-14\data
Po wczytaniu danych ułatwiona jest m.in. analiza związana z atrybutami wczytanego zbioru danych:
Classify
, tam po kliknięciu na przyciskChoose
należy wybrać odpowiedni klasyfikator. Ustawić parametry testowania i wykonać obliczenia:Sprawozdanie
Sprawozdanie można oddać na dwa sposoby – w formie pisemnego raportu lub w postaci prezentacji i komentarza ustnego związanego z Państwa wnioskami. Ostateczną postać pozostawiam do Państwa wyboru, należy to jednak wcześniej jednoznacznie ustalić.
Warianty eksperymentów są w pewnym sensie rozmyte, a ich płynność można negocjować indywidualnie. Podstawowe propozycje da się jednak ująć w trzech sposobach opisanych poniżej. Proszę jednocześnie pamiętać, że w każdym ze sposobów do dokładnej interpretacji niezbędne są informacje o zbiorze danych. Nie ma konieczności dokładnej analizy dziedziny zbioru danych (w tym przypadku), ale niezbędne będą m.in. informacje o:
Wspomniane wcześniej trzy sposoby, czy też warianty testowania, to:
W każdym przypadku zaleca się użyć po kilka zbiorów danych, sposobów testowania i algorytmów, jednak odpowiednio przekładając nacisk na inne obserwacje. W tabeli poniżej zaprezentowane są minimalne „wielkości” analizy w zależności od wybranego wariantu.
Przypominam jednocześnie, że zaleca się, aby analizować różne algorytmy, np. z zakresu budowy drzew decyzyjnych (np. SimpleCart, J48), komitetów klasyfikatorów (np. AdaBoostM1, Bagging, RandomForest) i reguł decyzyjnych. Podczas każdej z analiz należy też zastanowić się nad jakością algorytmów (ze względu na różne, omawiane miary jakości klasyfikacji oraz pokrycie).