Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Erstellen einer Arff-Datei

Ähnliche Präsentationen


Präsentation zum Thema: "Erstellen einer Arff-Datei"—  Präsentation transkript:

1 Erstellen einer Arff-Datei

2 Das WEKA-eigene- Format ARFF (Attribute Relation File Format):
WEKA-Explorer erlaubt eine vorbereitende Betrachtung von Datenmengen und kommt mit verschiedenen Dateiformaten wie ARFF oder CSV zurecht ARFF: Beschreibung einer Menge von Instanzen, charakterisiert durch eine Menge von Attributen. ARFF-Dateien sind in zwei Abschnitte aufgebaut, Header- und Data-Informationen. Zeilen, die mit einem Prozentzeichen (%) eingeleitet werden, repräsentieren Kommentare und können überall innerhalb der ARFF-Datei vorkommen: % ARFF-Datei 66.arff @RELATION 66.arff @ATTRIBUTE ID numeric… @DATA 66,…

3 Der Anfang des Header-Abschnitts enthält den Namen der Relation
Der Anfang des Header-Abschnitts enthält den Namen der Relation. Das Format <relation-name> contact-lenses Wenn Leerzeichen innerhalb des Namens vorkommen, muß dieser in einfache Anführungszeichen gesetzt sein.

4 Die Deklaration der Attribute hat die Form
@attribute <attribute-name><datatype> Bsp: @attribute age {young, pre-presbyopic, presbyopic} @attribute spectacle-prescrip {myope, hypermetrope} @attribute astigmatism {no, yes} @attribute tear-prod-rate {reduced, normal} @attribute contact-lenses {soft, hard, none} <datatype> repräsentiert vier mögliche Datentypen: · numeric = Numerische Attribute vom Typ real oder integer ·<nominal-specification>=Nominale Werte repräsentieren mögliche Ausprägungen eines Attributs · string= String-Attribute repräsentieren Zeichenwerte. · date [<date-format>]= Daten-Attribute werden durch das Format „yyyy-MM-dd HH:mm:ss“ repräsentiert .

5 Der Data-Abschnitt beginnt danach folgt pro Zeile eine Instanz, deren einzelne Werte durch Kommata getrennt sind. Die Werte müssen in der gleichen Reihenfolge, wie im Attribut-Abschnitt festgelegt, angegeben werden. Fehlende Werte werden durch ein Fragezeichen repräsentiert: young,myope,no,reduced,none young,myope,no,normal,soft young,myope,yes,reduced,none young,myope,yes,normal,hard young,hypermetrope,no,reduced,none young,hypermetrope,no,normal,soft young,hypermetrope,yes,reduced,none young,hypermetrope,yes,normal,hard pre-presbyopic,myope,no,reduced,none pre-presbyopic,myope,no,normal,soft pre-presbyopic,myope,yes,reduced,none pre-presbyopic,myope,yes,normal,hard pre-presbyopic,hypermetrope,no,reduced,none ……

6  Erstellen über den Explorer durch vorliegende Daten in Exceltabelle:
Einfache Variante:  Erstellen über den Explorer durch vorliegende Daten in Exceltabelle: Weka Explorer: open file  Hier eine csv-Datei öffnen! Speichern als .arff

7 Schwierige Variante: Daten noch nicht im csv-Format Erstellen in Excel/Spss; speichern als .csv (!) und wieder überführen ODER Per Hand eingeben im Editor

8 Übung 1. Suchen eines geeigneten Datensatzes
z.b. 2. Erstellen einer .csv 3. Überführung in Arff-Format 4. Fehlerbereinigung ! DataMining( % Zeitaufwand)! Vorstrukturierung größter Aufwand: Richtigkeit Fehlende Werte Redundanz

9 Guter Datensatz= keine „?“
@relationweather.symbolic @attributeoutlook{sunny, overcast, rainy} @attributetemperature{hot, mild, cool} @attributehumidity{high, normal} @attributewindy{TRUE, FALSE} @attributeplay{yes, no} @data sunny,hot,high,FALSE,no sunny,hot,high,TRUE,no overcast,hot,high,FALSE,yes rainy,mild,high,FALSE,yes rainy,cool,normal,FALSE,yes rainy,cool,normal,TRUE,no overcast,cool,normal,TRUE,yes sunny,mild,high,FALSE,no sunny,cool,normal,FALSE,yes rainy,mild,normal,FALSE,yes sunny,mild,normal,TRUE,yes overcast,mild,high,TRUE,yes overcast,hot,normal,FALSE,yes rainy,mild,high,TRUE,no Guter Datensatz= keine „?“


Herunterladen ppt "Erstellen einer Arff-Datei"

Ähnliche Präsentationen


Google-Anzeigen