Erstellen einer Arff-Datei

Slides:



Advertisements
Ähnliche Präsentationen
Überblick über die Datenbankproblematik
Advertisements

Support.ebsco.com Lernprogramm zum Erstellen einer lokalen Sammlung.
Techniken des Maschinellen Lernens für Data Mining Ian Witten, Eibe Frank (übersetzt von Norbert Fuhr)
Präsentation PS: Klasse File von Janko Lange, Thomas Lung, Dennis Förster, Martin Hiller, Björn Schöbel.
Extensible Markup Language
Variablen und Datentypen
10. Grundlagen imperativer Programmiersprachen
Attribute Profile.
Techniken des Maschinellen Lernens für “Data Mining” Ian Witten, Eibe Frank (übersetzt von Norbert Fuhr)
Markus Tank, Wie arbeitet man mit dem Rich Text Editor?
HTML - Einführung Richard Göbel.
FH-Hof Extensible Markup Language Richard Göbel. FH-Hof Extensible Markup Language XML XML ist universeller Ansatz für die Strukturierung von Zeichenketten.
XML-Schema HKI Proseminar Wintersemester 2010/11 Dozentin: Frau Kurz von Jan Kohl und Christian Lütticke.
XHTML 1.1 C. Nimz Abstrakte Module XHTML 1.1 C. Nimz Was ist ein abstraktes Modul? Definition eines XHTML-Moduls in spezieller leichter.
Überblick XML: Extensible Markup Language Entwickelt, um Informationen bereitzustellen, zu speichern und zu übertragen Im Gegensatz zu HTML keine vordefinierten.
Einführung XML XML Einführung Andreas Leicht.
WS 02/03 Netzwerkevon B. Frielinghaus Netzwerke Erzeugung und Änderung.
EXtensible Server Pages von Belrhiti El mostafa. Inhalt Was ist XSP ? Wichtige XSP Tags Erstellungsmöglichkeiten Die Basis der XSP.
Eingabe und Kodierung von Daten in SPSS
Excel Kurs Teil I Excel starten, Verknüpfungen auf dem Desktop anlegen. F. Bäumer.
DVG Kommentare1 Kommentare. DVG Kommentare 2 Kommentare Es gibt zwei Arten von Kommentaren: einzeilige Kommentare // der Kommentar geht.
DVG Kommentare 1 Kommentare. 2 Kommentare Es gibt zwei Arten von Kommentaren: einzeilige Kommentare // der Kommentar geht bis zum Ende der Zeile.
Einführung MySQL mit PHP
Bidirektionales VFX-XML-Interface für Daten-Import/Export Visual Extend Anwendertreffen 2009 Rainer Becker, Frank Kropp deutschsprachige FoxPro User Group.
FH-Hof HTML - Einführung Richard Göbel. FH-Hof Komponenten des World Wide Webs WWW Browser HyperText Transfer Protocol (HTTP) via Internet WWW Server.
Installation FAQ-Forum Zope Basisinstallation Zusätzliche Module (Products) Grundkonfiguration Einrichten neuer Foren.
SQL PHP und MySQL Referat von Katharina Stracke und Carina Berning
Hyperlinks und Anker Links notieren
PDF-Datei erstellen Wir wollen nicht auf Papier drucken, sondern in eine PDF-Datei. (Portable Document Format) Wir öffnen das heruntergeladene Dokument.
SS 2013 – IBB4B Datenmanagement Fr 17:00 – 18:30 R Vorlesung #5 Relationale Entwurfstheorie.
Einführung in SPSS/PASW. Eckdaten Ort: ZIP-Pool Zielgruppe: Primär 3. Semester Bachelor, sekundär Diplomstudierende Zeiten: Dienstags: 10:15-11:45 Uhr.
Tutorium zur LV Online Research Ein Computerprogramm tut, was Du schreibst, nicht was Du willst.
Abteilung für Telekooperation Übung Softwareentwicklung 1 für Wirtschaftsinformatik Dr. Wieland Schwinger
Datenbanken Datenstrukturen.
VHDL2_Sprachelemente und Concurrent Statements (Nebenläufige Anweisungen)
SS 2011 – IBB4C Datenmanagement Fr 15:15 – 16:45 R Vorlesung #5 Relationale Entwurfstheorie.
SS 2009 – IBB4C Datenmanagement Fr 15:15 – 16:45 R Vorlesung Normalformen.
Datenbanksysteme für hörer anderer Fachrichtungen
Vom Kontext zum Projekt V Carina Berning Sabrina Gursch Pierre Streicher Intelligente Dateisysteme.
Permanente Datenspeicherung
REBOL. Was ist REBOL frei verfügbar plattformübergreifend highly reflective flexibel kompakt interpretiert.
Variablen in Programmiersprachen
Objekte Objekte sind Elemente, die man mit dem Programm bearbeiten kann. Datei, aufgebaut als Tabelle (Relation) Datensatz, entspricht einer Zeile der.
DATEISPEICHER in der S P S
1 Tagesüberblick 2 Lösung Hausaufgabe/Fragen Datei- ein- und ausgabe Schleifen Vergleiche Wahrheit.
Excel Grundlagen.
CSS Cascading Style Sheets
Anna Steinke‌ WG13 ‌‌‌ Köln, Wie sichere ich meine Daten? Wie mache ich meinen PC sicher?
Erstellung einer Facettenklassifikation
HTML Hypertext Markup Language
Berechenbarkeit Klaus Becker Berechenbarkeit.
Datenbanken Eine Einführung.
Recovery    AIFB SS (1/6) Durchführung der Recovery-Maßnahmen(1/6) Transaktions-Fehler (TF) T1 T2 T3 Zeitt Transaktion T2 wird vom.
(Syntax, Strings/Zahlen, Variablen, Arrays)
1 Relationale Datenbasisschemata (1) Substitution der Variablen zu Tupel- und Relationstypen. Für das Beispiel: Typ tupel EineArtikelArt ( ANr:Zeichen(8),
Geoinformation3 Geoinformation III XML Grundlagen und Dokumentspezifikation Vorlesung 12b.
Java-Kurs Übung Besprechung der Hausaufgabe
PHPmyadmin Maya Kindler 6c.
SS 2015 – IBB4C Datenmanagement Fr 17:00 – 18:30 R Vorlesung #5 Relationale Entwurfstheorie.
Datenbanken erstellen mit PostgreSQL
WiWi WS2015 Excel Grundlagen Fachbereich Wirtschaftswissenschaften.
Lukas Kerecz - Edits1 Edits Lukas Kerecz. Lukas Kerecz - Edits2 Gliederung  Einführung  Edits – warum und wofür?  Edits – Definiton  einleitende Beispiele.
Java Programme nur ein bisschen objektorientiert.
Deutscher Perl Workshop 2014 PORF Practice
File Objekt
Vorlesung #5 Relationale Entwurfstheorie
Vorlesung #5 Überführung (Fortsetzung) / Normalformen
Biraveenmaks Ponnu Benjamin Zumbrunn
Von Wietlisbach, Lenzin und Winter
Von Wietlisbach, Lenzin und Winter
 Präsentation transkript:

Erstellen einer Arff-Datei

Das WEKA-eigene- Format ARFF (Attribute Relation File Format): WEKA-Explorer erlaubt eine vorbereitende Betrachtung von Datenmengen und kommt mit verschiedenen Dateiformaten wie ARFF oder CSV zurecht ARFF: Beschreibung einer Menge von Instanzen, charakterisiert durch eine Menge von Attributen. ARFF-Dateien sind in zwei Abschnitte aufgebaut, Header- und Data-Informationen. Zeilen, die mit einem Prozentzeichen (%) eingeleitet werden, repräsentieren Kommentare und können überall innerhalb der ARFF-Datei vorkommen: % ARFF-Datei 66.arff @RELATION 66.arff @ATTRIBUTE ID numeric… @DATA 66,…

Der Anfang des Header-Abschnitts enthält den Namen der Relation Der Anfang des Header-Abschnitts enthält den Namen der Relation. Das Format lautet @relation <relation-name> Bsp: @relation contact-lenses Wenn Leerzeichen innerhalb des Namens vorkommen, muß dieser in einfache Anführungszeichen gesetzt sein.

Die Deklaration der Attribute hat die Form @attribute <attribute-name><datatype> Bsp: @attribute age {young, pre-presbyopic, presbyopic} @attribute spectacle-prescrip {myope, hypermetrope} @attribute astigmatism {no, yes} @attribute tear-prod-rate {reduced, normal} @attribute contact-lenses {soft, hard, none} <datatype> repräsentiert vier mögliche Datentypen: · numeric = Numerische Attribute vom Typ real oder integer ·<nominal-specification>=Nominale Werte repräsentieren mögliche Ausprägungen eines Attributs · string= String-Attribute repräsentieren Zeichenwerte. · date [<date-format>]= Daten-Attribute werden durch das Format „yyyy-MM-dd HH:mm:ss“ repräsentiert .

Der Data-Abschnitt beginnt mit @data, danach folgt pro Zeile eine Instanz, deren einzelne Werte durch Kommata getrennt sind. Die Werte müssen in der gleichen Reihenfolge, wie im Attribut-Abschnitt festgelegt, angegeben werden. Fehlende Werte werden durch ein Fragezeichen repräsentiert: Bsp: @data young,myope,no,reduced,none young,myope,no,normal,soft young,myope,yes,reduced,none young,myope,yes,normal,hard young,hypermetrope,no,reduced,none young,hypermetrope,no,normal,soft young,hypermetrope,yes,reduced,none young,hypermetrope,yes,normal,hard pre-presbyopic,myope,no,reduced,none pre-presbyopic,myope,no,normal,soft pre-presbyopic,myope,yes,reduced,none pre-presbyopic,myope,yes,normal,hard pre-presbyopic,hypermetrope,no,reduced,none ……

 Erstellen über den Explorer durch vorliegende Daten in Exceltabelle: Einfache Variante:  Erstellen über den Explorer durch vorliegende Daten in Exceltabelle: Weka Explorer: open file  Hier eine csv-Datei öffnen! Speichern als .arff

Schwierige Variante: Daten noch nicht im csv-Format Erstellen in Excel/Spss; speichern als .csv (!) und wieder überführen ODER Per Hand eingeben im Editor

Übung 1. Suchen eines geeigneten Datensatzes z.b. http://archive.ics.uci.edu/ml/ 2. Erstellen einer .csv 3. Überführung in Arff-Format 4. Fehlerbereinigung ! DataMining(10 .. 20% Zeitaufwand)! Vorstrukturierung größter Aufwand: Richtigkeit Fehlende Werte Redundanz

Guter Datensatz= keine „?“ @relationweather.symbolic @attributeoutlook{sunny, overcast, rainy} @attributetemperature{hot, mild, cool} @attributehumidity{high, normal} @attributewindy{TRUE, FALSE} @attributeplay{yes, no} @data sunny,hot,high,FALSE,no sunny,hot,high,TRUE,no overcast,hot,high,FALSE,yes rainy,mild,high,FALSE,yes rainy,cool,normal,FALSE,yes rainy,cool,normal,TRUE,no overcast,cool,normal,TRUE,yes sunny,mild,high,FALSE,no sunny,cool,normal,FALSE,yes rainy,mild,normal,FALSE,yes sunny,mild,normal,TRUE,yes overcast,mild,high,TRUE,yes overcast,hot,normal,FALSE,yes rainy,mild,high,TRUE,no Guter Datensatz= keine „?“