SS 03 - HS Melchuk - Dependency Syntax

Slides:



Advertisements
Ähnliche Präsentationen
Kohonennetze für Information Retrieval mit User Feedback
Advertisements

Heterogene Informationssysteme
Inhalt Saarbrücken,.
Wissensanalyse von Aufgaben mit TKS Eine Methode zur Problemlösung
Information Portal Suite (IPS)
:33 Architektur Moderner Internet Applikationen – Prolog Copyright ©2003 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner.
Statistische Suche nach melodischen Prototypen
Dr. Helmuth Sagawe WS 2010/11 Universität Heidelberg
PADLR Submodul Modular Content Archives Ein Content Browser für Lehr- materialien aus der Elektrotechnik Dipl.-Ing. Mark Painter Institut für Nachrichtentechnik.
Berg-Schlosser : VL : Vergleichende Politikwissenschaft Vergleichende Methoden Ausgangsbasis : Fälle: begrenzte Auswahl auf der Makro-Ebene, abhängig.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
3. Kapitel: Komplexität und Komplexitätsklassen
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
DEPARTMENT FÜR INFORMATIK
Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.
HTML - Einführung Richard Göbel.
DOM (Document Object Model)
Genetische Algorithmen
Der Umgang mit qualitativ erhobenen Daten: Strategien der Datenanalyse
Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.
DER SPEZIALIST FÜR IHRE INFORMATIONSARCHITEKTUR neofonie neofonie Forschung und Entwicklung: Innovative Suchmethoden Präsentiert von Ronald.
Anwendungen. © Prof. T. Kudraß, HTWK Leipzig Historie des WWW Grundlage Internet – Entwickelt Ende der 60er Jahre vom US-Militär (ARPA-Net) – Technische.
Technik Gestaltung Navigation Daten. Übersicht Client Webbrowser InternetServer.
Aspekte des neuen Lehrplans Informatik
Herzlich willkommen beim 1. Workshop der AG Methodik
Introducing the .NET Framework
Was sind Histogramme? (1)
Einführung und Überblick
Maschinelles Lernen und automatische Textklassifikation
Berliner Rahmenpläne Informatik für die Sekundarstufe I
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović
Self Organizing Tree Algorithm
? Was ist Informatik? Was ist Informatik? Alexander Lange
grundlagen der Wirtschafts- informatik
EXCEL PROFESSIONAL KURS
Seminar XML-Technologien: VoiceXML/SMIL 1 Was ist SMIL ? Synchronized Multimedia Integration Language Ausprache wie das englische Wort smile {smaIl} August.
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE.
Minh Bui 14. März 2013 Mobile Visualization in SenseDroid Diplomarbeit Minh Bui, # 1 of 16 Aufgabensteller: Prof. Dr. Andreas Butz Betreuer:
Teilnehmer: Sven Dahmer BAMP01 Marco Pohl BAMP02 Toni Möckel BAMP02 Java – Projekt 2010 Projekt: Realisierung einer API – Applikation für den weltgrößten.
Nicolas Frings Maximilian Bernd Stefan Piernikarcyk
Peter Grzybek ( Graz ) Das Grazer Projekt »Wortlängen(häufigkeiten) in Texten slawischer Sprachen« FWF #15485 ( )
Multivariate Verfahren der Statistik bei der quantitativen Textanalyse
Adaption von K-Means Algorithmen an Datenbanken
Erfindervon Fuzzy Logic
Kompetenz -, Lern - und Prüfungsbereiche Anforderungsbereiche
Abteilung für automatische Sprachverarbeitung
Wasserfallmodell und Einzelbegriffe
Aforms2web solutions & services GmbH - a company of ANECON and forms2web Kurzbericht für E-GovExperts Arbeitsgruppe Präsentation und Standarddaten ehemals.
Übung zu Einführung in die LDV I
XML (Extensible Markup Language)
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Statistische Methoden in der Wirtschafts- und Sozialgeographie
Information Retrieval, Vektorraummodell
Mensch – Maschine - Kommunikation
Stundenplanung Programm zur Stunden- und Zimmerplanung auf der Basis von Datenbanken und unter Berücksichtigung von Mehrfachnutzung im (lokalen) Netz (Internet.
Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt.
Bern University of Applied Sciences Engineering and Information Technology Documentation generator for XML-based description standards Ausgangslage: Die.
Datenbanken im Web 1.
Methoden der Sozialwissenschaften
Die 7 Management-Werkzeuge
Müller Christoph1 Projektmanagement und MS Project Pädagogisches Institut.
Pascal Brunner Uniklinik RWTH Aachen Institut für Medizinische Informatik Integration von ImageJ- und Matlab- Servern in das Electronic Data Capture klinischer.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Comprehensive Information Base (CIB) – ein Prototyp zur semantischen Datenintegration Stefan Arts
Rechen- und Kommunikationszentrum (RZ) Selektionsstrategien auf Graphstrukturen Sven Porsche Seminarvorträge Aachen.
Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010.
XML-basierte Beschreibungssprachen für grafische Benutzerschnittstellen Seminarvortrag im Studiengang „Scientific Programming“ von Steffen Richter.
 Präsentation transkript:

SS 03 - HS Melchuk - Dependency Syntax 26.11.08 Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Inhaltsübersicht Einleitung und Übersicht Demonstration der Textmühle Theoretische Überlegungen Aufbau und Struktur der Textmühle Fazit 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Einleitung und Übersicht Wofür wird die Textmühle eingesetzt? Verarbeitung von Texten und Korpora Konvertierung von Dateiformaten Erstellung von Wort- und Frequenzlisten Morphologische Analysen (mit malaga, bzw. jslim)‏ kontrollierte Erstellung von Korpora Statistische Berechnungen Verteilungen von Domänen eines Korpus Wortanzahlen in Texten und Domänen Type/Token-Verteilungen Klassifikation / Clusteranalyse 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Einleitung und Übersicht Übersicht zu den Dateiformaten im WWW Berücksichtigung bei Textmühle 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Einleitung und Übersicht Übersicht zu den Dateiformaten im WWW 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Einleitung und Übersicht Was sind die wesentlichen Merkmale der Textmühle? Zugriff über das Internet Verarbeitung der Anforderungen erfolgt auf dem Server Programmierung in einer „offenen“ Programmiersprache (PHP)‏ Keine Abhängigkeit vom Betriebssystem des Benutzers Leichter Zugang zu Daten und Bearbeitungsprozeduren Keine umständliche Installation und Konfiguration für den Nutzer Zusammenarbeit mit anderen Applikationen im WWW 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Demonstration Verarbeitung eines Korpus anhand einer Beispielkollektion Analyseergebnisee des Testkorpus wifi Der Ablauf der Verarbeitungsschritte: Import Konvertierung Filter Frequenzliste Morphologie Clusteranalyse 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Demonstration 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Theoretische Überlegungen 3.1 Basiselemente Linguistischer Analysen Term - Wort, Wortform, Grundform, Morphem und Allomorph Text Korpus Praktischer Analyseansatz zur Tokenisierung: Das Wort ist eine sprachliche Einheit, die in der geschriebenen Sprache durch Leerstellen begrenzt ist. Herbst, Stoll, u. Westermayr (1991, S. 79, Definition 317)‏ Pragmatische Definition von Text und Korpus: Der Terminus “Text“ bezeichnet eine begrenzte Folge von sprachlichen Zeichen […] Brinker (2005, S.17f)‏ Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen in einer oder mehreren Sprachen […] Lemnitzer u. Zinsmeister (2006, S. 40)‏ 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Theoretische Überlegungen Einschub: Korpuskodierungen Welche Korpuskodierungen sind gebräuchlich? → überwiegend scheint eine XML-Codierung das Gebräuchlichste zu sein: Korpus Umfang Kodierung Reuters Corpus ~ 200 Mio. lfd. Wortformen XML DWDS1 ~ 40 Mio. lfd. Wortformen XML AAC2 ~ 100 Mio. lfd. Wortformen n.b. Deutsches Referenzkorpus ~ 2.000 Mio. lfd. Wortformen IDS-Textmodell (XML)‏ negr@ corpus ~ 350 Tsd. lfd. Wortformen SQL-DB BNC ~ 100 Mio. lfd. Wortformen XML (neue Version)‏ COBUILD3 ~ 65 Mio. lfd. Wortformen n.b. Oslo ~ 1,5 Mio. lfd. Wortformen txt/ascii LIMAS ~ 1 Mio. lfd. Wortformen n.b. 1 DWDS: Digitales Wörterbuch der deutschen Sprache 2 AAC: Austrian Academy Corpus (kaum Informationen via www zugänglich)‏ 3 COBUILD: Die Internetpräsenz des Collins-COBUILD Korpus ist z.Zt. nicht verfügbar 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Theoretische Überlegungen 3.2 Knowledge Discovery Unvorstellbare Mengen an Dokumenten und Daten Methoden zur Aufdeckung versteckter Zusammenhänge oder weitergehender Informationen (Data Mining, Text Mining)‏ Benachbarte Gebiete des KD nach Hotho (2004, S.30)‏ 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Theoretische Überlegungen 3.3 Angewendete Methoden des Textmining Stopplisten Anwendung linguistischen Wissens (Morphologische Analyse)‏ Löschen von seltenen Wörtern (insbesondere Hapax Legomena)‏ Normierung und Gewichtung der Daten Unter Berücksichtigung kritischer Einflussfaktoren: Datenmenge Dateiformate Zeichensätze Sprache der Dokumente 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Theoretische Überlegungen 3.3 Angewendete Methoden des Textmining: Einflussfaktoren Datenmenge Entwicklung 60er Jahre bis Gegenwart: Anzahl der laufenden Wortformen (z.T. 100 Mio. und mehr)‏ Datenübertragungsrate für Internetanwendungen Zeitl. Abfolge 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Theoretische Überlegungen 3.3 Angewendete Methoden des Textmining: Einflussfaktoren Dateiformate Abdecken möglichst vieler verschiedener Eingangsformate Probleme bei proprietären Formaten (z.B. Microsoft)‏ Verfügbarkeit von Anwendungen zur Konvertierung Zeichensätze Quasi-Standard UTF-8 für Internet Problem der Erkennung der konkreten Ausgangskodierung (z.B. ISO-x, Ascii, Ansi)‏ Theoretische Lösung: Annotierung der Kodierung mit XML Verwendete Sprache der Daten Prinzipiell gelöstes Teilproblem für hinreichend große Textlänge Problem der Multilingualität in Texten (insbesondere im WWW)‏ 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Theoretische Überlegungen 3.3 Angewendete Methoden des Textmining Ansätze zur Anwendung linguistischen Wissens Probabilistisches Stemming „Linguistisches“ Stemming Linguistische morphologische Analyse Die zugrunde liegende Theorie, die Allomorph-Methode, basiert auf der von Roland R. Hausser entwickelten SLIM-Sprachtheorie Zerlegung der Oberfläche (Segmentierung)‏ Klassifikation der elementaren Bestandteile (Lexical-Lookup)‏ Regelbasierte Zusammensetzung und grammatische Gesamtanalyse der Wortform (Konkatenation)‏ Stoplisten Reduktion auf die semantisch relevanten Elemente Qualitätsverbesserung für Stoplisten durch Wortformerkennung 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Theoretische Überlegungen 3.3 Angewendete Methoden des Textmining Löschen seltener Wörter Rechnerisch aufwendige Clusteranalyse bedingt Reduktion der berücksichtigten Terme/Wörter Reduktion von Ausreissern („Rauschen“)‏ Absicherung: Vorkommenshäufigkeit < Schranke Methoden: Dokument-Pruning und Wort-Pruning Entfernen von invarianten Wörtern Normierung und Gewichtung Skalierung der Frequenzen an Normgröße Ermöglicht Verfahren mit absoluten Frequenzen Verdeckung von Unterscheidungsmerkmal Text-/ Domänengröße Gewichtung der Wortdimensionen tfidf: Ausreisser (sehr hohe bzw. sehr niedrige Frequenz erhalten niedrigeres Gewicht)‏ Gewichtung nach Varianz 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Theoretische Überlegungen 3.4 Clusteranalyse Ziel einer Clusteranalyse: Auffinden von homogenen Teilmengen von Objekten in einer heterogenen Gesamtheit von Objekten Vielfältige Anwendungsgebiete: Archäologie, Biologie, Chemie, (Computer-)Linguistik, Geologie, Informatik, Klimaforschung, Medizin, Psychologie, Soziologie, Wirtschaftswissenschaften… Problem des Entscheidungszwangs zu maximaler Homogenität in einer Gruppe oder maximaler Heterogenität zwischen Gruppen Hauptproblem: eindeutige Bestimmung des geeignetsten Verfahrens Aufgrund der Berechenbarkeit: Bei 10 Elementen und 5 Gruppen bestehen 42525 Möglichkeiten Bei 50 Elementen sind es bereits 7,401 •1032 Möglichkeiten 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Theoretische Überlegungen 3.4 Clusteranalyse Überblick zu den gängigen Verfahren Clusteralgorithmen nach Backhaus u.a. 2005, S. 511 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Theoretische Überlegungen 3.4 Clusteranalyse Zugrundeliegende Repräsentation: Vektorraummodell Einsatz von Distanz- oder Ähnlichkeitsmaßen zur Analyse der Eigenschaften von Clusterelementen Basis-Algorithmen K-means Algorithmus als Beispiel für partitionierende Verfahren 1 Initiale Auswahl von K Elementen als Clusterzentren 2 (wiederhole solange)‏ 3 Bilde K neue Cluster durch Zuordnung jedes Elements zu dem ihm nächsten stehenden Clusterzentrums 4 Neuberechnung aller Clusterzentren 5 (bis sich die Clusterzentren nicht mehr verändern)‏ Probleme bei partitionierenden Verfahren: Die Zielfunktion hat zu großen Einfluss auf das Ergebnis Wahl der Startgruppierung ist oft nur subjektiv Unlösbarkeit des Problems der lokalen Optima 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Theoretische Überlegungen 3.4 Clusteranalyse Zugrundeliegende Repräsentation: Vektorraummodell Einsatz von Distanz- oder Ähnlichkeitsmaßen zur Analyse der Eigenschaften von Clusterelementen Basis-Algorithmen Schematischer Ablauf aller agglomerierendenVerfahren 1 (wenn erforderlich) Berechnen der Distanz- oder Ähnlichkeitsmatrix 2 (wiederhole solange)‏ 3 Vereinige die beiden Cluster, die sich am nächsten stehen 4 Berechnung des neu gebildeten Clusters und Substitution der beiden vorherigen Cluster in der Distanz- oder Ähnlichkeitsmatrix 5 (bis nur noch ein Cluster mit allen Elementen übrig ist)‏ Probleme bei agglomerierenden Verfahren: Gefahr einer fehlerhaften irreversiblen Zuordnung Berechnungsaufwand für divisive Methode (Top-Down)‏ 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Theoretische Überlegungen 3.4 Clusteranalyse: Überblick zu agglomierierenden Verfahren Single-Linkage-Verfahren („Nearest Neighbor“)‏ Complete-Linkage-Verfahren („Furthest Neighbor“)‏ Centroid-Verfahren (Bezug auf Clustermittelpunkte)‏ Ward‘s Methode Einsatz des Varianzkriteriums Fusionierung der Elemente mit dem minimalen Fehlerzuwachs → im intuitiven Ansatz bereits bessere Ergebnisse als die meisten anderen Verfahren → vor allem für größenordnungsmäßig vergleichbare Cluster geeignet 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Theoretische Überlegungen 3.4 Clusteranalyse: Visualisierung der Ergebnisse Darstellung der Ausgangsdaten Darstellung von Punktewolken der Merkmale (n-1 2-dimensionale Darst.)‏ Histogramm Darstellung der Analysen Dendrogramm Struktogramm „Ellbogen-Kriterium“ 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Theoretische Überlegungen 3.4 Clusteranalyse: Varianten der Textklassifikation Initiale Klassifikation innerhalb eines Korpus Klassifikation eines neuen Textes Anwendung existierender Ähnlichkeits- und Distanzmatrizen Erneute Clusteranalyse mit n+1 Elementen und ggf. Neuverteilung Gruppierung/Klassifikation mittels Cluster-Analyse funktioniert bereits mit niedriger Dimensionalität Verbesserungansätze von Analyseergebnissen durch Einsatz von Ontologien („Konzeptbildung“)‏ 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Aufbau und Struktur der Textmühle 4.1 Systemumfeld und technischer Rahmen Entwicklung der Textmühle in PHP, Dateisystemoperationen in Perl Zugrunde liegendes Prinzip von Client-Server-Anwendungen 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Aufbau und Struktur der Textmühle 4.1 Systemumfeld und technischer Rahmen Berücksichtigung des modularen Aufbaus bei Implementierung Entwicklung mit Eclipse, Versionierung mit Subversion Integration von bestehenden Anwendungen: Grammatikentwicklungssysteme Malaga und jslim Konvertierungsprogramme für XML-Formate, pdf und ps Xpdf, Ghostscript (Win) vs. ps2ascii, html2text (Suse-Linux), PHP SDOM Parser Ajax-Modul sajax für verbesserte Bedienung und parallele Anfragen Grafikbibliothek phplot zur Generierung der Diagramme und Grafiken weitere PHP-Module für spezifische Funktionen 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Aufbau und Struktur der Textmühle 4.2 Aufbau der Textmühle (Module)‏ Benutzeroberfläche Benutzerrollen und –konten Internationalisierung Fehlerbehandlung Struktur der GUI 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Aufbau und Struktur der Textmühle 4.2 Aufbau der Textmühle (Module)‏ Gesamtprozess Vorhergehende Probleme: Neuentwicklung des Korpusprozesses mit Unterstützung mittels Perl 26.11.08 Nicolas Goessnitzer

SS 03 - HS Melchuk - Dependency Syntax Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 26.11.08 Fazit Erkenntnisse aus Einsatztests und Anwendung Erzeugung von vielfältigen Analysedaten Wortanzahlen bgzl. Texten und Domänen Frequenzverteilungen (Type-Token, Terme)‏ Morphologische Analyse der Wortformen Clusteranalyse Problemstellungen Performance bei Internetanbindung der Morphologiemodule Integration Dateimodus Anforderungen an Serverkonfiguration und –leistung Zukünftige Planung Weiterentwicklung Direktanbindung Morphologie OpenSource? 26.11.08 Nicolas Goessnitzer