Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

G.Heyer Sprachprodukttechnologie SS 2001 1 Text Mining (Begriff) Inhaltlich orientierter Zugriff auf unstrukturierte Daten Zugriffsergebnis bekannt Zugriffsergebnis.

Ähnliche Präsentationen


Präsentation zum Thema: "G.Heyer Sprachprodukttechnologie SS 2001 1 Text Mining (Begriff) Inhaltlich orientierter Zugriff auf unstrukturierte Daten Zugriffsergebnis bekannt Zugriffsergebnis."—  Präsentation transkript:

1 G.Heyer Sprachprodukttechnologie SS Text Mining (Begriff) Inhaltlich orientierter Zugriff auf unstrukturierte Daten Zugriffsergebnis bekannt Zugriffsergebnis nicht bekannt Strukturierte Daten Unstrukturierte Daten Datenabfrage Datenbank-Systeme Datenanfrage Suchmaschinen, Data Mining Inhaltsabfrage Dokumenten- management-Systeme Inhaltsanfrage Text Mining Werkzeuge

2 G.Heyer Sprachprodukttechnologie SS Text Mining (Hintergrund) Rasch wachsende Menge von Texten - Intranetze ( , Dokumentationen, Wertschöpfungsprozesse e-business,...) - Internet (ca. 1 Mrd. Dokumente, täglich ca. 1 Mio. neue Dokumente) Forschungsbereich zwischen klassischem Information Retrieval und linguistischer Informatik

3 G.Heyer Sprachprodukttechnologie SS Aufgaben des Text-Mining Erweitertes Text-Retrieval - Finden von Definitionen, Erläuterungen, Referenzen - ggf. mehrsprachig Konzeptanalyse - Extrahieren von Fachterminologie - Finden von fachspezifischen Schlüsselbegriffen - Berechnung semantischer Relationen zwischen * Objekten (auch Instanzen (=Eigennamen)) * Objekten und Attributen * Objekten und Rollen (Funktionen)

4 G.Heyer Sprachprodukttechnologie SS Anwendungsbereiche des Text-Mining Konzeptbasierte Suche bzw. Finden ähnlicher Texte (Dokumente, Definitionen, Produktbeschreibungen...) - WWW, Intranet, Portale - Dokumenten-Management-Systeme, e/i/m-commerce - Call Center, CRM - Netzoptimierung und -verwaltung (Communities) Dokumentenklassifikation - Archivierung - Workflow-Optimierung ( s, Geschäftsvorfälle,...) Informationsstrukturierung - OO-Analyse und Software-Reengineering - Aufbau von Ontologien - Wissensakquisition...

5 G.Heyer Sprachprodukttechnologie SS Grundlagen: Text als Wissensrohstoff sehr grosse Mengen digitaler Text verfügbar - digitaler Text dient als Codierung von Wissen - Wissen wird durch digitalen Text vermittelt (Wissensgesellschaft) Idee: Wiederverwendung von Texten als digitalem Wissensrohstoff - Ziel: automatische Extraktion von semantischen Relationen(unter Verwendung vorhandener Ressourcen z.B. Lexika, mark-ups)

6 G.Heyer Sprachprodukttechnologie SS Forschungsansätze Wissensbasierte/Regelbasierte Ansätze Mustersuche Neuronale Netze statistische/korpus-linguistische Ansätze Generell gilt: - sehr große Menge an Textdaten zu verarbeiten - flexible Strukturen erforderlich - Zeit, Geld und Repräsentationsformalismen beschränken die Codierung von Wissen

7 G.Heyer Sprachprodukttechnologie SS Zusammenfassung Textdatenbanken dienen als Wissensrohstoff Information Retrieval und Korpuslinguistische Verfahren zur Berechnung von Kollokationen und deren Visualisierung dienen als Grundlage von Text Mining Anwendungen: Konzeptbasierte Suche bzw. Finden ähnlicher Texte (Dokumente, Definitionen, Produktbeschreibungen...), Dokumentenklassifikation, Informationsstrukturierung Nutzung des Wissensrohstoffs Text ist algorithmus-basiert, kein Aufwand für eine regelbasierte Codierung von Wissen


Herunterladen ppt "G.Heyer Sprachprodukttechnologie SS 2001 1 Text Mining (Begriff) Inhaltlich orientierter Zugriff auf unstrukturierte Daten Zugriffsergebnis bekannt Zugriffsergebnis."

Ähnliche Präsentationen


Google-Anzeigen