Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Adelheid Ebner Geändert vor über 11 Jahren
1
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Text Mining (Begriff) Inhaltlich orientierter Zugriff auf unstrukturierte Daten Zugriffsergebnis bekannt Zugriffsergebnis nicht bekannt Datenabfrage Datenbank-Systeme Datenanfrage Suchmaschinen, Data Mining Inhaltsabfrage Dokumenten- management-Systeme Inhaltsanfrage Text Mining Werkzeuge Strukturierte Daten Unstrukturierte Daten
2
Text Mining (Hintergrund)
Rasch wachsende Menge von Texten - Intranetze ( , Dokumentationen, Wertschöpfungsprozesse e-business, ...) - Internet (ca. 1 Mrd. Dokumente, täglich ca. 1 Mio. neue Dokumente) Forschungsbereich zwischen klassischem Information Retrieval und linguistischer Informatik
3
Aufgaben des Text-Mining
Erweitertes Text-Retrieval - Finden von Definitionen, Erläuterungen, Referenzen - ggf. mehrsprachig Konzeptanalyse - Extrahieren von Fachterminologie - Finden von fachspezifischen Schlüsselbegriffen - Berechnung semantischer Relationen zwischen * Objekten (auch Instanzen (=Eigennamen)) * Objekten und Attributen * Objekten und Rollen (Funktionen)
4
Anwendungsbereiche des Text-Mining
Konzeptbasierte Suche bzw. Finden „ähnlicher“ Texte (Dokumente, Definitionen, Produktbeschreibungen ...) - WWW, Intranet, Portale - Dokumenten-Management-Systeme, e/i/m-commerce - Call Center, CRM - Netzoptimierung und -verwaltung (Communities) Dokumentenklassifikation - Archivierung - Workflow-Optimierung ( s, Geschäftsvorfälle, ...) Informationsstrukturierung - OO-Analyse und Software-Reengineering - Aufbau von Ontologien - Wissensakquisition ...
5
Grundlagen: Text als Wissensrohstoff
sehr grosse Mengen digitaler Text verfügbar - digitaler Text dient als Codierung von Wissen - Wissen wird durch digitalen Text vermittelt (Wissensgesellschaft) Idee: Wiederverwendung von Texten als digitalem Wissensrohstoff - Ziel: automatische Extraktion von semantischen Relationen(unter Verwendung vorhandener Ressourcen z.B. Lexika, mark-ups)
6
Forschungsansätze Wissensbasierte/Regelbasierte Ansätze Mustersuche Neuronale Netze statistische/korpus-linguistische Ansätze Generell gilt: - sehr große Menge an Textdaten zu verarbeiten - flexible Strukturen erforderlich - Zeit, Geld und Repräsentationsformalismen beschränken die Codierung von „Wissen“
7
Zusammenfassung Textdatenbanken dienen als Wissensrohstoff Information Retrieval und Korpuslinguistische Verfahren zur Berechnung von Kollokationen und deren Visualisierung dienen als Grundlage von Text Mining Anwendungen: Konzeptbasierte Suche bzw. Finden „ähnlicher“ Texte (Dokumente, Definitionen, Produktbeschreibungen ...), Dokumentenklassifikation, Informationsstrukturierung Nutzung des Wissensrohstoffs Text ist algorithmus-basiert, kein Aufwand für eine regelbasierte Codierung von Wissen
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.