Inhaltlich orientierter Zugriff auf unstrukturierte Daten Text Mining (Begriff) Inhaltlich orientierter Zugriff auf unstrukturierte Daten Zugriffsergebnis bekannt Zugriffsergebnis nicht bekannt Datenabfrage Datenbank-Systeme Datenanfrage Suchmaschinen, Data Mining Inhaltsabfrage Dokumenten- management-Systeme Inhaltsanfrage Text Mining Werkzeuge Strukturierte Daten Unstrukturierte Daten
Text Mining (Hintergrund) Rasch wachsende Menge von Texten - Intranetze (email, Dokumentationen, Wertschöpfungsprozesse e-business, ...) - Internet (ca. 1 Mrd. Dokumente, täglich ca. 1 Mio. neue Dokumente) Forschungsbereich zwischen klassischem Information Retrieval und linguistischer Informatik
Aufgaben des Text-Mining Erweitertes Text-Retrieval - Finden von Definitionen, Erläuterungen, Referenzen - ggf. mehrsprachig Konzeptanalyse - Extrahieren von Fachterminologie - Finden von fachspezifischen Schlüsselbegriffen - Berechnung semantischer Relationen zwischen * Objekten (auch Instanzen (=Eigennamen)) * Objekten und Attributen * Objekten und Rollen (Funktionen)
Anwendungsbereiche des Text-Mining Konzeptbasierte Suche bzw. Finden „ähnlicher“ Texte (Dokumente, Definitionen, Produktbeschreibungen ...) - WWW, Intranet, Portale - Dokumenten-Management-Systeme, e/i/m-commerce - Call Center, CRM - Netzoptimierung und -verwaltung (Communities) Dokumentenklassifikation - Archivierung - Workflow-Optimierung (emails, Geschäftsvorfälle, ...) Informationsstrukturierung - OO-Analyse und Software-Reengineering - Aufbau von Ontologien - Wissensakquisition ...
Grundlagen: Text als Wissensrohstoff sehr grosse Mengen digitaler Text verfügbar - digitaler Text dient als Codierung von Wissen - Wissen wird durch digitalen Text vermittelt (Wissensgesellschaft) Idee: Wiederverwendung von Texten als digitalem Wissensrohstoff - Ziel: automatische Extraktion von semantischen Relationen(unter Verwendung vorhandener Ressourcen z.B. Lexika, mark-ups)
Forschungsansätze Wissensbasierte/Regelbasierte Ansätze Mustersuche Neuronale Netze statistische/korpus-linguistische Ansätze Generell gilt: - sehr große Menge an Textdaten zu verarbeiten - flexible Strukturen erforderlich - Zeit, Geld und Repräsentationsformalismen beschränken die Codierung von „Wissen“
Zusammenfassung Textdatenbanken dienen als Wissensrohstoff Information Retrieval und Korpuslinguistische Verfahren zur Berechnung von Kollokationen und deren Visualisierung dienen als Grundlage von Text Mining Anwendungen: Konzeptbasierte Suche bzw. Finden „ähnlicher“ Texte (Dokumente, Definitionen, Produktbeschreibungen ...), Dokumentenklassifikation, Informationsstrukturierung Nutzung des Wissensrohstoffs Text ist algorithmus-basiert, kein Aufwand für eine regelbasierte Codierung von Wissen