Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Inhaltlich orientierter Zugriff auf unstrukturierte Daten

Ähnliche Präsentationen


Präsentation zum Thema: "Inhaltlich orientierter Zugriff auf unstrukturierte Daten"—  Präsentation transkript:

1 Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Text Mining (Begriff) Inhaltlich orientierter Zugriff auf unstrukturierte Daten Zugriffsergebnis bekannt Zugriffsergebnis nicht bekannt Datenabfrage Datenbank-Systeme Datenanfrage Suchmaschinen, Data Mining Inhaltsabfrage Dokumenten- management-Systeme Inhaltsanfrage Text Mining Werkzeuge Strukturierte Daten Unstrukturierte Daten

2 Text Mining (Hintergrund)
Rasch wachsende Menge von Texten - Intranetze ( , Dokumentationen, Wertschöpfungsprozesse e-business, ...) - Internet (ca. 1 Mrd. Dokumente, täglich ca. 1 Mio. neue Dokumente) Forschungsbereich zwischen klassischem Information Retrieval und linguistischer Informatik

3 Aufgaben des Text-Mining
Erweitertes Text-Retrieval - Finden von Definitionen, Erläuterungen, Referenzen - ggf. mehrsprachig Konzeptanalyse - Extrahieren von Fachterminologie - Finden von fachspezifischen Schlüsselbegriffen - Berechnung semantischer Relationen zwischen * Objekten (auch Instanzen (=Eigennamen)) * Objekten und Attributen * Objekten und Rollen (Funktionen)

4 Anwendungsbereiche des Text-Mining
Konzeptbasierte Suche bzw. Finden „ähnlicher“ Texte (Dokumente, Definitionen, Produktbeschreibungen ...) - WWW, Intranet, Portale - Dokumenten-Management-Systeme, e/i/m-commerce - Call Center, CRM - Netzoptimierung und -verwaltung (Communities) Dokumentenklassifikation - Archivierung - Workflow-Optimierung ( s, Geschäftsvorfälle, ...) Informationsstrukturierung - OO-Analyse und Software-Reengineering - Aufbau von Ontologien - Wissensakquisition ...

5 Grundlagen: Text als Wissensrohstoff
sehr grosse Mengen digitaler Text verfügbar - digitaler Text dient als Codierung von Wissen - Wissen wird durch digitalen Text vermittelt (Wissensgesellschaft) Idee: Wiederverwendung von Texten als digitalem Wissensrohstoff - Ziel: automatische Extraktion von semantischen Relationen(unter Verwendung vorhandener Ressourcen z.B. Lexika, mark-ups)

6 Forschungsansätze Wissensbasierte/Regelbasierte Ansätze Mustersuche Neuronale Netze statistische/korpus-linguistische Ansätze Generell gilt: - sehr große Menge an Textdaten zu verarbeiten - flexible Strukturen erforderlich - Zeit, Geld und Repräsentationsformalismen beschränken die Codierung von „Wissen“

7 Zusammenfassung Textdatenbanken dienen als Wissensrohstoff Information Retrieval und Korpuslinguistische Verfahren zur Berechnung von Kollokationen und deren Visualisierung dienen als Grundlage von Text Mining Anwendungen: Konzeptbasierte Suche bzw. Finden „ähnlicher“ Texte (Dokumente, Definitionen, Produktbeschreibungen ...), Dokumentenklassifikation, Informationsstrukturierung Nutzung des Wissensrohstoffs Text ist algorithmus-basiert, kein Aufwand für eine regelbasierte Codierung von Wissen


Herunterladen ppt "Inhaltlich orientierter Zugriff auf unstrukturierte Daten"

Ähnliche Präsentationen


Google-Anzeigen