Inhaltlich orientierter Zugriff auf unstrukturierte Daten

Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Text Mining (Begriff) Inhaltlich orientierter Zugriff auf unstrukturierte Daten Zugriffsergebnis bekannt Zugriffsergebnis nicht bekannt Datenabfrage Datenbank-Systeme Datenanfrage Suchmaschinen, Data Mining Inhaltsabfrage Dokumenten- management-Systeme Inhaltsanfrage Text Mining Werkzeuge Strukturierte Daten Unstrukturierte Daten

Text Mining (Hintergrund)
Rasch wachsende Menge von Texten - Intranetze ( , Dokumentationen, Wertschöpfungsprozesse e-business, ...) - Internet (ca. 1 Mrd. Dokumente, täglich ca. 1 Mio. neue Dokumente) Forschungsbereich zwischen klassischem Information Retrieval und linguistischer Informatik

Aufgaben des Text-Mining
Erweitertes Text-Retrieval - Finden von Definitionen, Erläuterungen, Referenzen - ggf. mehrsprachig Konzeptanalyse - Extrahieren von Fachterminologie - Finden von fachspezifischen Schlüsselbegriffen - Berechnung semantischer Relationen zwischen * Objekten (auch Instanzen (=Eigennamen)) * Objekten und Attributen * Objekten und Rollen (Funktionen)

Anwendungsbereiche des Text-Mining
Konzeptbasierte Suche bzw. Finden „ähnlicher“ Texte (Dokumente, Definitionen, Produktbeschreibungen ...) - WWW, Intranet, Portale - Dokumenten-Management-Systeme, e/i/m-commerce - Call Center, CRM - Netzoptimierung und -verwaltung (Communities) Dokumentenklassifikation - Archivierung - Workflow-Optimierung ( s, Geschäftsvorfälle, ...) Informationsstrukturierung - OO-Analyse und Software-Reengineering - Aufbau von Ontologien - Wissensakquisition ...

Grundlagen: Text als Wissensrohstoff
sehr grosse Mengen digitaler Text verfügbar - digitaler Text dient als Codierung von Wissen - Wissen wird durch digitalen Text vermittelt (Wissensgesellschaft) Idee: Wiederverwendung von Texten als digitalem Wissensrohstoff - Ziel: automatische Extraktion von semantischen Relationen(unter Verwendung vorhandener Ressourcen z.B. Lexika, mark-ups)

Forschungsansätze Wissensbasierte/Regelbasierte Ansätze Mustersuche Neuronale Netze statistische/korpus-linguistische Ansätze Generell gilt: - sehr große Menge an Textdaten zu verarbeiten - flexible Strukturen erforderlich - Zeit, Geld und Repräsentationsformalismen beschränken die Codierung von „Wissen“

Zusammenfassung Textdatenbanken dienen als Wissensrohstoff Information Retrieval und Korpuslinguistische Verfahren zur Berechnung von Kollokationen und deren Visualisierung dienen als Grundlage von Text Mining Anwendungen: Konzeptbasierte Suche bzw. Finden „ähnlicher“ Texte (Dokumente, Definitionen, Produktbeschreibungen ...), Dokumentenklassifikation, Informationsstrukturierung Nutzung des Wissensrohstoffs Text ist algorithmus-basiert, kein Aufwand für eine regelbasierte Codierung von Wissen

Inhaltlich orientierter Zugriff auf unstrukturierte Daten

Ähnliche Präsentationen

Präsentation zum Thema: "Inhaltlich orientierter Zugriff auf unstrukturierte Daten"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Inhaltlich orientierter Zugriff auf unstrukturierte Daten

Ähnliche Präsentationen

Präsentation zum Thema: "Inhaltlich orientierter Zugriff auf unstrukturierte Daten"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback