Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Text Mining Nichterl Markus, Steindorfer Jochen. AGENDA Einleitung Einleitung Grundlagen der Volltextsuche Grundlagen der Volltextsuche Retrievalmodelle.

Ähnliche Präsentationen


Präsentation zum Thema: "Text Mining Nichterl Markus, Steindorfer Jochen. AGENDA Einleitung Einleitung Grundlagen der Volltextsuche Grundlagen der Volltextsuche Retrievalmodelle."—  Präsentation transkript:

1 Text Mining Nichterl Markus, Steindorfer Jochen

2 AGENDA Einleitung Einleitung Grundlagen der Volltextsuche Grundlagen der Volltextsuche Retrievalmodelle Retrievalmodelle Text Mining Systeme in der Praxis Text Mining Systeme in der Praxis Zusammenfassung und Ausblick Zusammenfassung und Ausblick

3 Einleitung

4 Warum Text Mining ?? Zunehmende Bedeutung des Internets Zunehmende Bedeutung des Internets Schnelles Finden von Dokumenten Schnelles Finden von Dokumenten Vergleichbar mit einem Schlagwortverzeichnis am Ende eines Buches Vergleichbar mit einem Schlagwortverzeichnis am Ende eines Buches Eine Anfrage an das System entspricht einem Nachschlagen im Index. Eine Anfrage an das System entspricht einem Nachschlagen im Index. Funktionsweise: im Grunde wie wenn eine Bibliothek mit einem Schlagwortverzeichnis alle Wörter aller vorkommenden Bücher auflisten würde Funktionsweise: im Grunde wie wenn eine Bibliothek mit einem Schlagwortverzeichnis alle Wörter aller vorkommenden Bücher auflisten würde

5 Data Mining Clustering: segmentiert Daten mit ähnlichen Werten in Gruppen Clustering: segmentiert Daten mit ähnlichen Werten in Gruppen Classification: analysiert und kann die Werte der Daten vorhersagen Classification: analysiert und kann die Werte der Daten vorhersagen Association: erkennt die Korrelation zwischen Daten Association: erkennt die Korrelation zwischen Daten

6 Grundlagen der Volltextsuche

7 Definition: Informationen, die sprachlich gegeben sind, explizit zu machen, um sie maschinell zu erschließen. gezielte Suche nach Dokumenten mit ähnlichen Inhalten gezielte Suche nach Dokumenten mit ähnlichen Inhalten zentrale Begriffe für Text Mining: Dokumente und Metadaten zentrale Begriffe für Text Mining: Dokumente und Metadaten Semantische Metadaten leisten eine Abstraktion vom Inhalt eines Dokuments Semantische Metadaten leisten eine Abstraktion vom Inhalt eines Dokuments

8 Funktionsweise simpler Suchverfahren Unscharfe Suche: Begriffe werden gesucht, die nur ungefähr mit dem Suchbegriff übereinstimmen. Unscharfe Suche: Begriffe werden gesucht, die nur ungefähr mit dem Suchbegriff übereinstimmen. Phonetische Suche: sucht nach Worten, die in der Aussprache mit dem Suchbegriff übereinstimmen Phonetische Suche: sucht nach Worten, die in der Aussprache mit dem Suchbegriff übereinstimmen Phrasensuche: bestimmte Textstellen werden gefiltert, die mit dem Suchbegriff übereinstimmen Phrasensuche: bestimmte Textstellen werden gefiltert, die mit dem Suchbegriff übereinstimmen Suche in Feldern: Felder mit bestimmten Argumenten werden erzeugt, in denen gezieltes Suchen möglich ist Suche in Feldern: Felder mit bestimmten Argumenten werden erzeugt, in denen gezieltes Suchen möglich ist

9 Index, Indexterme, Zeichenketten und Stoppwörter Die natürliche Sprache soll so verarbeitet werden, dass inhaltliche Ähnlichkeiten erkennbar werden Die natürliche Sprache soll so verarbeitet werden, dass inhaltliche Ähnlichkeiten erkennbar werden Die zulässigen Mittel zur inhaltlichen Beschreibung sollen so eingeschränkt werden, dass sie Ähnlichkeiten abbilden Die zulässigen Mittel zur inhaltlichen Beschreibung sollen so eingeschränkt werden, dass sie Ähnlichkeiten abbilden

10 Lexikographische Grundformreduktion lexikografische Grundform: die Form, in der das Wort in einem Wörterbuch zu finden ist. Die durch Flexion möglicherweise entstandenen Veränderungen gegenüber der Grundform werden rückgängig gemacht, indem die Wörter deflektiert und anschließend rekodiert werden lexikografische Grundform: die Form, in der das Wort in einem Wörterbuch zu finden ist. Die durch Flexion möglicherweise entstandenen Veränderungen gegenüber der Grundform werden rückgängig gemacht, indem die Wörter deflektiert und anschließend rekodiert werden formale Grundform: Wortfragmente, bei denen die normalen englischen und fremdsprachigen (hauptsächlich lateinischen) Flexionsendungen abgetrennt werden, ohne dass die entstandenen Wortfragmente rekodiert würden formale Grundform: Wortfragmente, bei denen die normalen englischen und fremdsprachigen (hauptsächlich lateinischen) Flexionsendungen abgetrennt werden, ohne dass die entstandenen Wortfragmente rekodiert würden Stammform nach linguistischen Prinzipien: die Zeichenketten, die durch Deflexion und Abtrennen von Derivationsendungen entstehen. Diese Zeichenketten sollen soweit wie möglich durch Rekodierung vereinheitlicht werden. Stammform nach linguistischen Prinzipien: die Zeichenketten, die durch Deflexion und Abtrennen von Derivationsendungen entstehen. Diese Zeichenketten sollen soweit wie möglich durch Rekodierung vereinheitlicht werden.

11 Die verschiedenen Reduktionsformen nach Kuhlen Formale Grundform Textwörter Lexikalische Grundform Stammform ABSORB ABSORB ABSORB ABSORB ABSORBED ABSORBING ABSORBS ABSORBER ABSORBER ABSORBERS ABSORBAB ABSORBABLE ABSORBABLE ABSORBABLY ABSORBANC ABSORBANCE ABSORBANCE ABSORBANCES ABSORBANCY ABSORBANCY ABSORBANCIES ABSORBENT ABSORBENT ABSORBENT ABSORBENTS ABSORBENTLY ABSORPTION ABSORPTION ABSORPTION ABSORPTIONS ABSORPTIV ABSORBTIVELY ABSORPTIVE ABSORBTIVE

12 Das lexikonbasierte Verfahren Suche nach der Wortform in einer kleinen Liste, die die häufigsten Wortformen mit ihrer Grundform enthält. Wird das Wort gefunden, ist die Lemmatisierung beendet. Suche nach der Wortform in einer kleinen Liste, die die häufigsten Wortformen mit ihrer Grundform enthält. Wird das Wort gefunden, ist die Lemmatisierung beendet. Flexionsanalyse: Abschneiden der letzten Buchstaben, die verbleibende Zeichenkette wird im Stammformenlexikon gesucht. Wird ein Stamm gefunden, wird untersucht, ob damit die Wortform generiert werden kann. Prüfung aller Stämme, um bei Wortformen, die auf mehrere Stämme aus dem Lexikon zurückgeführt werden können, alle diese Stämme zu finden. Werden Grundformen gefunden, werden sie mit der Wortklassenzugehörigkeit ausgegeben, und die Lemmatisierung ist beendet. Flexionsanalyse: Abschneiden der letzten Buchstaben, die verbleibende Zeichenkette wird im Stammformenlexikon gesucht. Wird ein Stamm gefunden, wird untersucht, ob damit die Wortform generiert werden kann. Prüfung aller Stämme, um bei Wortformen, die auf mehrere Stämme aus dem Lexikon zurückgeführt werden können, alle diese Stämme zu finden. Werden Grundformen gefunden, werden sie mit der Wortklassenzugehörigkeit ausgegeben, und die Lemmatisierung ist beendet. Kompositionsanalyse: Es werden von rechts rekursiv die jeweils längsten Wortformen abgeschnitten, die im Lexikon gefunden werden. Lässt sich das Wort so in Teilwörter zerlegen, wird es als Kompositum bezeichnet und die Lemmatisierung beendet. Kompositionsanalyse: Es werden von rechts rekursiv die jeweils längsten Wortformen abgeschnitten, die im Lexikon gefunden werden. Lässt sich das Wort so in Teilwörter zerlegen, wird es als Kompositum bezeichnet und die Lemmatisierung beendet. Konnte das Wort nicht lemmatisiert werden, wird auf der Basis einer empirischen Häufigkeitstabelle für Endungen eine Vermutung über die Wortklassenzugehörigkeit ausgegeben. Konnte das Wort nicht lemmatisiert werden, wird auf der Basis einer empirischen Häufigkeitstabelle für Endungen eine Vermutung über die Wortklassenzugehörigkeit ausgegeben.

13 Flexionsanalyse nach Lezius Fall/Endung -nensen... normalFlüssen-Flüsse-nFlüss-enFlüs-sen... UmlautFlussen-Flusse-n Fluss-en Flus-sen... ß/ssFlüßen-Flüße-nFlüß-enFlü-ßen... beidesFlußen-Fluße-n Fluß-en Flu-ßen...

14 Klassifikationen Dokumente vordefinierten Kategorien zuweisen Dokumente vordefinierten Kategorien zuweisen Anwendungsgebiet hierfür ist die Navigation über Kategorien in Webkatalogen Anwendungsgebiet hierfür ist die Navigation über Kategorien in Webkatalogen Um diese Ziel technisch zu realisieren, werden verschiedene Verfahren der Kategorisierung angewendet Um diese Ziel technisch zu realisieren, werden verschiedene Verfahren der Kategorisierung angewendet

15 Das Zentroidvektorverfahren Bauen während der Trainingsphase einen Vektor aus den signifikanten Wörtern der Trainingsdokumente pro Kategorie auf, die Gleichzeitig am distinktivsten zu den Wörtern der anderen Kategorien sind. Während der Phase der Kategorisierung wird dann das Vokabular des Dokumentes mit den Vektoren der jeweiligen Kategorie verglichen. Diese Verfahren benötigt nicht viele Trainingsdokumente, hat aber den Nachteil, dass die Zuordnungsqualität mit der Anzahl der Kategorien deutlich schlechter wird. Support-Vektor-Maschinen folgen ebenfalls einem vektorbasiertem Ansatz. Dieses Verfahren geht von der Annahme aus, dass die optimale Form berechnet wird, die positive und negative Trainingsdokumente voneinander unterscheidet. Das Trainingsresultat besteht aus einer Menge von Vektore, die dieser Form möglichst ähnlich sind.

16 Das Nearest-Neighbour-Verfahren Vergleicht bei der Kategorisierung ein Dokument mit allen bereits kategorisierten Dokumenten und ordnet das Dokument dann den Kategorien zu, die am besten zutreffen Trainingsphase sehr schnell, da es nur die Vektorrepräsentationen der Trainingsdokumente erstellt Trainingsphase sehr schnell, da es nur die Vektorrepräsentationen der Trainingsdokumente erstellt Kategorisierung dauert länger als beim Zentroidvektor-basierten Verfahren Kategorisierung dauert länger als beim Zentroidvektor-basierten Verfahren Die Performance kann mit zunehmender Anzahl zu einem Problem werden Die Performance kann mit zunehmender Anzahl zu einem Problem werden Das Nearest-Neighbour Verfahren hat Vorteile, wenn die Kategorisierung schlecht durch repräsentative Dokumente dargestellt werden kann. Das kann der Fall sein, wenn eine Kategorie zwei unterschiedliche Themen enthält. Ein weiterer Nachteil ist das sog. Overfitting, d.h. dass das Verfahren nur genau die Trainingsdaten abbildet. Dadurch wird die Vorhersage von Kategorien nur schwache Ergebnisse liefern.

17 Das Entscheidungsbaumverfahren Überführen die Trainingsdokumente auf Basis eindeutiger Wahr-Falsch-Fragen bezüglich des Themas in binäre Baumstrukturen. Problem: Overfitting Lösung: mehrere Entscheidungsbäume werden für die gleiche Kategorie aus den selben Dokumenten abgeleitet Ein Dokument wird dann mit allen Entscheidungsbäumen verglichen. Ein Vorteil dieses Verfahrens besteht in seinem effizienten Verhalten in hohen Dimensionen.

18 Das Bayesische Verfahren Sind in verschiedenen Arten vorhanden, wobei sich die Ausprägungen primär durch die getroffenen Annahmen unterscheiden, wie die Daten generiert werden. Aufbauend darauf wird eine Kollektion von Trainingsbeispielen herangenommen, um die Parameter des generativen Modells zu berechnen. Zur Klassifikation von neuen Dokumenten wird dann die Kategorie gewählt, deren Modell am wahrscheinlichsten das Dokument hätte generieren können.

19 Einschub: Cluster

20 Ähnlichkeiten mit Klassifikation Ähnlichkeiten mit Klassifikation Gruppierungen der ähnlichen Dokumente in Cluster Gruppierungen der ähnlichen Dokumente in Cluster Kleine inhaltliche Distanz innerhalb eines Clusters Kleine inhaltliche Distanz innerhalb eines Clusters Große Distanz zwischen den Clustern Große Distanz zwischen den Clustern Zuordnung in Cluster erfolgt automatisiert Zuordnung in Cluster erfolgt automatisiert Verfahren wird dem unüberwachten Lernen zugeschrieben (Verweis auf Data Mining) Verfahren wird dem unüberwachten Lernen zugeschrieben (Verweis auf Data Mining)

21 Einschub: Cluster Allgemeine Verfahrensweise: Aus einer Dokumentenkollektion werden die einzelnen Dokumente in Cluster zugeteilt. Die Cluster sind untereinander disjunkt. Allgemeine Verfahrensweise: Aus einer Dokumentenkollektion werden die einzelnen Dokumente in Cluster zugeteilt. Die Cluster sind untereinander disjunkt. Quelle: Ferber2003

22 Einschub: Cluster 2 Ansätze zur Clusterbildung: Hierarchisches Clustering Hierarchisches Clustering a) Agglomeration (Baumstruktur) b) Divisive (binäre Strukturen) Partitional Clustering Partitional Clustering

23 Einschub: Cluster Hierarchisches Clustering Annahme: Anzahl der zu erstellenden Cluster ist nicht bekannt Annahme: Anzahl der zu erstellenden Cluster ist nicht bekannt Ziel: Erzeugung einer Baumstruktur Ziel: Erzeugung einer Baumstruktur 2 Ansätze: Agglomeration: Top Down Agglomeration: Top Down Start bei den Blättern Divisiv: Bottom up Divisiv: Bottom up Start bei der Wurzel Quelle: Toennis

24 Einschub: Cluster Partitional Clustering Anzahl der Cluster ist vorgegeben Anzahl der Cluster ist vorgegeben Top-Down Verfahren Top-Down Verfahren Neue Cluster nach Überschreiten vom Schwellenwert (Distanzmaß der Dokumente) Neue Cluster nach Überschreiten vom Schwellenwert (Distanzmaß der Dokumente) Ähnlichkeitsbeziehungen zwischen den Clustern Ähnlichkeitsbeziehungen zwischen den Clustern

25 Thesauren Das sprachliche oder terminologische Gegenstück zu hierarchischen Klassifikationssystemen Das sprachliche oder terminologische Gegenstück zu hierarchischen Klassifikationssystemen Terme und Ausdrücke eines Sachgebietes werden erfasst und die Beziehungen zwischen ihnen beschrieben Terme und Ausdrücke eines Sachgebietes werden erfasst und die Beziehungen zwischen ihnen beschrieben Bestehen aus 2 Funktionen: Definition eines bestimmten Vokabulars Definition eines bestimmten Vokabulars Beziehungen zwischen den Termen dieser Vokabulars werden hergestellt Beziehungen zwischen den Termen dieser Vokabulars werden hergestellt

26 Konstruktion eines Thesaurus Zunächst wird der Bezugsrahmen eingegrenzt. Dabei werden die Thematik, die Spezifität, der Sprachstil und der Umfang des Thesaurus festgelegt. Zunächst wird der Bezugsrahmen eingegrenzt. Dabei werden die Thematik, die Spezifität, der Sprachstil und der Umfang des Thesaurus festgelegt. Dann werden Quellen ausgewählt, aus denen Wörter herausgenommen werden sollen. Das können u.a. potenzielle Nutzende, Experten, Fachwörterbücher, aktuelle Literatur, Lehrbücher oder bereits vorhandene Thesauren sein. Dann werden Quellen ausgewählt, aus denen Wörter herausgenommen werden sollen. Das können u.a. potenzielle Nutzende, Experten, Fachwörterbücher, aktuelle Literatur, Lehrbücher oder bereits vorhandene Thesauren sein. Dieses Vokabular wird dann der sog. terminologischen Kontrolle unterworfen. Dadurch sollen die Unschärfe der natürlichen Sprache beseitigt und die Terme in Synonymmengen aufgeteilt werden. Dieses Vokabular wird dann der sog. terminologischen Kontrolle unterworfen. Dadurch sollen die Unschärfe der natürlichen Sprache beseitigt und die Terme in Synonymmengen aufgeteilt werden.

27 Weitere Kontrollen Bei der Synonymkontrolle werden unterschiedliche Schreibweisen, Abkürzungen und verschiedene Sprachstile unterschieden. Bei der Synonymkontrolle werden unterschiedliche Schreibweisen, Abkürzungen und verschiedene Sprachstile unterschieden. Die Polysemkontrolle unterscheidet Wörter, die zwar gleich geschrieben werden, aber mehrere unterschiedliche Bedeutungen haben. Die Polysemkontrolle unterscheidet Wörter, die zwar gleich geschrieben werden, aber mehrere unterschiedliche Bedeutungen haben. Bei der Zerlegungskontrolle werden Komposita gegebenenfalls in ihre Bestandteile zerlegt. Das kann notwendig sein, um die richtige Spezifität eines Begriffes zu erhalten. Bei der Zerlegungskontrolle werden Komposita gegebenenfalls in ihre Bestandteile zerlegt. Das kann notwendig sein, um die richtige Spezifität eines Begriffes zu erhalten. Im letzten Schritt, der begrifflichen Kontrolle, werden die konstruierten Äquivalenzklassen durch Relationen miteinander in Beziehung gebracht. Wichtig hierbei ist vor allem die hierarchische Relation. Im letzten Schritt, der begrifflichen Kontrolle, werden die konstruierten Äquivalenzklassen durch Relationen miteinander in Beziehung gebracht. Wichtig hierbei ist vor allem die hierarchische Relation.

28 Retrievalmodelle

29 Retrievalmodelle Boolesches Retrievalmodell Boolesches Retrievalmodell Vektorraummodell Vektorraummodell

30 Boolesches Retrievalmodell häufigste Methode des Information Retrievals häufigste Methode des Information Retrievals beschränkt sich darauf, ob eine Bedingung erfüllt ist oder nicht beschränkt sich darauf, ob eine Bedingung erfüllt ist oder nicht Anfragen können durch die Operatoren AND, OR und NOT verknüpft werden Anfragen können durch die Operatoren AND, OR und NOT verknüpft werden

31 Abfragen mit Hilfe dieser Operatoren Sind in einer Abfrage zwei Terme mit AND verknüpft, so erhalten wir die Dokumente, die beide Terme enthalten Sind in einer Abfrage zwei Terme mit AND verknüpft, so erhalten wir die Dokumente, die beide Terme enthalten Sind in einer Abfrage zwei Terme mit OR verknüpft, so erhalten wir entweder das eine, oder das andere, oder beide Dokumente Sind in einer Abfrage zwei Terme mit OR verknüpft, so erhalten wir entweder das eine, oder das andere, oder beide Dokumente Sind in einer Abfrage zwei Terme mit AND NOT verknüpft, so erhalten wir nur den ersten Term, der vor dem AND definiert wurde, als Antwort Sind in einer Abfrage zwei Terme mit AND NOT verknüpft, so erhalten wir nur den ersten Term, der vor dem AND definiert wurde, als Antwort

32 Implementierung mit invertierten Listen Boolesche Retrieval Systeme werden mit Hilfe von invertierten Listen implementiert Boolesche Retrieval Systeme werden mit Hilfe von invertierten Listen implementiert für jedes Feld wird eine Liste angelegt, in der zu jedem Term eingetragen wird, in welchen Dokumenten er vorkommt für jedes Feld wird eine Liste angelegt, in der zu jedem Term eingetragen wird, in welchen Dokumenten er vorkommt Dieses Umkehrverfahren benötigt zwar viel Speicherplatz, aber schneller Zugriff auf das System Dieses Umkehrverfahren benötigt zwar viel Speicherplatz, aber schneller Zugriff auf das System

33 Konstruktion einer invertierten Liste Anhand der Regel zur Bestimmung zulässiger Terme werden die Dokumente in Terme zerlegt Anhand der Regel zur Bestimmung zulässiger Terme werden die Dokumente in Terme zerlegt Zu den Termen werden jeweils das Dokument und die Position des Auftretens im Dokument geschrieben Zu den Termen werden jeweils das Dokument und die Position des Auftretens im Dokument geschrieben Diese Paare aus Termen und ihren Positionen werden sortiert Diese Paare aus Termen und ihren Positionen werden sortiert Paare mit gleichen Termen werden zusammengefasst, wobei die Positionen in einer sortierten Liste an den Term angefügt werden Paare mit gleichen Termen werden zusammengefasst, wobei die Positionen in einer sortierten Liste an den Term angefügt werden Die Terme werden von den Listen mit ihren Positionen getrennt. Dabei werden sie in die Indexdatei geschrieben, die zu jedem Term einen Pointer auf die zugehörige Liste enthält. Dann muss in der Indexdatei zu jedem Term die Anzahl der Positionen angegeben werden, an der die Aufzählung beginnt Die Terme werden von den Listen mit ihren Positionen getrennt. Dabei werden sie in die Indexdatei geschrieben, die zu jedem Term einen Pointer auf die zugehörige Liste enthält. Dann muss in der Indexdatei zu jedem Term die Anzahl der Positionen angegeben werden, an der die Aufzählung beginnt

34 Bearbeitung der Abfragen Zunächst werden die Terme in der Anfrage isoliert. Zunächst werden die Terme in der Anfrage isoliert. Aus der invertierten Liste wird für jeden Term die Liste mit seinen Positionen in den Dokumenten oder deren Feldern ermittelt. Dazu lässt sich der Pointer aus der Indexdatei verwenden. Aus der invertierten Liste wird für jeden Term die Liste mit seinen Positionen in den Dokumenten oder deren Feldern ermittelt. Dazu lässt sich der Pointer aus der Indexdatei verwenden. Die Liste zu den verschiedenen Termen werden zusammengeführt: sind die Terme mit OR verknüpft, werden die Listen vereinigt, sind sie mit AND verknüpft, wird der Durchschnitt gebildet, bei AND NOT wird die Differenz berechnet. Die Liste zu den verschiedenen Termen werden zusammengeführt: sind die Terme mit OR verknüpft, werden die Listen vereinigt, sind sie mit AND verknüpft, wird der Durchschnitt gebildet, bei AND NOT wird die Differenz berechnet. Die Dokumente, die in der resultierenden Liste übrig bleiben, werden aus der Dokumentdatei geholt und als Resultat der Anfrage präsentiert. Die Dokumente, die in der resultierenden Liste übrig bleiben, werden aus der Dokumentdatei geholt und als Resultat der Anfrage präsentiert.

35 Retrievalmodelle Boolesches Retrievalmodell Boolesches Retrievalmodell Vektorraummodell Vektorraummodell

36 Vektorraummodell Basis sind Vektoren mit Gewichtungen der einzelnen Termen Basis sind Vektoren mit Gewichtungen der einzelnen Termen Finden der richtigen Dokumente mittels Ähnlichkeitsmaßen Finden der richtigen Dokumente mittels Ähnlichkeitsmaßen Ähnlichkeiten können mit mathematischen bzw. statistischen Methoden berrechnet werden Ähnlichkeiten können mit mathematischen bzw. statistischen Methoden berrechnet werden

37 Vektorraummodell Das Modell Das Modell Definition 1 für das Vektorraummodell Definition 1 für das Vektorraummodell Sei T={t1,...,tn} eine endliche Menge von Termen und D={d1,...,dm} eine Menge von Dokumenten. Für jedes Dokument diD sei zu jedem Term tkT ein Gewicht wi,kR gegeben. Die Gewichte des Dokuments di lassen sich zu einem Vektor wi=(wi,1,...,wi,n )Rn zusammenfassen. Dieser Vektor beschreibt das Dokument im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentvektor genannt. Auch Anfragen (Queries ) werden durch Vektoren qRn repräsentiert. Wie bei der Repräsentation der Dokumente wird die Anfrage durch eine Menge gewichteter Terme dargestellt. Der Vektor der Gewichte wird Anfragevektor oder Query-Vektor genannt. Schließlich sei eine Ähnlichkeitsfunktion s:Rn×Rn ->R definiert, mit der jedem Paar aus zwei Vektoren x,yRn ein reeller Ähnlichkeitswert s(x,y) zugewiesen wird. Quelle: Ferber2003

38 Vektorraummodell Anmerkungen zu den Dokumentenvektoren Länge der Dokumentenvektoren ist vorgegeben. Länge der Dokumentenvektoren ist vorgegeben. Ursprüngliche Dokumente werden bearbeitet (Wortstammreduktion, Extraktion von Indextermen, Gewichtung der einzelnen Termen) und in Vektoren übergeführt Ursprüngliche Dokumente werden bearbeitet (Wortstammreduktion, Extraktion von Indextermen, Gewichtung der einzelnen Termen) und in Vektoren übergeführt Die einzelnen Elemente der Vektoren repräsentieren Gewichtungen zum jeweiligen Term Die einzelnen Elemente der Vektoren repräsentieren Gewichtungen zum jeweiligen Term Alle Dokumentenvektoren spannen einen multidimensionalen Raum auf. Alle Dokumentenvektoren spannen einen multidimensionalen Raum auf.

39 Vektorraummodell Anmerkungen zum Anfragevektor Wird durch natürlichsprachliche Anfrage automatisch erzeugt und im Dokumentenvektorraum abgebildet Wird durch natürlichsprachliche Anfrage automatisch erzeugt und im Dokumentenvektorraum abgebildet Fehlende Gewichtungen der Indexterme werden durch den Wert 0 ersetzt. Fehlende Gewichtungen der Indexterme werden durch den Wert 0 ersetzt. Dimension des Anfragevektors muss gleich sein der Dimension der Dokumentenvektoren Dimension des Anfragevektors muss gleich sein der Dimension der Dokumentenvektoren

40 Vektorraummodell Kombinationsmöglichkeit mit dem Booleschen Retrieval Gewichtungen werden mit den Werten 0 und 1 ersetzt (0…False, 1…True) Gewichtungen werden mit den Werten 0 und 1 ersetzt (0…False, 1…True) AND und OR möglich, aber keine Kombination AND und OR möglich, aber keine Kombination

41 Vektorraummodell Vektorenmodell erzielen die besten Ergebnisse beim Information Retrieval, obwohl nur simple Termstatistiken (Häufigkeitsmaße und Gewichtungsmethoden) angewandt werden. Vektorenmodell erzielen die besten Ergebnisse beim Information Retrieval, obwohl nur simple Termstatistiken (Häufigkeitsmaße und Gewichtungsmethoden) angewandt werden. Anwendbar nur mit Textdokumenten, für Bilder braucht man andere Methoden Anwendbar nur mit Textdokumenten, für Bilder braucht man andere Methoden

42 Gewichtungseinflüsse 2 Unterschiedliche Verfahren zur Termgewichtung Manuell Manuell Nachteil: hoher Kosten-, Zeitaufwand, Inkonsistenz der Gewichtungen Statistische Verfahren Statistische Verfahren

43 Gewichtungseinflüsse Globale Gewichtungseinflüsse Kontextunabhängig Kontextunabhängig Messung der Häufung eines bestimmten Terms innerhalb von Dokumentenkollektionen bzw. einer natürlichen Sprache Messung der Häufung eines bestimmten Terms innerhalb von Dokumentenkollektionen bzw. einer natürlichen Sprache Unterschiedlich in den verschiedenen Sprachen Unterschiedlich in den verschiedenen Sprachen

44 Globale Gewichtungseinflüsse Zipfsches Gesetz C…Textkorpus W(C)…Menge der Wörter, die in C vorkommen h(W)…Häufigkeit, mit der w in C vorkommt r(w)…Rangplatz von w W(C) Quelle: Ferber2003

45 Globale Gewichtungseinflüsse Brown- und LOB-Korpus (englische Textsammlungen) Häufigste und seltenste Wörter werden für die Gewichtung eleminiert.

46 Globale Gewichtungseinflüsse Alternative: Dokumentenhäufigkeit (document frequency) Beschreibt die Häufigkeit des Auftretens eines bestimmten Terms innerhalb von verschiedenen Dokumenten Beschreibt die Häufigkeit des Auftretens eines bestimmten Terms innerhalb von verschiedenen Dokumenten Inverse Dokumentenhäufigkeit (inverted document frequency, IDF) Kehrwert der Dokumentenhäufigkeit Kehrwert der Dokumentenhäufigkeit

47 Globale Gewichtungseinflüsse Zusammenfassung: Globale Gewichtungseinflüsse Unabhängig vom einzelnen Dokument Unabhängig vom einzelnen Dokument Können losgekoppelt vom Suchsystem verwendet und gespeichert werden, da sie allgemein gültig sind. Können losgekoppelt vom Suchsystem verwendet und gespeichert werden, da sie allgemein gültig sind. Zu häufige und zu seltene Terme werden eliminiert Zu häufige und zu seltene Terme werden eliminiert Quelle: Ferber2003

48 Lokale Gewichtungseinflüsse Sind kontextabhängig (zum jeweiligen Dokument) Sind kontextabhängig (zum jeweiligen Dokument) Auch hier Einfluss der Termhäufigkeit Auch hier Einfluss der TermhäufigkeitAnnahme: häufige Terme sind wichtig für Inhaltsbeschreibung häufige Terme sind wichtig für Inhaltsbeschreibung Eindämmung von häufigen Termen mit Intervallsbeschränkung Eindämmung von häufigen Termen mit Intervallsbeschränkung

49 Lokale Gewichtungseinflüsse Häufigste lokale Gewichtung: TF-IDF-Gewichtung (term frequency-inverted document frequency) Andere (zB SMART) Quelle: Buckley

50 Lokale Gewichtungseinflüsse TF-IDF ist die grundlegendste Form TF-IDF ist die grundlegendste Form Für strukturierte Daten (zB HTML, Newsmeldungen) gibt es bessere Methoden Für strukturierte Daten (zB HTML, Newsmeldungen) gibt es bessere Methoden Lokale Gewichtungseinflüsse werden im Vektormodell als Gewichtung für die einzelnen Elemente eines Vektors herangezogen. Lokale Gewichtungseinflüsse werden im Vektormodell als Gewichtung für die einzelnen Elemente eines Vektors herangezogen.

51 Einschub: Relevance Feedback Anfragevektoren haben nur wenige Gewichtungsterme Anfragevektoren haben nur wenige Gewichtungsterme Der Anfragende kann die fortführenden Anfragen beeinflussen Der Anfragende kann die fortführenden Anfragen beeinflussen Beurteilung nach Relevanz! Beurteilung nach Relevanz! R ist die Menge von Vektoren, die als relevant beurteilt wurden R ist die Menge von Vektoren, die als relevant beurteilt wurden U ist die Menge von Vektoren, die als nicht relevant beurteilt wurden U ist die Menge von Vektoren, die als nicht relevant beurteilt wurden q ist der neue Anfragevektor q ist der neue Anfragevektor, und sind reelle Parameter, welche die Gewichtung der einzelnen Terme der Formel für die neue Abfrage gewichten, und sind reelle Parameter, welche die Gewichtung der einzelnen Terme der Formel für die neue Abfrage gewichten

52 Ähnlichkeitsfunktionen Vergleichsverfahren für Vektoren im Vektorraummodell Vergleichsverfahren für Vektoren im Vektorraummodell Berechnet die Ähnlichkeit zwischen den Vektoren und bestimmt so die Rangfolge der Suchausgabe Berechnet die Ähnlichkeit zwischen den Vektoren und bestimmt so die Rangfolge der Suchausgabe Das Cosinusmaß (Winkelberechnung zw. 2 Vektoren)

53 Ähnlichkeitsfunktionen Das Cosinusmaß Anmerkung: Die besten Ergebnisse repräsentieren jene Vektoren, deren Abweichung vom Anfragevektor, gemessen am Winkel, geringsten ist.

54 Ähnlichkeitsfunktionen Weitere Maße Das Skalarprodukt Das Skalarprodukt Das Pseudo-Cosinus-Maß Das Pseudo-Cosinus-Maß Das Dice-Maß Das Dice-Maß Das Overlap-Maß Das Overlap-Maß Das Jaccard-Maß Das Jaccard-Maß

55 Text Mining-Systeme in der Praxis

56 Text Mining-Systeme Allgemeines Konzept

57 Text Mining-Systeme Hauptarbeit: Indexerstellung Hauptarbeit: Indexerstellung Hoher Speicherbedarf Hoher Speicherbedarf Abhilfe durch Komprimierung und linguistischen Techniken (nicht möglich in zB Thai) Aktualisierung des Index Aktualisierung des Index Zugriff der Anfrage nur auf Index und nicht auf die Originaltexte Zugriff der Anfrage nur auf Index und nicht auf die Originaltexte

58 Text Mining-Systeme Aspekte des Text Minings (nach Carstensen) 1. Analyse von Einzeltexten 2. Merkmalsextraktion (Auswahl von Schlüsselwörtern, automatische Zusammenfassung) 3. Analyse von Textkollektionen (signifikante Zusammenhänge erkennen -> Clustering) 4. Maß für die inhaltliche Distanz zwischen Texten (zB Zentroidvektor)

59 State of the art Text Mining Werkzeuge Einteilung in 2 Hauptgruppen (nach Ah-Hwen Tan) Dokumentenbasierende Form Dokumentenbasierende Form Konzeptbasierende Form Konzeptbasierende Form Quelle: Ah-Hwen Tan

60 State of the art Text Mining Werkzeuge Übersicht über die wichtigsten Tools Quelle: Ah- Hwen Tan

61 Zusammenfassung und Ausblick

62 Text Mining spielt eine wichtige Rolle im Auffinden von Texten Text Mining spielt eine wichtige Rolle im Auffinden von Texten Ca. 80% der Informationen in einem Unternehmen liegen in Form von Textdokumenten vor (nach [Ah-When Tan]) Ca. 80% der Informationen in einem Unternehmen liegen in Form von Textdokumenten vor (nach [Ah-When Tan]) Automatische Verfahren sind manuellen Verfahren vorzuziehen Automatische Verfahren sind manuellen Verfahren vorzuziehen Verbesserte Verfahren notwendig für: Indizieren, Klassifizieren, Clustern und automatischen Zusammenfassen von vorhandenen Dokumentensammlungen (Performance!) Verbesserte Verfahren notwendig für: Indizieren, Klassifizieren, Clustern und automatischen Zusammenfassen von vorhandenen Dokumentensammlungen (Performance!) Erweiterung der Interaktionsmöglichkeiten (Relevance Feedback) mit dem Anfragenden Erweiterung der Interaktionsmöglichkeiten (Relevance Feedback) mit dem Anfragenden

63 Zusammenfassung und Ausblick Entwicklung von automatischen Agenten Entwicklung von automatischen Agenten WWW muss semantischer werden (Data Mining) WWW muss semantischer werden (Data Mining) Verschmelzung von Text Mining und Data Mining Verschmelzung von Text Mining und Data Mining Zusammenspiel mit Knowledge Management bereits Standard Zusammenspiel mit Knowledge Management bereits Standard

64 Ressourcen [1] Information Retrieval, Reginald Ferber, dpunkt.verlag, Heidelberg 2003 [1] Information Retrieval, Reginald Ferber, dpunkt.verlag, Heidelberg 2003 [2] Computerlinguistik und Sprachtechnologie: eine Einführung, K.-U. Carstensen et al., Spektrum Akademischer Verlag, Heidelberg; Berlin 2001 [2] Computerlinguistik und Sprachtechnologie: eine Einführung, K.-U. Carstensen et al., Spektrum Akademischer Verlag, Heidelberg; Berlin 2001 [3] [3] Letzter Zugriff: Letzter Zugriff: [seihe auch Harman, Baeza-Yates, Fox und Lee, 1992] [seihe auch Harman, Baeza-Yates, Fox und Lee, 1992] [4]http://ai1.inf.unibayreuth.de/lehre/ws_2001_2002/information_retrieval/vorlesungsscript/ir.pdf [4]http://ai1.inf.unibayreuth.de/lehre/ws_2001_2002/information_retrieval/vorlesungsscript/ir.pdf Letzter Zugriff: Letzter Zugriff: [5] [5] Letzter Zugriff: Letzter Zugriff: [6] A Comparison of Document Clustering Techniques, Michael Steinbach et. al., Department of Computer Science and Engineering, University of Minnesota, Technical Report # [6] A Comparison of Document Clustering Techniques, Michael Steinbach et. al., Department of Computer Science and Engineering, University of Minnesota, Technical Report # users.itlabs.umn.eduzSz~karypiszSzpublicationszSzPaperszSzPDFzSzdoccluster.pdf/steinbach00compariso n.pdf, letzter Zugriff (gecachte Version): users.itlabs.umn.eduzSz~karypiszSzpublicationszSzPaperszSzPDFzSzdoccluster.pdf/steinbach00compariso n.pdf, letzter Zugriff (gecachte Version): users.itlabs.umn.eduzSz~karypiszSzpublicationszSzPaperszSzPDFzSzdoccluster.pdf/steinbach00compariso n.pdf users.itlabs.umn.eduzSz~karypiszSzpublicationszSzPaperszSzPDFzSzdoccluster.pdf/steinbach00compariso n.pdf [7] Grundlagen der Bildverarbeitung, Klaus Toennies, [7] Grundlagen der Bildverarbeitung, Klaus Toennies, letzter Zugriff: letzter Zugriff: [8] Automatic Query Expansion Using SMART: TREC 3, Chris Buckley et al. [8] Automatic Query Expansion Using SMART: TREC 3, Chris Buckley et al. letzter Zugriff letzter Zugriff [9] Text Mining: The state of the art and the challenges, Ah-Hwee Tan, [9] Text Mining: The state of the art and the challenges, Ah-Hwee Tan, letzter Zugriff letzter Zugriff

65 DANKE!


Herunterladen ppt "Text Mining Nichterl Markus, Steindorfer Jochen. AGENDA Einleitung Einleitung Grundlagen der Volltextsuche Grundlagen der Volltextsuche Retrievalmodelle."

Ähnliche Präsentationen


Google-Anzeigen