Kann man automatisch klassifizieren

Slides:



Advertisements
Ähnliche Präsentationen
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Advertisements

Kohonennetze für Information Retrieval mit User Feedback
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Frame-Logik Eine Einführung Andreas Glausch.
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Telefonnummer.
CPCP Institute of Clinical Pharmacology AGAH Annual Meeting, 29. Februar 2004, Berlin, Praktischer Umgang mit den Genehmigungsanträgen gemäß 12. AMG Novelle.
Forum Information and Communication in Mathematics Jahrestagung der ÖMG/DMV Graz.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
„Netzwerk Medizin und Geschlecht“ an der Medizinischen Hochschule Hannover Projektleitung: Dr. phil. Bärbel Miemietz Projektkoordination: Larissa Burruano,
Workshop zur Medienarbeit der katholischen Kirche Aspekte des Religionsmonitors Berlin, 02. April 2008.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
= = = = 47 = 47 = 48 = =
Algorithmentheorie 04 –Hashing
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
Dynamische Programmierung (2) Matrixkettenprodukt
WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
© 2006 W. Oberschelp, G. Vossen Rechneraufbau & Rechnerstrukturen, Folie 2.1.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
Information Retrieval Modelle: Vektor-Modell
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Vererbung Spezialisierung von Klassen in JAVA möglich durch
PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.
Betreuerin: Kathleen Jerchel
AC Analyse.
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
Maschinelles Lernen und automatische Textklassifikation
Nützlichkeit statistischer Phrasen in der Textklassifikation
1. 2 Schreibprojekt Zeitung 3 Überblick 1. Vorstellung ComputerLernWerkstatt 2. Schreibprojekt: Zeitung 2.1 Konzeption des Kurses 2.2 Projektverlauf.
20:00.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Beschreibung der energetischen Zustände der Elektronen
Dokumentation der Umfrage
Polynome und schnelle Fourier-Transformation
Gleichungen und Gleichungssysteme
Jakis Überblick! Ein Viereck hat 4 Ecken (und 4 Seiten).
NEU! 1 2. Wo kommt diese Art von Rezeptor im Körper vor?
1. Welcher Nerv innerviert diesen Muskel? NEU!
PROCAM Score Alter (Jahre)
Abteilung für automatische Sprachverarbeitung
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES KULTURELLER ZUSAMMENHALT UND AUSDEHNUNG DER IDEEN AUF EUROPÄISCHEM.
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Großer Altersunterschied bei Paaren fällt nicht auf!
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
1 Mathematical Programming Nichtlineare Programmierung.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
Es war einmal ein Haus
Analyse der Laufzeit von Algorithmen
Numbers Greetings and Good-byes All about Me Verbs and Pronouns
Lernmodelle und Experimentelle Untersuchungen
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Wie.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
 Präsentation transkript:

Kann man automatisch klassifizieren Kann man automatisch klassifizieren? Probleme und Ansätze automatischer Klassifikation DMV Jahrestagung 2006 Minisymposium Information, Kommunikation und Bibliotheken für die Mathematik 19.9.2006

Agenda Einführende Bemerkungen Automatische Klassifizierung Erste Experimente State of the art / Nächste Schritte Wolfram Sperber

Agenda Einführende Bemerkungen Automatische Klassifizierung Erste Experimente State of the art / Nächste Schritte Wolfram Sperber

Einführende Bemerkungen (I) Klassifikation ist ein „klassisches“ Problem, mit dem sich schon Aristoteles beschäftigte. Klassifikation ist ein wichtiges Problem: Viele Probleme lassen sich als Klassifikationsprobleme formulieren. Klassifikationsschemata sind typischerweise hierarchisch organisiert. Wolfram Sperber

Einführende Bemerkungen (II) Die Objekte einer Klasse haben dieselben Eigenschaften. Klassifikationschemata stellen Relationen zwischen Konzepten (Klassen) eines Gebietes dar. Klassifikationsschemata sind nützliche Hilfsmittel zum Verstehen: Eigenschaften von Klassen werden top-down vererbt. Wolfram Sperber

Klassifikation – ein schwieriges Problem (I) Klassifikationsschemata sind subjektiv: nicht ein universelles Klassifikationsschema Schemata unterscheiden sich in Gebiet, Zielsetzung und Granularität Klassifikationssysteme sind abhängig von ihrer Zeit (dynamisch) : müssen an die Entwicklung des Gebietes angepasst werden Klassifikationssysteme sind unvollständig Kein Klassifikationsschema kann eine komplette Beschreibung aller Eigenschaften der Objekte einer Klasse bieten. Wolfram Sperber

Klassifikation – ein schwieriges Problem (II) Klassifikationen sind nicht eindeutig: jede Klasse hat Repräsentanten, die typisch für die Klasse sind („Kernbereich“ der Klasse), andere Objekte sind atypisch für die Klasse oder gehören zu verschiedenen Klassen („Randzonen“ einer Klasse) Wolfram Sperber

Klassifikation – ein schwieriges Problem (III) Bis heute wird die Klassifizierung durch Menschen vorgenommen, die über verschiedenes Wissen verfügen (das betrifft auch das Wissen über die Struktur und den Umgang mit den Klassifikationschemata) unterschiedliche Erfahrungen haben unterschiedliche Ziele und Interessen verfolgen Wolfram Sperber

Klassifikation in der Mathematik Der erste systematische Versuch: Das Jahrbuch über die Fortschritte der Mathematik (1868) MSC MSC – Überblick MSC – die Klassen neue Player definieren ihre eigene Systematik Wikipedia – die Eingangsseite Wikipedia – die Kategorien Verschiedene Klassifikationsschemata: die MSC ist die wichtigste für die Klassifikation mathematischer Forschungsartikel und Bücher. Wolfram Sperber

Mathematische Klassikationschemata Klassifikation erfolgt durch Autoren (z.B. ArXiv server) Experten (Math Reviews, Zentralblatt) Qualität der Klassifikation Es ist keine systematische Evaluation der Klassifikationen mathematischer Publikationen bekannt, aber zumindest auf der Top Level Ebene scheinen die Klassifikationen korrekt zu sein. Aber Experten klassifizieren unterschiedlich Was ist mit der Klassifikation auf dem zweiten und dritten Level Was ist mit der Vollständigkeit (alle relevanten MSC Klassen)? Wolfram Sperber

Kann eine mathematische Publikation korrekt klassifiziert werden? Prinzipiell ja Wie? Die Idee: Automatische Klassifizierung in Kombination mit Experten Klassifizierung. Wolfram Sperber

Agenda Einführende Bemerkungen Automatische Klassifizierung Erste Experimente State of the art / Nächste Schritte Wolfram Sperber

Automatische Klassifikation Klassifikation und Mathematik: Was kann die Mathematik tun, um das Problem der Klassifikation zu lösen? Wolfram Sperber

Automatische Klassifikation mathematischer Texte Verschiedene Aspekte Analysis der mathematischen Formeln Kontext Analyse Der Kontext eines Dokuments ist gegeben durch z.B. die Profile der Autoren, der Journale, die Referenzen einer Publikation) Text Kategorisierung (Text Analysis) Ein Dokument wird anhand der Wörter und Phrasen, die in dem Dokument auftreten, klassifiziert Wolfram Sperber

Eine Definition des Begriffs Text Kategorisierung Definition (Sebastiani): Text Kategorisierung (Klassifikation) ist die Aufgabe, jedem Paar (dj,ci)  D × C einen Booleschen Wert zuzuordnen, wobei D eine Menge von Dokumenten und C = [c1, …,c|C|] eine Menge gegebener Kategorien ist. Der Wert T für das Paar (dj,ci) heißt, dass das Dokument dj zu ci zuzuordnen ist, während der Wert F bedeutet, das das Dokument dj nicht zu ci gehört. Wolfram Sperber

Text Kategorisierung: das Prinzip (I) Textkategorisierung ist eine Methode des Machine Learning Ausgangspunkt: eine Menge schon klassifizierter Dokumente, um das Klassifikationsverfahren zu trainieren Wolfram Sperber

Drei Schritte: Bearbeiten der Dokumente / Erstellen der Wortlisten Indexieren der Dokumente: Extraction der Terme, Elimination der Stopwörter, Stemming, ... Klassifikationsverfahren das auf der Analyse (dem Vergleich) des Vokabulars der Dokumente untereinander oder des Vokabulars der Dokumente mit dem der Klassen besteht Evaluation der Ergebnisse Vergleich der Resultate der automatischen Klassifikationsverfahren mit denen menschlichen Experten mittels statistischer Verfahren Wolfram Sperber

Bemerkungen Natürlich verliert man Informationen, wenn man ein Dokument durch die in dem Dokument auftretenden Wörter ersetzt (subjekt-spezifisch). Die Qualität der Klassifikation verschlechtert sich, je mehr die Klassifikation verfeinert wird, das Vokabular überlappt sich stärker Zahlentheorie versus Differentialgleichungen oder Gewöhnliche versus Partielle Differentialgleichungen Konsequenzen: Hierarchische Klassifizierung? Wolfram Sperber

Bearbeiten der Dokumente Erstellen der Wortlisten: Term Vektoren: typischerweise sind hier Terme Einzelwörter oder Wortkombinationen aus zwei oder drei Wörtern (Wortstämmen) Probleme: Dimension = Wort Vektoren sind hoch dimensional (> 100.000) eine Vielzahl von Wörtern ist überflüssig (trägt nichts zur Klassifikation bei) Wichtung der Terme Einfachwörter versus Doppel und Tripelwörtern (die Berücksichtigung von Wortkombinationen erhöht die Dimension) Wolfram Sperber

Dimensionsreduzierung (I) Stopwortlisten Stopwörter sind von verschiedener Art, z.B., generelle Stopwörter wie Artikel, Prädikate, Verben, … korpus-spezifische Stopwordlisten (z.B., „Springer Verlag“ bei Journalartikeln) subject und level-spezifische Stopwortlisten (z.B., Mathematik in einer Menge mathematischer Documente) Problem: Automatisierung Stemming Problem: führt z.T. zu falschen Zusammenfassungen Wolfram Sperber

Dimensionsreduzierung (II) Eine weitere Methode: Latent Semantic Indexing (LSI): Konzepte lassen sich auf viele verschiedene Arten beschreiben. LSI ist ein Versuch, die semantische Struktur eines Textes zu erkennen. Die Idee von LSI: Ausgangspunkt: die Term-Dokument Matrix Singulärwertzerlegung der Term-Dokument Matrix: A = T S DT mit Wolfram Sperber

Dimensionsreduzierung (III) T Matrix der Eigenvektoren von A × AT D Matrix der Eigenvektoren von AT× A S Diagonalmatrix der Singulärwerte (Wurzeln der Eigenwerte) Man benutzt dann die folgende Approximation Ak = Tk Sk Dk ist in bestimmten Sinn optimal Problem: die Interpretation der neuen Dimensionen T Wolfram Sperber

Klassifikationsverfahren Verschiedene Methoden: k-Nearest Neighbors Bayes Support Vector Machines (SVM) LP … Wolfram Sperber

k-Nearest Neighbors ein sehr einfacher Ansatz für die Klassifikation: Als Ähnlichkeitsmaß wird der cosinus zwischen zwei Vektoren verwendet. Die Klassifikation der k-nächsten Nachbarn entscheidet über die Klassifikation eines Dokumentes (k??, Sind die k-nächsten Nachbarn repräsentativ für die Klassen?) Spezialfall: Rocchio Methode Verwendung der Schwerpunkte der Trainings- dokumente jeder Klasse anstelle der k-nächsten Nachbarn. Wolfram Sperber

k-NN Wolfram Sperber

Bayes probablistisches Klassifikationsverfahren Ausgangspunkt Formel von Bayes P(Cl|Dk) = P(Dk|Cl) P(Cl) / P(Dk) = P(T1k|Cl) x … x P(Tmk|Cl) P(Cl) / P(Dk) Probleme: „Naive Bayes Verfahren“ gehen davon aus, dass die Terme unabhängig voneinander auftreten. Wie geht man mit neuen Termen um (solche Terme, die in den Dokumenten auftauchen, aber nicht in den Termlisten der Kategorien)? Wolfram Sperber

SVM Trennen der Dokumente der Trainingsmenge, die zu einer Klasse gehören, von den Dokumenten, die nicht zu der Klasse gehören, durch eine Hyperebene (verallgemeinert; andere nichtlineare Fläche als Trennfläche) Probleme: eine Trennung der Mengen ist häufig nicht möglich  weak separation Nichtlineare Flächen sind häufig der natürlichere Ansatz Wolfram Sperber

LP das Trennungsproblem kann als LP umformuliert werden (Mangarsarian / Bennett)): Misclassification problem – „beste Trennung“ zweier konvexer Mengen im Rn kann als lineares Optimierungsproblem umformuliert werden Wolfram Sperber

Ergebnisse des Klassifikationsprozesses Man erhält Rankinglisten für die Klassifizierung eines Dokuments Problem: wie interpretiert man die Rankinglisten (wie bestimmt man die „thresholds“ für eine Klasse?) Wolfram Sperber

Bewertung der Ergebnisse Dafür sind verschiedene Parameter üblich (man bedient sich dafür der Statistik), z.B. Accuracy (Anzahl der korrekten Klassifikationen dividiert durch die Gesamtzahl der Klassifikationen) Precision (Genauigkeit, Fehler zweiter Art) Recall (Vollständigkeit, Fehler erster Art) Bemerkung: Die Evaluierung erfolgt für jeder Klasse und wird dann gemittelt. Wo setzt man den Schwerpunkt? Wolfram Sperber

Agenda Einführende Bemerkungen Automatische Klassifizierung Erste Experimente State of the art / Nächste Schritte Wolfram Sperber

Testmengen e-prints vom arXiv Server (Cornell University) Klassen Math Mathematical Physics 10.000 e-prints (alle e-prints dieser beiden Klassen, die mittels MSC klassifiziert sind) Mathematische Journale: Springer, Kluwer, Elsevier: 27.000 Dokumente insgesamt (Volltexte) Wolfram Sperber

Vorarbeiten Zwei Formate: pdf, TeX pdf ist gut geeignet für die TextKlassifikation, TeX macht Schwierigkeiten (Entfernen der TeX-Konstrukte) Konversion: die pdf Files wurden in text Files gewandelt (kleinere Probleme). Trainingsmengen: Die Klassifikationen der Files in den Trainingsmengen müssen bekannt sein (durch Abgleich der Artikel mit den entsprechenden Einträgen in der Datenbank Zentralblatt Math) Wolfram Sperber

Vorgehensweise beim Indexieren Auswahl der Trainingsmengen Mindestens 50 Dokumente aus jeder Klasse wurden ausgewählt. Den Dokumenten wurden Term-Häufigkeits-vektoren zugeordnet. Verschiedene Verfahren: Einzelwörter, Terme aus zwei und drei Wörtern (unterschiedliche Wichtung), Stemming, Keyword Extraktionsverfahren, …) Berechnung der Schwerpunkte der Trainingsmengen in den Klassen Wolfram Sperber

Ergebnisse für den arXiv Server: Top Level der MSC (xx) 10.000 e-prints (TeX or PS): TeX erfordert spezielle Aufbereitung Ein erster Test: 4 ausgewählte Klassen Accuracy: ~ 90% Wolfram Sperber

Test Report für mathematische Journale: Top level der MSC (xx) 27.000 Objekte (23.000 Artikel) Accuracy Übereinstimmung der Primary MSC Kategorie (von Experten ermittelt) mit der ersten MSC Kategorie, die die automatischen Klassifikationsverfahren ergeben haben: ~55% Übereinstimmung der Primary MSC Kategorie (von Experten ermittelt) mit den fünf ersten MSC Kategorien, die die automatischen Klassifikationsverfahren haben: ~ 80% Wolfram Sperber

Test Report für mathematische Jour-nale: Zweite Ebene der MSC (xxx) Accuracy Übereinstimmung der Primary MSC (Experte) und der ersten MSC Kategorie der automatischen Klassifikationsverfahren: ~ 40% Übereinstimmung der Primary MSC (Experte) und der drei wichtigsten MSC Kategorien der automatischen Klassifikationsverfahren: ~ 55% Wolfram Sperber

Test Report für mathematische Jour-nale: Dritte Ebene der MSC (xxxxxx) Accuracy Übereinstimmung der Primary MSC (Experte) und der ersten MSC Kategorie der automatischen Klassifikationsverfahren: ~ 20% Übereinstimmung der Primary MSC (Experte) und der drei wichtigsten MSC Kategorien der automatischen Klassifikationsverfahren: ~ 30% Wolfram Sperber

Kommentar Zur Zuverlässigkeit der Textkategorisierung Aus der Literatur bekannt: Resultate der Text- kategorisierung sind stark vom Gebiet abhängig. Ähnliche Resultate wurden von Nigam und seinen Mitarbeitern im Jahre 2000 bei der Klassifizierung von e-prints im Bereich Computer Science erzielt. Wolfram Sperber

Weitere Bemerkungen (I) Typischerweise sind mathematische Publikationen mehreren MSC Klassen zugeordnet (z.B. mathematische Aspekte, Anwendungsgebiete). Es ist wichtig, alle relevanten Klassifikationen zu erhalten. Auch auf der dritten MSC Ebene? Es gibt signifikante Überlappungen zwischen verschiedenen MSC Klassen. Was sind die Konsequenzen für die automatische Klassifikation? Wolfram Sperber

Weitere Bemerkungen (II) Zum Umfang der Trainingmengen: In manchen Trainingsmengen einer Klasse waren keine 50 Dokumente enthalten. Kleinere Trainingsmengen verschlechtern die Ergebnisse dramatisch. Sind 50 Dokumente genug? Wolfram Sperber

Eine Bemerkung zum Indexieren Indexieren: Die Transformationen von Dokumenten zu Term- vektoren ist essentiell für den Klassifikations- prozess. Die Termvektoren der Dokumente sind zu schlecht. Was kann gemacht werden? bessere Stopwortlisten Wichtung der Terme: Wie signifikant ist ein Term für die Klassifikation?, insbesondere: - ist ein Term signifikant für spezielle Klassen? - Wichtung von Einfachwörtern versus Doppel- versus Dreifachtermen Wolfram Sperber

Eine Bemerkung zu den Klassifikationsverfahren Es wurden verschiedene Klassifikationsverfahren getestet. Die Ergebnisse unterscheiden sich nur geringfügig. I. A. keine Methode, die den anderen Methoden überlegen ist. Verwendung anderer Methoden, z.B. LP-Solver)? Kombination verschiedener Methoden? Kombination mit anderen Klassifikationsverfahren z.B. Zitationsanalyse (Google Methodik)? Wolfram Sperber

Agenda Einführende Bemerkungen Automatische Klassifizierung Erste Experimente State of the art / Nächste Schritte Wolfram Sperber

State of the art / Nächste Schritte Die Qualität der Textkategorisierung ist unbefriedigend. Die bisherigen Ergebnisse können nur als Startpunkt weiterer Untersuchungen angesehen werden. Nächste Schritte: Systematische Analyse des Indexierens Evaluation von weiteren Klassifikationsverfahren Wolfram Sperber

Eine weitere Idee: Hierarchische Klassifikation Start auf der Topebene der MSC Bestimme die ersten drei (n) Kategorien mittels Textkategorisierung Analysiere den Kontext des Dokuments (Autoren, Journale, Referenzen) und bestimme die relevanten Kategorien Starte mit einer ausgewählten Menge von Kategorien auf der Topebene und wiederhole das Verfahren auf der zweiten und dritten Ebene. Wolfram Sperber

Anwendung der Ergebnisse Metadatenanreicherung: Viele Preprints sind nicht klassifiziert. Die Klassifizierung könnte mit automatischen Mitteln erfolgen. Präklassifikation: Die Datenbanken Zentralblatt Math und Mathematical Reviews könnten die Methoden für eine automatische Präklassification verwenden. Ein zusätzliches Ergebnis: Mittels Textkategorisierung lassen sich kontrollierte Vokabulare für die MSC Klassen erzeugen. Wolfram Sperber

Danke Martin Grötschel Hochschulstrategien zu Open Access Hochschulrektorenkonferenz Bonn, 13. Februar 2006 Wissenschaftszentrum

Test report for the ArXive server: On the top level of MSC (xx) All classes Accuracy of automatic classification first MSC category (author) match the top- ranked category by the classifier: nearly 65% first MSC category (author) match the five top-ranked categories by the classifier: nearly 80% Wolfram Sperber