Rechen- und Kommunikationszentrum (RZ) Prüfung zweier Namen auf Gleichheit unter Anwendung von klassischen Algorithmen und der phonetischen Suche Philipp.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmentheorie 08 – Dynamische Programmierung (4) Editierdistanz Approximative Zeichenkettensuche Sequence Alignment Prof. Dr. Th. Ottmann WS
Advertisements

Links Normen und Standards zum Qualitätsmanagement
Prof. Dr. Liggesmeyer, 1 Software Engineering: Dependability Prof. Dr.-Ing. Peter Liggesmeyer.
Hash-Tabellen und -Funktionen Hash-Tabellen in Java
Informatik II: Algorithmen und Datenstrukturen SS 2013
Programmierung II (SS 2003)
DataCite Jan Brase, TIB & DataCite 3. November 2011 TIB-Workshop zur DOI-Registrierung Hannover.
WS Prof. Dr. Th. Ottmann Algorithmentheorie 09 - Suche in Texten KMP, BM.
Suche in Texten (Stringsuche )
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Algorithmen und Komplexität Teil 1: Grundlegende Algorithmen
Übersicht DIALIGN = DIagonal ALIGNment
Universität Stuttgart Institut für Kernenergetik und Energiesysteme Einzeltests im Rahmen des V-Modelles Aufgaben Überprüfung des Programmcodes mit Hilfe.
Universität Stuttgart Institut für Kernenergetik und Energiesysteme Links Links sind im Text angegeben. Weitere Links werden kontinuierlich eingefügt.
Universität Stuttgart Institut für Kernenergetik und Energiesysteme Links Links sind im Text angegeben. Weitere Links werden kontinuierlich eingefügt.
Cassey - Common Answer Set Evaluation sYstem Jean Gressmann Benjamin Kaufmann Robert Lenk.
Der Umgang mit qualitativ erhobenen Daten: Strategien der Datenanalyse
Mathematische Grundlagen
High Performance = Innovative Computer Systems + Efficient Algorithms Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen.
Christian Schindelhauer
Christian Schindelhauer
Hauptseminar Automaten und Formale Sprachen
Bestimmung des ggT zweier Zahlen
Arbeitsgruppe Wissensmanagement
UML Begleitdokumentation des Projekts
WEM GEHÖRT DIE DEUTSCHE SPRACHE?
Verfahren zur Stammformreduktion
Eignung von Grammatik-basiertem Layout für grafische Programmiersprachen Seminar Layout-Algorithmen für Graphen Institut für Informatik Christian-Albrechts.
Automatic composition of UI mashups Vortrag zum Seminar Webengineering 2011 Michael Reißner.
Project Perseus Der volle Projektname lautet Perseus Digital Library Project. Das Projekt begann in 1985 als Experiment zur Digitalisierung von Bibliotheken.
Effiziente Algorithmen
Algorithm Engineering „Zeichenkettensuche“
Archival and Discovery
Suchen In Texten Von Adriano Feola & Marc Draschl.
1 Dr. Carlheinrich Heiland Universität Hamburg - Die Computersimulation verändert als Schlüsseltechnologie die Arbeitsweise in Planung.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Hinweise zur Folienpräsentation:
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken VIII Christian Schindelhauer
Dr.-Ing. René Marklein - NFT I - WS 06/07 - Lecture 4 / Vorlesung 4 1 Numerical Methods of Electromagnetic Field Theory I (NFT I) Numerische Methoden der.
Seminar aus Bildverarbeitung und Mustererkennung , Seminar aus Medieninformatik Seminar aus medizinischer Informatik W. Kropatsch,
Programmierungssprache PERL
Anwendung der Ellipsoidmethode in der Kombinatorischen Optimierung
5.1 5 Retrieval auf Bildern (.... in a nutshell)  Bedeutung.... ... im Zusammenhang mit Information Retrieval ... für Anwendungen Medizin: "Finde ähnliche.
Software Product Line Adoption
Information - syntaktisch
Universitäten in deutschsprachigen Ländern - Wie viele Universitäten gibt es in deutschsprachigen Ländern - Wo ist die erste deutsche Uni? - Seit wann.
Algorithmen und Datenstrukturen Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme Stefan Werner (Übungen) sowie viele Tutoren.
Adiabatisches Quantencomputing
Historisch-Kulturwissenschaftliche Informationsverarbeitung und Medieninformatik an der Universität zu Köln Øyvind Eide (auf Basis von Manfred Thaller.
Passwortsicherheit Tim S, Nils B und Felix R..
Historisch-Kulturwissenschaftliche Informationsverarbeitung und Medieninformatik an der Universität zu Köln Manfred Thaller Köln, 14. Oktober 2010.
Lehrstuhl für Wirtschaftsinformatik Univ.-Prof. Dr. Johannes Ruhland Referent: Vogel, Stephan Business Intelligence Distanzmaße
Erprobung von Interpolationsmethoden für plan-polare Antennenmesstechnik von Michael Delissen Michael Delissen, IHF, RWTH Aachen University.
Rechen- und Kommunikationszentrum (RZ) Entwicklung einer Web- Oberfläche mit Apache Wicket am Beispiel des IdentityAdmins Seminarvortrag Melanie.
Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.
Rechen- und Kommunikationszentrum (RZ) Laptopleihpool des Rechenzentrums Aktuelle Umsetzung und Verbesserungspotential Julia Sauer Seminarvortrag Stand:
Donald Ervin „Don“ Knuth * 10. Januar 1938 Autor des Standardwerks The Art of Computer Programming und Urvater des Textsatzsystems TeX.
Rechen- und Kommunikationszentrum (RZ) TSM vs. inSync Seminarvortrag am von Nicole Temminghoff Betreut von: Prof. Dr. Andreas Terstegge Dr.
Statistische Auswertung und Darstellungsmöglichkeiten von Messdaten Seminarvortrag von Christian Gorgels im Studiengang Scientific Programming.
Rechen- und Kommunikationszentrum (RZ) Strukturierte Datensammlung in verteilten Systemen für den DHCP-Service Tim Becker Seminararbeit / /
Seminarvortrag Mobile Darstellung der Backup-Reporte Analyse und Konzept Anita Ludermann Rechen- und Kommunikationszentrum Aachen Stand:
Seminararbeit im Studiengang Scientific Programming.
Rechen- und Kommunikationszentrum (RZ) Selektionsstrategien auf Graphstrukturen Sven Porsche Seminarvorträge Aachen.
Wie zitiere ich richtig???. Gliederung 1. Exakt Zitieren 2. Quellenangaben 2.1 Quellenangaben aus Büchern 2.2 Quellenangaben aus Aufsätzen 2.3 Quellenangaben.
Identifying the effects of gendered language on economic behavior
Systemanalyse BA Heidenheim 2002.
Algorithmen und Datenstrukturen
Universitäten in deutschsprachigen Ländern
Petersenn, Stephan; Quabbe, Hans-Jürgen; Schöfl, Christof; Stalla, Günter K.; Werder, Klaus von; Buchfelder, Michael Sinnvolle Hypophysenstimulationstests.
Integrating Knowledge Discovery into Knowledge Management
 Präsentation transkript:

Rechen- und Kommunikationszentrum (RZ) Prüfung zweier Namen auf Gleichheit unter Anwendung von klassischen Algorithmen und der phonetischen Suche Philipp Johannes Pickartz Seminarvortrag im Studiengang Scientific Programming 17. Januar 2014

Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 2 Motivation Fehlerquellen Algorithmen  Klassische Algorithmen  Phonetische Suche Fazit und Ausblick Inhalt

Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 3 Motivation Identity Management (IdM) des RZ Attribute (Rechte und Rollen)  Besteller (z.B. IT-Besteller)  Prüfer Coupons Überprüfung der Namen  Zuverlässig  Zeichensatzunabhängig

Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 4 Fehlerquellen Tippfehler  „shc“ statt „sch“ Doppelnamen, Abkürzungen und Hinzudichtungen  „Hans“, „Joachim“ oder „Hans-Joachim“ statt „Hans Joachim“ Diakritische Zeichen  „o“ statt „ø“  „n“ statt „ñ“ Phonetische Variation  Verwechslung von „ph“ und „f“

Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 5 Algorithmen

Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 6 Klassische Algorithmen Maß für eine Wortdistanz Kein Wissen über Inhalt oder Kodierung benötigt Anwendung in der Rechtschreibkorrektur So hat beispielsweise das Wort Husum genauso viele Buchstaben wie das Wort Falte – nur völlig andere! — Jochen Malmsheimer

Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 7 Levenshtein Editierdistanz  Einfügen  Löschen  Ersetzen

Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 8 n-Gramme

Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 9 Phonetische Algorithmen Sie heißen Pfeiffer mit einem oder mit zwei f? – Mit dreien. — Die Feuerzangenbowle

Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 10 Aussprache von Graphemen

Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 11 Soundex Einfacher und schneller Algorithmus Aus dem englischen Sprachraum

Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 12 Reth-Schek Phonetik Perfomanz-Vergleich mit Soundex und Kölner Phonetik  Restriktiver als Soundex und Kölner Phonetik

Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 13 Phonet 850 Ersetzungsregeln Vokale werden beachtet ISO

Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 14 Fazit Kein Algorithmus löst alle Probleme hinreichend genau Weitere Betrachtung der Algorithmen sinnvoll  Bachelorarbeit Metawissen in der Heuristik  Herkunft der Person  Gibt der Nutzer seinen Namen selbst ein? Ziel weiterhin die Entwicklung einer Heuristik zum Lösen der betrachteten Probleme

Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 15 Ich bedanke mich für Ihre Aufmerksamkeit! Gibt es noch Fragen?

Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 16 Quellen Bouchard, Gerard ; Pouyez, Christian: Name Variations And Computerized Record Linkage. In: Historical Methods: A Journal of Quantitative and Interdisciplinary History 13 (1980), Nr. 2, S. 119– – DOI / – ISSN 0161–544http://dx.doi.org/ / – DOI / – ISSN 0161–544 Braun, Stephan: Algorithmische Linguistik. Stuttgart : Verl. Berliner Union [u.a.], – ISBN 978–3–408–53513–8 Erikson, Klas: Approximate Swedish name matching - survey and test of different algorithms, KTH, Royal institute of technology, Diss., Hofmann, Peter: Information Retrieval Seminar: Phonetische Suche. Mainz, Johannes Gutenberg-Universität, Diss., 2010 Knuth, Donald E.: The art of computer programming, volume 3: (2nd ed.) sorting and searching. Redwood City and CA and USA : Addison Wesley Longman Publishing Co., Inc, – ISBN 0–201–89685–0 Kukich, Karen: Techniques for automatically correcting words in text. In: ACM Computing Surveys 24 (1992), Nr. 4, 377– – DOI / – ISSN 0360–0300http://dx.doi.org/ / – DOI / – ISSN 0360–0300 Lait, A.J. ; Randell, B.: An Assessment of Name Matching Algorithms. University of Newcastle upon Tyne, Computing Science, 1993 (Technical report series

Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 17 Quellen Levenshtein, V. I.: Binary Codes Capable of Correcting Deletions, Insertions and Reversals. In: Soviet Physics Doklady 10 (1966), S. 707 Mangold, Max: Der Duden in zwölf Bänden. Bd. 6: Duden, Aussprachewörterbuch. 6., überarb. und aktualisierte Aufl., [Nachdr.]. Mannheim : Dudenverl, – ISBN 978–3– 411–04066–7 Michael, Jörg: Doppelgänger gesucht: Ein Programm für kontextsensitive phonetische Textumwandlung. In: c’t Magazin fur Computer & Technik (1999), Nr. 25, S. 252–261 Navarro, Gonzalo: A guided tour to approximate string matching. In: ACM Computing Surveys 33 (2001), Nr. 1, 31–88. – ISSN 0360– 0300http://doi.acm.org/ / Postel, Hans J.: Die Kölner Phonetik: Ein Verfahren zur Identifizierung von Personennamen auf der Grundlage der Gestaltanalyse. In: IBM-Nachrichten 19 (1969), S. 925–931 Reth, Hans-Peter v. ; Schek, Hans-Jörg: Eine Zugriffsmethode für die phonetische Ähnlichkeitssuche. Wiss. Zentrum, 1977 (Heidelberg Scientific Center Technical reports) Schnell, Rainer ; Bachteler, Tobias: Ein Performanz-Vergleich zwischen der Kölner und der von Reth-Schek Phonetik. due.de/~hq0215/documents/2006/2006_Phonetiken.pdf Version: 2006http:// due.de/~hq0215/documents/2006/2006_Phonetiken.pdf

Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 18 Quellen Ukkonen, Esko: Approximate string-matching with q-grams and maximal matches. In: Theor. Comput. Sci. 92 (1992), Nr. 1, 191– – DOI /0304–3975(92)90143–4. – ISSN 0304–3975http://dx.doi.org/ / (92) Wilz, Martin: Aspekte der Kodierung phonetischer Ähnlichkeiten in deutschen Eigennamen. Köln, Universität zu Köln, Diss., fak.unikoeln.de/fileadmin/home/ritters/Allgemeine_Dateien/Martin_Wilz.pdfhttp://phonetik.phil- fak.unikoeln.de/fileadmin/home/ritters/Allgemeine_Dateien/Martin_Wilz.pdf Wothke, Klaus: Morphologically based automatic phonetic transcription. In: IBM Syst. J. 32 (1993), Nr. 3, 486– – DOI /sj – ISSN 0018–8670http://dx.doi.org/ /sj