Rechen- und Kommunikationszentrum (RZ) Prüfung zweier Namen auf Gleichheit unter Anwendung von klassischen Algorithmen und der phonetischen Suche Philipp Johannes Pickartz Seminarvortrag im Studiengang Scientific Programming 17. Januar 2014
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 2 Motivation Fehlerquellen Algorithmen Klassische Algorithmen Phonetische Suche Fazit und Ausblick Inhalt
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 3 Motivation Identity Management (IdM) des RZ Attribute (Rechte und Rollen) Besteller (z.B. IT-Besteller) Prüfer Coupons Überprüfung der Namen Zuverlässig Zeichensatzunabhängig
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 4 Fehlerquellen Tippfehler „shc“ statt „sch“ Doppelnamen, Abkürzungen und Hinzudichtungen „Hans“, „Joachim“ oder „Hans-Joachim“ statt „Hans Joachim“ Diakritische Zeichen „o“ statt „ø“ „n“ statt „ñ“ Phonetische Variation Verwechslung von „ph“ und „f“
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 5 Algorithmen
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 6 Klassische Algorithmen Maß für eine Wortdistanz Kein Wissen über Inhalt oder Kodierung benötigt Anwendung in der Rechtschreibkorrektur So hat beispielsweise das Wort Husum genauso viele Buchstaben wie das Wort Falte – nur völlig andere! — Jochen Malmsheimer
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 7 Levenshtein Editierdistanz Einfügen Löschen Ersetzen
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 8 n-Gramme
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 9 Phonetische Algorithmen Sie heißen Pfeiffer mit einem oder mit zwei f? – Mit dreien. — Die Feuerzangenbowle
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 10 Aussprache von Graphemen
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 11 Soundex Einfacher und schneller Algorithmus Aus dem englischen Sprachraum
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 12 Reth-Schek Phonetik Perfomanz-Vergleich mit Soundex und Kölner Phonetik Restriktiver als Soundex und Kölner Phonetik
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 13 Phonet 850 Ersetzungsregeln Vokale werden beachtet ISO
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 14 Fazit Kein Algorithmus löst alle Probleme hinreichend genau Weitere Betrachtung der Algorithmen sinnvoll Bachelorarbeit Metawissen in der Heuristik Herkunft der Person Gibt der Nutzer seinen Namen selbst ein? Ziel weiterhin die Entwicklung einer Heuristik zum Lösen der betrachteten Probleme
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 15 Ich bedanke mich für Ihre Aufmerksamkeit! Gibt es noch Fragen?
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 16 Quellen Bouchard, Gerard ; Pouyez, Christian: Name Variations And Computerized Record Linkage. In: Historical Methods: A Journal of Quantitative and Interdisciplinary History 13 (1980), Nr. 2, S. 119– – DOI / – ISSN 0161–544http://dx.doi.org/ / – DOI / – ISSN 0161–544 Braun, Stephan: Algorithmische Linguistik. Stuttgart : Verl. Berliner Union [u.a.], – ISBN 978–3–408–53513–8 Erikson, Klas: Approximate Swedish name matching - survey and test of different algorithms, KTH, Royal institute of technology, Diss., Hofmann, Peter: Information Retrieval Seminar: Phonetische Suche. Mainz, Johannes Gutenberg-Universität, Diss., 2010 Knuth, Donald E.: The art of computer programming, volume 3: (2nd ed.) sorting and searching. Redwood City and CA and USA : Addison Wesley Longman Publishing Co., Inc, – ISBN 0–201–89685–0 Kukich, Karen: Techniques for automatically correcting words in text. In: ACM Computing Surveys 24 (1992), Nr. 4, 377– – DOI / – ISSN 0360–0300http://dx.doi.org/ / – DOI / – ISSN 0360–0300 Lait, A.J. ; Randell, B.: An Assessment of Name Matching Algorithms. University of Newcastle upon Tyne, Computing Science, 1993 (Technical report series
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 17 Quellen Levenshtein, V. I.: Binary Codes Capable of Correcting Deletions, Insertions and Reversals. In: Soviet Physics Doklady 10 (1966), S. 707 Mangold, Max: Der Duden in zwölf Bänden. Bd. 6: Duden, Aussprachewörterbuch. 6., überarb. und aktualisierte Aufl., [Nachdr.]. Mannheim : Dudenverl, – ISBN 978–3– 411–04066–7 Michael, Jörg: Doppelgänger gesucht: Ein Programm für kontextsensitive phonetische Textumwandlung. In: c’t Magazin fur Computer & Technik (1999), Nr. 25, S. 252–261 Navarro, Gonzalo: A guided tour to approximate string matching. In: ACM Computing Surveys 33 (2001), Nr. 1, 31–88. – ISSN 0360– 0300http://doi.acm.org/ / Postel, Hans J.: Die Kölner Phonetik: Ein Verfahren zur Identifizierung von Personennamen auf der Grundlage der Gestaltanalyse. In: IBM-Nachrichten 19 (1969), S. 925–931 Reth, Hans-Peter v. ; Schek, Hans-Jörg: Eine Zugriffsmethode für die phonetische Ähnlichkeitssuche. Wiss. Zentrum, 1977 (Heidelberg Scientific Center Technical reports) Schnell, Rainer ; Bachteler, Tobias: Ein Performanz-Vergleich zwischen der Kölner und der von Reth-Schek Phonetik. due.de/~hq0215/documents/2006/2006_Phonetiken.pdf Version: 2006http:// due.de/~hq0215/documents/2006/2006_Phonetiken.pdf
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 18 Quellen Ukkonen, Esko: Approximate string-matching with q-grams and maximal matches. In: Theor. Comput. Sci. 92 (1992), Nr. 1, 191– – DOI /0304–3975(92)90143–4. – ISSN 0304–3975http://dx.doi.org/ / (92) Wilz, Martin: Aspekte der Kodierung phonetischer Ähnlichkeiten in deutschen Eigennamen. Köln, Universität zu Köln, Diss., fak.unikoeln.de/fileadmin/home/ritters/Allgemeine_Dateien/Martin_Wilz.pdfhttp://phonetik.phil- fak.unikoeln.de/fileadmin/home/ritters/Allgemeine_Dateien/Martin_Wilz.pdf Wothke, Klaus: Morphologically based automatic phonetic transcription. In: IBM Syst. J. 32 (1993), Nr. 3, 486– – DOI /sj – ISSN 0018–8670http://dx.doi.org/ /sj