Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Lorenz Böhme Geändert vor über 8 Jahren
1
Rechen- und Kommunikationszentrum (RZ) Prüfung zweier Namen auf Gleichheit unter Anwendung von klassischen Algorithmen und der phonetischen Suche Philipp Johannes Pickartz Seminarvortrag im Studiengang Scientific Programming 17. Januar 2014
2
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 2 Motivation Fehlerquellen Algorithmen Klassische Algorithmen Phonetische Suche Fazit und Ausblick Inhalt
3
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 3 Motivation Identity Management (IdM) des RZ Attribute (Rechte und Rollen) Besteller (z.B. IT-Besteller) Prüfer Coupons Überprüfung der Namen Zuverlässig Zeichensatzunabhängig
4
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 4 Fehlerquellen Tippfehler „shc“ statt „sch“ Doppelnamen, Abkürzungen und Hinzudichtungen „Hans“, „Joachim“ oder „Hans-Joachim“ statt „Hans Joachim“ Diakritische Zeichen „o“ statt „ø“ „n“ statt „ñ“ Phonetische Variation Verwechslung von „ph“ und „f“
5
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 5 Algorithmen
6
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 6 Klassische Algorithmen Maß für eine Wortdistanz Kein Wissen über Inhalt oder Kodierung benötigt Anwendung in der Rechtschreibkorrektur So hat beispielsweise das Wort Husum genauso viele Buchstaben wie das Wort Falte – nur völlig andere! — Jochen Malmsheimer
7
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 7 Levenshtein Editierdistanz Einfügen Löschen Ersetzen
8
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 8 n-Gramme
9
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 9 Phonetische Algorithmen Sie heißen Pfeiffer mit einem oder mit zwei f? – Mit dreien. — Die Feuerzangenbowle
10
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 10 Aussprache von Graphemen
11
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 11 Soundex Einfacher und schneller Algorithmus Aus dem englischen Sprachraum
12
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 12 Reth-Schek Phonetik Perfomanz-Vergleich mit Soundex und Kölner Phonetik Restriktiver als Soundex und Kölner Phonetik
13
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 13 Phonet 850 Ersetzungsregeln Vokale werden beachtet ISO-8859-1
14
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 14 Fazit Kein Algorithmus löst alle Probleme hinreichend genau Weitere Betrachtung der Algorithmen sinnvoll Bachelorarbeit Metawissen in der Heuristik Herkunft der Person Gibt der Nutzer seinen Namen selbst ein? Ziel weiterhin die Entwicklung einer Heuristik zum Lösen der betrachteten Probleme
15
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 15 Ich bedanke mich für Ihre Aufmerksamkeit! Gibt es noch Fragen?
16
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 16 Quellen Bouchard, Gerard ; Pouyez, Christian: Name Variations And Computerized Record Linkage. In: Historical Methods: A Journal of Quantitative and Interdisciplinary History 13 (1980), Nr. 2, S. 119–125. http://dx.doi.org/10.1080/01615440.1980.10594037. – DOI 10.1080/01615440.1980.10594037. – ISSN 0161–544http://dx.doi.org/10.1080/01615440.1980.10594037. – DOI 10.1080/01615440.1980.10594037. – ISSN 0161–544 Braun, Stephan: Algorithmische Linguistik. Stuttgart : Verl. Berliner Union [u.a.], 1974. – ISBN 978–3–408–53513–8 Erikson, Klas: Approximate Swedish name matching - survey and test of different algorithms, KTH, Royal institute of technology, Diss., 1997. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.16.5834 http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.16.5834 Hofmann, Peter: Information Retrieval Seminar: Phonetische Suche. Mainz, Johannes Gutenberg-Universität, Diss., 2010 Knuth, Donald E.: The art of computer programming, volume 3: (2nd ed.) sorting and searching. Redwood City and CA and USA : Addison Wesley Longman Publishing Co., Inc, 1998. – ISBN 0–201–89685–0 Kukich, Karen: Techniques for automatically correcting words in text. In: ACM Computing Surveys 24 (1992), Nr. 4, 377–439. http://dx.doi.org/10.1145/146370.146380. – DOI 10.1145/146370.146380. – ISSN 0360–0300http://dx.doi.org/10.1145/146370.146380. – DOI 10.1145/146370.146380. – ISSN 0360–0300 Lait, A.J. ; Randell, B.: An Assessment of Name Matching Algorithms. University of Newcastle upon Tyne, Computing Science, 1993 (Technical report series
17
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 17 Quellen Levenshtein, V. I.: Binary Codes Capable of Correcting Deletions, Insertions and Reversals. In: Soviet Physics Doklady 10 (1966), S. 707 Mangold, Max: Der Duden in zwölf Bänden. Bd. 6: Duden, Aussprachewörterbuch. 6., überarb. und aktualisierte Aufl., [Nachdr.]. Mannheim : Dudenverl, 2010. – ISBN 978–3– 411–04066–7 Michael, Jörg: Doppelgänger gesucht: Ein Programm für kontextsensitive phonetische Textumwandlung. In: c’t Magazin fur Computer & Technik (1999), Nr. 25, S. 252–261 Navarro, Gonzalo: A guided tour to approximate string matching. In: ACM Computing Surveys 33 (2001), Nr. 1, 31–88. http://doi.acm.org/10.1145/375360.375365 – ISSN 0360– 0300http://doi.acm.org/10.1145/375360.375365 Postel, Hans J.: Die Kölner Phonetik: Ein Verfahren zur Identifizierung von Personennamen auf der Grundlage der Gestaltanalyse. In: IBM-Nachrichten 19 (1969), S. 925–931 Reth, Hans-Peter v. ; Schek, Hans-Jörg: Eine Zugriffsmethode für die phonetische Ähnlichkeitssuche. Wiss. Zentrum, 1977 (Heidelberg Scientific Center Technical reports) Schnell, Rainer ; Bachteler, Tobias: Ein Performanz-Vergleich zwischen der Kölner und der von Reth-Schek Phonetik. http://www.uni- due.de/~hq0215/documents/2006/2006_Phonetiken.pdf Version: 2006http://www.uni- due.de/~hq0215/documents/2006/2006_Phonetiken.pdf
18
Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 18 Quellen Ukkonen, Esko: Approximate string-matching with q-grams and maximal matches. In: Theor. Comput. Sci. 92 (1992), Nr. 1, 191–211. http://dx.doi.org/10.1016/0304-3975(92)90143-4 – DOI 10.1016/0304–3975(92)90143–4. – ISSN 0304–3975http://dx.doi.org/10.1016/0304-3975(92)90143-4 Wilz, Martin: Aspekte der Kodierung phonetischer Ähnlichkeiten in deutschen Eigennamen. Köln, Universität zu Köln, Diss., 2005. http://phonetik.phil- fak.unikoeln.de/fileadmin/home/ritters/Allgemeine_Dateien/Martin_Wilz.pdfhttp://phonetik.phil- fak.unikoeln.de/fileadmin/home/ritters/Allgemeine_Dateien/Martin_Wilz.pdf Wothke, Klaus: Morphologically based automatic phonetic transcription. In: IBM Syst. J. 32 (1993), Nr. 3, 486–511. http://dx.doi.org/10.1147/sj.323.0486 – DOI 10.1147/sj.323.0486. – ISSN 0018–8670http://dx.doi.org/10.1147/sj.323.0486
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.