Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Rechen- und Kommunikationszentrum (RZ) Prüfung zweier Namen auf Gleichheit unter Anwendung von klassischen Algorithmen und der phonetischen Suche Philipp.

Ähnliche Präsentationen


Präsentation zum Thema: "Rechen- und Kommunikationszentrum (RZ) Prüfung zweier Namen auf Gleichheit unter Anwendung von klassischen Algorithmen und der phonetischen Suche Philipp."—  Präsentation transkript:

1 Rechen- und Kommunikationszentrum (RZ) Prüfung zweier Namen auf Gleichheit unter Anwendung von klassischen Algorithmen und der phonetischen Suche Philipp Johannes Pickartz Seminarvortrag im Studiengang Scientific Programming 17. Januar 2014

2 Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 2 Motivation Fehlerquellen Algorithmen  Klassische Algorithmen  Phonetische Suche Fazit und Ausblick Inhalt

3 Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 3 Motivation Identity Management (IdM) des RZ Attribute (Rechte und Rollen)  Besteller (z.B. IT-Besteller)  Prüfer Coupons Überprüfung der Namen  Zuverlässig  Zeichensatzunabhängig

4 Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 4 Fehlerquellen Tippfehler  „shc“ statt „sch“ Doppelnamen, Abkürzungen und Hinzudichtungen  „Hans“, „Joachim“ oder „Hans-Joachim“ statt „Hans Joachim“ Diakritische Zeichen  „o“ statt „ø“  „n“ statt „ñ“ Phonetische Variation  Verwechslung von „ph“ und „f“

5 Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 5 Algorithmen

6 Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 6 Klassische Algorithmen Maß für eine Wortdistanz Kein Wissen über Inhalt oder Kodierung benötigt Anwendung in der Rechtschreibkorrektur So hat beispielsweise das Wort Husum genauso viele Buchstaben wie das Wort Falte – nur völlig andere! — Jochen Malmsheimer

7 Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 7 Levenshtein Editierdistanz  Einfügen  Löschen  Ersetzen

8 Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 8 n-Gramme

9 Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 9 Phonetische Algorithmen Sie heißen Pfeiffer mit einem oder mit zwei f? – Mit dreien. — Die Feuerzangenbowle

10 Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 10 Aussprache von Graphemen

11 Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 11 Soundex Einfacher und schneller Algorithmus Aus dem englischen Sprachraum

12 Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 12 Reth-Schek Phonetik Perfomanz-Vergleich mit Soundex und Kölner Phonetik  Restriktiver als Soundex und Kölner Phonetik

13 Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 13 Phonet 850 Ersetzungsregeln Vokale werden beachtet ISO-8859-1

14 Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 14 Fazit Kein Algorithmus löst alle Probleme hinreichend genau Weitere Betrachtung der Algorithmen sinnvoll  Bachelorarbeit Metawissen in der Heuristik  Herkunft der Person  Gibt der Nutzer seinen Namen selbst ein? Ziel weiterhin die Entwicklung einer Heuristik zum Lösen der betrachteten Probleme

15 Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 15 Ich bedanke mich für Ihre Aufmerksamkeit! Gibt es noch Fragen?

16 Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 16 Quellen Bouchard, Gerard ; Pouyez, Christian: Name Variations And Computerized Record Linkage. In: Historical Methods: A Journal of Quantitative and Interdisciplinary History 13 (1980), Nr. 2, S. 119–125. http://dx.doi.org/10.1080/01615440.1980.10594037. – DOI 10.1080/01615440.1980.10594037. – ISSN 0161–544http://dx.doi.org/10.1080/01615440.1980.10594037. – DOI 10.1080/01615440.1980.10594037. – ISSN 0161–544 Braun, Stephan: Algorithmische Linguistik. Stuttgart : Verl. Berliner Union [u.a.], 1974. – ISBN 978–3–408–53513–8 Erikson, Klas: Approximate Swedish name matching - survey and test of different algorithms, KTH, Royal institute of technology, Diss., 1997. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.16.5834 http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.16.5834 Hofmann, Peter: Information Retrieval Seminar: Phonetische Suche. Mainz, Johannes Gutenberg-Universität, Diss., 2010 Knuth, Donald E.: The art of computer programming, volume 3: (2nd ed.) sorting and searching. Redwood City and CA and USA : Addison Wesley Longman Publishing Co., Inc, 1998. – ISBN 0–201–89685–0 Kukich, Karen: Techniques for automatically correcting words in text. In: ACM Computing Surveys 24 (1992), Nr. 4, 377–439. http://dx.doi.org/10.1145/146370.146380. – DOI 10.1145/146370.146380. – ISSN 0360–0300http://dx.doi.org/10.1145/146370.146380. – DOI 10.1145/146370.146380. – ISSN 0360–0300 Lait, A.J. ; Randell, B.: An Assessment of Name Matching Algorithms. University of Newcastle upon Tyne, Computing Science, 1993 (Technical report series

17 Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 17 Quellen Levenshtein, V. I.: Binary Codes Capable of Correcting Deletions, Insertions and Reversals. In: Soviet Physics Doklady 10 (1966), S. 707 Mangold, Max: Der Duden in zwölf Bänden. Bd. 6: Duden, Aussprachewörterbuch. 6., überarb. und aktualisierte Aufl., [Nachdr.]. Mannheim : Dudenverl, 2010. – ISBN 978–3– 411–04066–7 Michael, Jörg: Doppelgänger gesucht: Ein Programm für kontextsensitive phonetische Textumwandlung. In: c’t Magazin fur Computer & Technik (1999), Nr. 25, S. 252–261 Navarro, Gonzalo: A guided tour to approximate string matching. In: ACM Computing Surveys 33 (2001), Nr. 1, 31–88. http://doi.acm.org/10.1145/375360.375365 – ISSN 0360– 0300http://doi.acm.org/10.1145/375360.375365 Postel, Hans J.: Die Kölner Phonetik: Ein Verfahren zur Identifizierung von Personennamen auf der Grundlage der Gestaltanalyse. In: IBM-Nachrichten 19 (1969), S. 925–931 Reth, Hans-Peter v. ; Schek, Hans-Jörg: Eine Zugriffsmethode für die phonetische Ähnlichkeitssuche. Wiss. Zentrum, 1977 (Heidelberg Scientific Center Technical reports) Schnell, Rainer ; Bachteler, Tobias: Ein Performanz-Vergleich zwischen der Kölner und der von Reth-Schek Phonetik. http://www.uni- due.de/~hq0215/documents/2006/2006_Phonetiken.pdf Version: 2006http://www.uni- due.de/~hq0215/documents/2006/2006_Phonetiken.pdf

18 Prüfung zweier Namen auf Gleichheit Philipp Johannes Pickartz | Rechen- und Kommunikationszentrum 18 Quellen Ukkonen, Esko: Approximate string-matching with q-grams and maximal matches. In: Theor. Comput. Sci. 92 (1992), Nr. 1, 191–211. http://dx.doi.org/10.1016/0304-3975(92)90143-4 – DOI 10.1016/0304–3975(92)90143–4. – ISSN 0304–3975http://dx.doi.org/10.1016/0304-3975(92)90143-4 Wilz, Martin: Aspekte der Kodierung phonetischer Ähnlichkeiten in deutschen Eigennamen. Köln, Universität zu Köln, Diss., 2005. http://phonetik.phil- fak.unikoeln.de/fileadmin/home/ritters/Allgemeine_Dateien/Martin_Wilz.pdfhttp://phonetik.phil- fak.unikoeln.de/fileadmin/home/ritters/Allgemeine_Dateien/Martin_Wilz.pdf Wothke, Klaus: Morphologically based automatic phonetic transcription. In: IBM Syst. J. 32 (1993), Nr. 3, 486–511. http://dx.doi.org/10.1147/sj.323.0486 – DOI 10.1147/sj.323.0486. – ISSN 0018–8670http://dx.doi.org/10.1147/sj.323.0486


Herunterladen ppt "Rechen- und Kommunikationszentrum (RZ) Prüfung zweier Namen auf Gleichheit unter Anwendung von klassischen Algorithmen und der phonetischen Suche Philipp."

Ähnliche Präsentationen


Google-Anzeigen