Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

24.09.2006 (zi)Information und Sprache1 Prof. Dr. Harald H. Zimmermann Information und Sprache Was leistet(e) die maschinelle Sprachdatenverarbeitung Vortrag.

Ähnliche Präsentationen


Präsentation zum Thema: "24.09.2006 (zi)Information und Sprache1 Prof. Dr. Harald H. Zimmermann Information und Sprache Was leistet(e) die maschinelle Sprachdatenverarbeitung Vortrag."—  Präsentation transkript:

1 (zi)Information und Sprache1 Prof. Dr. Harald H. Zimmermann Information und Sprache Was leistet(e) die maschinelle Sprachdatenverarbeitung Vortrag an der VHS Stadtverband Saarbrücken Sonntag, , Uhr

2 (zi)Information und Sprache2 Gliederung 1.Wissen, Information und Informationsgesellschaft 2.Die (natürliche) Sprache als Verständi- gungsmittel 3.Sprachbarrieren 4.Möglichkeiten und Grenzen der maschinellen Sprachdatenverarbeitung 5.Stand und Perspektiven

3 (zi)Information und Sprache3 1.Wissen, Information und Informations ­ gesellschaft Wissen (hier): -wahres = gesichertes bzw. allgemein anerkann- tes ‚Wissen’, -Meinungen -Glaube / Glauben zentral Wissen ist die Ursache für Handlungen, die ohne dieses Wissen (so) nicht stattgefunden hätten.

4 (zi)Information und Sprache4 Wege des Wissenserwerbs -Vererbung (Instinkte, Gene) – biogeneti- sches Wissen -(eigene) Erfahrung - durch Selbsterfahrung oder durch vermittelte Erfahrung (Nachahmung). -durch Menschen oder medial vermittelt (durch Medien wie Bücher, Bilder, Filme …) (tradiert – tradigenetisches Wissen; Lehren / Lernen) – gleiches Kodiersys- tem (z. B. Sprache). -Forschung

5 (zi)Information und Sprache5 Information = (geglückter) Transfer von Wissen -Das beim Rezipienten zuvor vorhandene Wissen verändert sich. -Handlungen werden durch die Wissensverän- derung mitbestimmt. -Handlungen können bewusst oder unbewusst erfolgen. -Bewusste Handlungen können auch erfolgen, ohne dass das relevante Wissen verfügbar ist. ‚Idealer’ Wissenszustand: Zustand, bei dem Handlungen unter Heranziehung allen verfügbaren verlässlichen Wissens erfolgen.

6 (zi)Information und Sprache6 Wissenserwerb -Information Retrieval -Informationsbewusstsein -Informationsgesellschaft / Wissens- gesellschaft

7 (zi)Information und Sprache7 Prozesskette des medialen Wissenstransfers (= Informationsprozess) Ausgangspunkt: Wissen des ‚sendenden Akteurs’ (interne Wissensrepräsentation) -> Erzeugung einer Wissenspräsentation (Trans- formation, Codierung) -> medialer Transfer (Schall, Papier, Datenspeicher / Datenbank …) -> Empfang der Wissenspräsentation (Hören, Lesen - physikalisch) ->Retransformation / Decodierung Ergebnis: Veränderung des Wissens (der internen Wissensrepräsentation) beim ‚empfangenden Akteur’.

8 (zi)Information und Sprache8 Mehrstufiger Transferprozess (Beispiel ‚Artikel’): Ausgangspunkt: Wissen des ‚sendenden Akteurs’ (interne Wissensrepräsentation): ->Schreiben eines Artikels (Autor): Erzeugung einer Wissenspräsentation (‚intellektuelle’ Transformation, Codierung in Schriftsprache) mit Bezug zum ausge- wählten Wissenssegment, ->Technische Umsetzung dieser Wissenspräsentation in eine ‚maschinenlesbare’ Codierung, -> medialer Transfer (technisch gestützt), -> Empfang der maschinenlesbaren Wissenspräsentation durch ein Gerät, ->Retransformation / Decodierung I: Umsetzung der ‚maschinenlesbaren’ Form in eine Druck- oder Bild- schirmpräsentation (Schrift), ->Lesen des Artikels (Rezipient) ->Intellektuelle Decodierung (II) des Textes, ‚Verstehen’, Ergebnis: Veränderung des Wissens (der internen Wis- sensrepräsentation) beim ‚empfangenden Akteur’.

9 (zi)Information und Sprache9 2.Die (natürliche) Sprache als Verständigungsmittel Die Sprachwissenschaft befasst sich mit den Möglichkeiten und Grenzen des Wissens- transfers unter Verwendung geschriebener wie gesprochener Sprachäußerungen, die Be- standteil eines Sprachsystems sind. Da es sich dabei um ein gleichsam jedermann nahezu ‚natürlich’ zugängliches Wissensvermittlungs- instrument handelt, besteht ein besonderes Desiderat, Erkenntnisse über das Funktio- nieren des Wissenstransfers mit Hilfe von (meist geschriebener) Sprache zu vertiefen.

10 (zi)Information und Sprache10 Einteilung natürlichsprachiger Sprachsysteme -Sprach-Morphologie (alternativ: Phonetik) + Sprach-Syntax (formale Seite: Wörter, Sätze, Texte als Zeichen / Strukturen eines Sprachsystems) -Sprach-Semantik (In-Beziehung- Setzen zu den ‚Bedeutungen’ der Zeichen, zum – individuellen – ‚Welt- wissen’) -sprachliche Pragmatik (Handlungs- bezug)

11 (zi)Information und Sprache11 Funktionsvielfalt der natürlichen Sprache -Wissensvermittlungsfunktion (= Informati- onsfunktion) -Zuwendungsfunktion (Trost) -Abreaktions-Funktion (sich ‚Luft machen’) -Appellfunktion - Handlungsanweisung (‚Schließe bitte das Fenster’ / ‚Es zieht’) -…

12 (zi)Information und Sprache12 3.Sprachbarrieren Sprachenvielfalt => Sprache(n) als Barriere(n) des Wissens- transfers Geschichte vom ‚Turmbau zu Babel’ (1. Mose 11) als Erklä- rungsversuch Überwindung der Sprachbarrieren durch -Erwerb / Nutzung einer spezifischen Zweitsprache unter Verwendung einer natürlichen Sprache als Verkehrs- sprache (heute: Englisch) -Erwerb / Nutzung einer künstlichen Sprache (Beispiel: Esperanto) als Zweitsprache -Aufgabe der Muttersprache(n) zugunsten einer (anderen) Sprache (sehr problematisch und nicht wahrscheinlich )

13 (zi)Information und Sprache13 Überwindung der Sprachbarriere durch ‘Künstliche Intelligenz’? Wird das Computerzeitalter auch diesen Wunschtraum der Menschheit nach einer idealen, schrankenlosen Kommunikations- und Informationsgesellschaft erfül- len, ohne dass jemand seine Muttersprache aufgeben muss (die ja auch den unterschiedlichen kulturellen Zusammenhang bewahren würde)? Wird man sich dank einer zukünftigen Computer- software, die geschriebene und gesprochene Sprache so weit versteht und übersetzt, wie dies heute ein menschlicher Übersetzer oder Dolmetscher tut, dabei ‘brauchbar’ verständigen können, auch wenn die Ge- sprächspartner unterschiedliche (natürliche) Sprachen verwenden?

14 (zi)Information und Sprache14 Das (utopische?) Szenario Zwei Personen, jeweils ausgetattet mit einem Mikrofon und einem Kopfhörer, kommunizieren miteinander (lokal oder fernmündlich) über ein zwischen- geschaltetes (portables) Übersetzungs- oder Dolmetschsystem, jeder unter Verwendung seiner Muttersprache, etwa in der Art, wie dies heute (menschliche) Dolmetscher bei großen internationalen Konferenzen erfolgt.

15 (zi)Information und Sprache15 Bis dahin (eines sehr fernen Tages) ist realistisch: -Kompetenz in der Muttersprache -Kompetenz in der internationalen Verkehrssprache -Kenntnisse zur Verständigung in der Nachbarschaftssprache (im Saarland also des Französischen )

16 (zi)Information und Sprache16 4.Maschinelle Sprachdatenverarbeitung Ausgangslage: Verfügbarkeit ‚maschinenlesbarer’ Daten Vier Bereiche: -maschinelle Unterstützung beim Schreiben von Texten -Nutzung maschineller Verfahren beim Information Retrieval -Einsatz der maschinellen Übersetzung bzw. maschi- neller Übersetzungshilfen -Verfahren zur Verarbeitung gesprochener Sprache

17 (zi)Information und Sprache17 4.1Maschinelle Unterstützung beim Schreiben von Texten Erzeugung ‚formal’ korrekter (‚wohlgeformter’) Sätze / Texte durch: -Rechtschreibkontrollen und -korrekturen -Automatische Silbentrennung (-Grammatik- und Stilhilfen) Brauchbare Programme zur Kontrolle der Ein- haltung der Norm und ggf. zur Korrektur bzw. zum Angebot von Korrekturvorschlägen sind inzwi-schen (zum Deutschen) verfügbar.

18 (zi)Information und Sprache18 4.2Nutzung maschineller Verfahren beim Automa- tischen Indexieren und beim Information Re- trieval Zielsetzung: Möglichst alle für die Problemlösung relevanten Texte = Quellen (Recall) und möglichst nur die relevanten Quellen (Precision) bereitzu- stellen. Einsatz von -statistischen Verfahren -statistisch-linguistischen Verfahren (Trunkierung …) -linguistischen Verfahren (Lemmatisierung, Dekom- position, Derivation -verschiedenen Gewichtungsverfahren (Ranking der Treffer)

19 (zi)Information und Sprache19 Schwachstellen -Fehlende (automatische) Bedeutungs- differenzierung (bei Polysemie) -unzureichende thematische Differen- zierung (automatische Fachgebiets- erkennung …) -Fehlende Zuordnung von Überset- zungsäquivalenten

20 (zi)Information und Sprache20 4.3Der Einsatz maschineller Übersetzung bzw. maschineller Übersetzungshilfen (I) -Maschinelle Übersetzung (MÜ; Machine Translation, MT) => vollautomatische Übersetzung eines Tex- tes in natürlicher Sprache in eine andere na- türliche Sprache. -Human-Übersetzung (HÜ; Human Transla- tion, HT) => die intellektuelle Übersetzung eines Tex- tes mit oder ohne maschinelle einfache lexi- kalische Hilfen (elektronische Wörterbücher) mit oder ohne Textverarbeitung.

21 (zi)Information und Sprache21 4.3Einsatz maschineller Übersetzung bzw. maschineller Übersetzungshilfen (II) -Computergestützte Übersetzung (CUU; compu- ter-aided Translation, CAT) => einerseits eine intellektuelle Übersetzung, die auf einer maschinellen Vorübersetzung / Rohüber- setzung (MT) aufbaut, die nachfolgend intellektuell nachbereitet wird (Postedition); andererseits eine intellektuelle Übersetzung, bei der vor oder während des intellektuellen Übersetzungs- prozesses ein Translation Memory und / oder eine Terminologie-Bank verwendet werden. -Informativ-Übersetzung (IÜ; informative Transla- tion IT) =>eine spezielle Variante von MT, bei der ein Nutzer ohne (hinreichende) Kenntnis der Quellsprache eine Übersetzung in seine Muttersprache erhält.

22 (zi)Information und Sprache22 Stand der Entwicklungen -Die FAHQT (Fully Automatic High Quality Translation’) ist nicht rea- lisiert (wenn überhaupt zu realisie- ren) -Alle anderen genannten Konzepte (mit unterschiedlichem Aufwand und Kosten verbunden) haben realistische Anwendungen erfah- ren.

23 (zi)Information und Sprache23 Human-Übersetzung (HT): Hier werden sowohl im professionellen Bereich (Übersetzungsbüros) als ggf. auch bei privaten Übersetzungen Textverarbeitung und elektro- nische Lexika eingesetzt. Diese Variante erhöht die intellektuelle pro- fessionelle Übersetzungsleistung / Tag von durchschnittlich ca. 8 Seiten / Tag (rein konventionell) auf ca. 10 – 12 Seiten / Tag.

24 (zi)Information und Sprache24 Computergestützte Übersetzung (CAT) Ziel: Kostenreduktion, Zeitgewinn Um ein CAT-Verfahren sinnvoll einsetzen zu können, sind in der Regel erhebliche Aufwendungen an Codier- leistungen und Regel-Erweiterungen notwendig. Diese Vorab-Investitionen (sie sind zudem nur für Sprachpaare einsetzbar, wo grundlegende MT-Verfah- ren mit passenden Übersetzungsrichtungen eines Systems bereits vorliegen, etwa bei Deutsch – Eng- lisch) können sich nur größere Unternehmen leisten. Dabei ist u.a. auch das Ziel, die Produkte (etwa eine neue Autoversion) rascher auf den internationalen Markt zu bringen (Slogan ‚Time to Market’). Hier werden sowohl – langfristig gesehen – die Kosten je Übersetzungssegment reduziert (bis zu 50 % gegen- über der HT) als auch Zeit gewonnen.

25 (zi)Information und Sprache25 Translation Memory, Terminologiebanken Erhebliche Einsparungen hat man zudem, wenn sich neue Übersetzungen nur gering-fügig von vorherigen Fassungen unterschei-den, etwa bei Wartungsanlei- tungen. Hier werden die sog. Translation-Memory-Verfahren verwendet: Das System merkt sich sozusagen Seg- mente früherer (validierter) Übersetzungen und setzt diese als Bausteine bei völliger Identität oder großer Übereinstimmung in die zu fertigende Übersetzung ein. Terminologie-Banken sind i. d. R. systematisch ge- pflegte, interaktiv abrufbare Fachlexika zur Konsistenz- sicherung bei Übersetzungen

26 (zi)Information und Sprache26 Informativ-Übersetzung (IT) Das Verfahren der Informativ-Übersetzung (IT) - Good- enough-Übersetzung – ist auf den Massenmarkt (etwa das Internet) ausgerichtet. Hierbei ist die Frage entscheidend, ob dem Nutzer / der Nutzerin die Qualität einer vollautomatischen Über- setzung ausreicht, um den Inhalt eines Textes zu ver- stehen. Hier spielen die Struktur des Quelltextes (ein-fachere Sätze) und der dem System verfügbare Wortschatz (Allgemeinwortschatz oder Wortschatz, zu dem im zugrunde gelegten System schon hinreichend Über- setzungsäquivalente vorliegen) eine Rolle. Bei der Google-Recherche lassen sich beispielsweise – soweit ein entsprechender Hinweis angezeigt ist (‚diese Seite übersetzen’) englischsprachige Texte mit einem derartigen Verfahren ins Deutsche ‚übersetzen’.

27 (zi)Information und Sprache27 4.4Verarbeitung gesprochener Sprache (Speech) -Umsetzung von Text in gespro- chene Sprache (Text to Voice) -Erkennung und Verarbeitung gesprochener Sprache (Speech Recognition).

28 (zi)Information und Sprache28 Umsetzung von Schriftsprache in gesprochene Sprache Die Umsetzung von schriftsprachlichen Äußerungen in Laute kann heute als halbwegs zufriedenstellend gelöst gelten. Probleme gibt es ggf. bei der Erzeugung der korrekten Satzmelodie. Anwendungsbereich: Abbau von Barrieren für Blinde und stark Sehbehinder- te bei der Computernutzung zum Einsatz (sog. Screen- Reader).

29 (zi)Information und Sprache29 Verfahren zur Umsetzung gesprochener Sprache (in Text) (Reaktion eines Systems auf Äußerungen in gesprochener Sprache) Varianten und Lösungen: -Sprecherabhängige Verarbeitung von Äußerungen mit Einzelworteingabe; -Sprecherabhängige Verarbeitung von Äußerungen mit kontinuierlicher Spracheingabe; -Sprecherunabhängige Verarbeitung von Äußerun- gen mit Einzelworteingabe; -Sprecherunabhängige Verarbeitung von Äußerun- gen mit kontinuierlicher Spracheingabe.

30 (zi)Information und Sprache30 Sprecherabhängigen / -unabhängige Sprachverarbeitung Bei der sprecherabhängigen Sprachverarbeitung wird das System zunächst anhand vorgegebener Sprach- elemente (Texte, die von entsprechenden Nutzer zu sprechen sind) trainiert, d. h. an die spezifische Lau- tung usf. dieses Nutzers angepasst. Der Wortschatz kann dabei relativ groß sein. Bei der sprecherunabhängigen Sprachverarbeitung entfällt die Trainings- und Adaptionszeit. Der erkenn- bare Wortschatz ist dabei jedoch deutlich einge- schränkt, die lautlichen Mehrdeutigkeiten führen leicht zu Fehlinterpretationen.

31 (zi)Information und Sprache31 Einzelworteingabe / kontinuierliche Spracheingabe Bei der Einzelworteingabe müssen erkennbare Pausen zwischen den Wörtern eingehalten werden. Bei der kontinuierlichen Spracheingabe verfügt das System selbst über ein ‚Pausenmodell’, um Segmente oder Wörter zu erkennen.

32 (zi)Information und Sprache32 Zielvorstellungen bei der Spracherkennung (Speech Recognition) -Die Kommunikation beliebiger Nutzer ohne Training in kontinuierlicher Form mit einem umfassenden Wortschatz ist natürlich auch hier das angestrebte Ziel. -Näherung an das Ziel durch Einschränkungen des Anwendungsbereichs (Hotelbuchung, Bedienung eines Fahrstuhls … und / oder auf Sachgebiete (Operationsbefunde, Anwaltstexte …).

33 (zi)Information und Sprache33 5.Stand und Perspektiven Die Sprachdatenverarbeitung bei der Nut- zung von Computern schon zum Alltag ge- worden: -automatische Rechtschreibkontrolle und Sil- bentrennung -Suche in Datenbanken -Vorlesen von Bildschirm-Texten (Screen Reader)

34 (zi)Information und Sprache34 Ungünstige Rahmenbedingungen (1) -Die Entwicklung und Pflege komplexerer Systeme im Bereich des Information Retrie- val und der maschinellen Übersetzung ist extrem aufwendig -Die am Markt verfügbaren Basissysteme sind sehr unhandlich, so dass neuere Ent- wicklungen und v. a. Verbesserungen kaum erkennbar sind.

35 (zi)Information und Sprache35 Ungünstige Rahmenbedingungen (2) -Die Informationsindustrie orientiert sich derzeit weit- gehend an einem kurzfristigen Return of Invest- ment: Der Zeitpunkt, zu dem die Entwicklungskos- ten wieder eingespielt sein sollen und Gewinne erzielt werden, ist in wenigen Jahren und nicht in Jahrzehnten zu erreichen. -Die komplexen Probleme, die natürlich gewachsene Sprachen aufweisen, führen nicht selten zu vorwie- gend statistisch basierten Lösungen, die in vielleicht 90 % der Fälle greifen, aber insbesondere bei dem kritischen Bereich der Maschinellen Übersetzung eben nicht ‚good-enough’ sind, also keine Akzep- tanz beim Nutzer finden.

36 (zi)Information und Sprache36 Ungünstige Rahmenbedingungen (3) - Im Informationstechnik-Bereich gibt es zudem noch viele Lösungen, bei denen man sich ohne einen riesigen Investiti- onsaufwand kurzfristiger das Erreichen der Gewinn- zone verspricht, als dass man über lange Zeiträume in die Entwick- lung von maschinellen Übersetzungssystemen finanziell erhebliche Mittel binden würde – mit einem zudem noch ungewiss erscheinenden Ausgang.

37 (zi)Information und Sprache37 Unternehmerische Initiative gefordert Natürlich gibt es heute Unternehmen (wie Microsoft oder Google), die irgend- wann ihre leichter erreichbaren Ziele ausgereizt haben werden und vielleicht dann auch über die nötigen Mittel verfügen, um erst langfristig erzielbare umfassendere Lösungen im Bereich der gesprochenen Sprache und / oder der Sprach-übersetzung anzugehen.

38 (zi)Information und Sprache38 Der nächste Schritt: Das „Semantic Web“ Der nächste Zwischenschritt dazu zeichnet sich mit den Überlegungen zum ‚Semantic Web’ bereits ab – ein Weg zu einem Internet, das die bisherigen Schwachstellen beim Suchen nach relevanten Quellen vermeidet, die darin bestehen, dass aufgrund ungenügen- der Leistungen der Sprachdatenverarbeitung zu viel Ballast mit den Rechercheergebnissen mitgeliefert wird und dadurch auch vorhandene relevante Quellen nicht als Treffer gefunden oder erkannt werden.

39 (zi)Information und Sprache39 Die „inhaltsbezogene Datenstrukturierung“ Gegenwärtig besteht die Tendenz, zunächst einmal (automatisch) den ‚Weltausschnitt’ (Wissensbereich) zu ermitteln, in den sich eine Quelle einordnen lässt. Eine weitere Möglichkeit kann in der stärkeren inhaltli- chen Strukturierung von Texten gesehen werden, die durch Markierungen / Codierungen mittels XML er- möglicht wird. Damit lassen sich Kategorien wie AUTOR, ADRESSAT, DATUM usf. charakterisieren, die (möglichst automatische) ontologische Einordnung eines Dokuments in einen Gegenstandsbereich (z. B. ‚Bankwesen’) kann eine Hilfe zur Bedeutungsdifferen- zierung sein (‚Bank’ im Sinne von ‚Geldinstitut’) usf.

40 (zi)Information und Sprache40 Hoffnung – ja – aber noch ein langer Weg Es gibt also Hoffnung für die Zukunft – doch es wird noch ein langer Weg sein und bleiben, bis umfassende erschwingliche und brauchbare Lösungen jedermann verfügbar sind und damit die Sprachbarrieren abge- baut sein werden.

41 (zi)Information und Sprache41 Eigene Quellen (I) (Auswahl; dort weitere Literaturangaben) -Was leistet die Linguistik für die Informationswissen- schaft und die Informatik? (Ms. Regensburg 1976). Download unter sb.de/zimmermann/schriften.php?kat=1 -Stand und Probleme der maschinellen Übersetzung. In: Lebende Spra-chen 25 (1980) S Download unter sb.de/zimmermann/schriften.php?kat=3 -Bröckelt der Turm zu Babel? In: Das Inforum 18 (4/1984) S. 12 ff. Download unter sb.de/zimmermann/schriften.php?kat=3

42 (zi)Information und Sprache42 Eigene Quellen (II) -Computer und Sprache im Zeitalter der Fachinfor- mation. In: Lebende Sprachen 35 (1990) S Download unter sb.de/zimmermann/schriften.php?kat=1 -Information in Semiotik und Sprachwissenschaft. In: Grundlagen der praktischen Information und Dokumentation, hrsg. von R. Kuhlen, T. Seeger und D. Strauch, 5. Aufl., 2004, S. -Maschinelle und Computergestützte Übersetzung. In: Grundlagen der praktischen Information und Dokumentation, hrsg. von R. Kuhlen, T. Seeger und D. Strauch, 5. Aufl., 2004, S Ende – Vielen Dank! -


Herunterladen ppt "24.09.2006 (zi)Information und Sprache1 Prof. Dr. Harald H. Zimmermann Information und Sprache Was leistet(e) die maschinelle Sprachdatenverarbeitung Vortrag."

Ähnliche Präsentationen


Google-Anzeigen