Dokumentverarbeitung und Textzusammenfassung

Slides:



Advertisements
Ähnliche Präsentationen
Hochschul-PR in Deutschland Ziele, Strategien, Perspektiven
Advertisements

WAS ZUM NACHDENKEN !
Bund der Sparer E.V. AFA – AG.
Sicherheitsäquivalent der Lotterie L
Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Vermögen- und Erbschaftsteuern – Profiteure zur Kasse! Stand: Oktober 2009 ver.di Bundesvorstand Bereich Wirtschaftspolitik
Sortierverfahren Richard Göbel.
Grundlagen der Analyse von Sprachdatenbanken
Wassertourismus in Nordhorn Die nächsten Folien zeigen zwei Beispiele, wo es bereits bestehende Projekte im Zusammenhang mit Wassertourismus, ähnlich wie.
Algorithmen und Datenstrukturen
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &
Entitäten Extraktion Einführung
Exposé EDS195.
Schau mal, … … da machen wir Urlaub ? In Denia an der Costa Blanca Ferienvilla mit Pool … Diese Präsentation wurde heruntergeladen von
R.P.G. MAL WAS ZUM NACHDENKEN!.
Wo ist das Geld geblieben???
Seit wann gibt es Adoptionen?
Der Benzinpreis Guten Tag, Man hört sagen, dass der Benzinpreis bis zum Sommer auf 1,70 / Liter steigen wird.
Aus dem Leben eines Hotline- Mitarbeiters Begriffe: HLM:Hotline-Mitarbeiter DAU:dümmster anzunehmender User.
Straßenkinder in Bolivien
Ferienappartements in Bloubergstrand
Präsentation von: Tamara Nadine Elisa
„Hast Du gehört? Unser Chef ist verstorben."
Von Margitta. Es ist Montag, der 31. Mai Der Radiowecker reißt Peter K. (46 ) aus dem Schlaf. Die Uhr zeigt 5 Uhr morgens… Der Oldie-Sender spielt.
Paradoxe unserer Zeit.
COPYTEST FÜR NEU_ZWANZIGER
Provokativ, aber anregend Einseitig und teilweise falsch Wo hat sie recht? Wo liegt sie falsch? Trifft ihre Analyse auch auf die DEZA zu? DEZA und seco.
Der Benzinpreis Guten Tag, Man hört sagen das der Benzinpreis bis zum Sommer auf 1,70 / Liter steigen wird.
Ferien.
ENERGIEBOX statt Atomkraft
Formel 1 UNGARN in Budapest
Eine Vorlage zur Erstellung von Buyer Personas
Die Welt ist ein Buch. Wer nie reist, sieht nur eine Seite davon. (Augustinius Aurelius)
Wie schreibe ich eine Diplom- bzw. Masterarbeit ?
MUSIK !! DIESE PRESENTATION LÄUFT AUTOMATISCH.
Eine einfache Rechnung Mit beeindruckendem Ergebnis.
Eine Blondine spielt bei „Wer wird Millionär„ mit
WAS ZUM NACHDENKEN !.
Willkommen in der Welt der effizienten Datenanalyse! Seite 1 Dr. Franz Weissenböck.
Villa Kleiner *** Platz für besondere Angebote oder Events im Ort
Wir müssen handeln! Daher bitten wir SIE im Namen der Kolleginnen und Kollegen um eine Spritspende für die Bundespolizei damit die Polizeifahrzeuge weiter.
HipHop Projekttage mit Pyranja
MODAL-PARTIKELN.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
WAS ZUM NACHDENKEN !.
Malaysia 03/04 Präsentatio n No. 2. Malaysia 03/04 Die Unterkunft - Part 2.
Eine Fotoreportage über Straßenkinder
Template für die Erstellung von Käufer-Personas
Wolfgang Wahlster Der Weg zum sprachverstehenden Computer Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb
Von Unternehmen und Unternehmern
Eine Blondine spielt bei „Wer wird Millionär „ mit.
Kapitel 9 2 modals/texts/infinitive completions
10 Schritte für bessere Interviews „Früher hat man geflucht über die schlechten Fragen, die einem gestellt wurden. Jetzt muss man sich selbst schlaue überlegen.“
Solaranlagen! Was ist das?
Meine Familie Für die Klasse 10.
7 Gründe für Direktmailings The content of this presentation is designed to promote print media’s power to communicate. You are welcome to use this as.
Verhalten in Parks und auf Plätzen in Österreich Eine quantitative Untersuchung (MTU) im Auftrag des Vereins ISOF April 2015 ISOF - Initiative für Soziale.
Eine einfache Rechnung Mit beeindruckendem Ergebnis.
Deutschland nach der Bundestagswahl am 18. September 2005 !!!
7 Gründe für Zeitungen The content of this presentation is designed to promote print media’s power to communicate. You are welcome to use this as part.
DICKE DEUTSCHE.
Auswertungen der Lärmumfrage AG Hof. Übersicht 1.Resultate 2.Interpretation der Zahlen 3.Interpretation der Wortrückmeldungen 4.Weiteres Vorgehen.
Wir lernen Deutsch mit Spaß Phonetische Haltestelle.
11 EIN OLDTIMER GEHÖRT IN DIE GARAGE UND NICHT IN EINE ZAHNARZTPRAXIS.
Objectives Say what kind of house you live in
Einführung: Statistische Verfahren der automatischen Indexierung
 Präsentation transkript:

Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Informationsextraktion 19 March. A bomb went off this morning near a power tower in San Salvador leaving a large part of the city without energy, but no casualties have been reported. According to unofficial sources, the bomb allegedly detonated by urban guerrilla commandos blew up a power tower in the northwestern part of San Salvador at 0650.  INCIDENT TYPE DATE LOCATION PERPETRATOR PHYSICAL TARGET HUMAN TARGET EFFECT ON PHYS. TARGET Manfred Stede

Informationsextraktion 19 March. A bomb went off this morning near a power tower in San Salvador leaving a large part of the city without energy, but no casualties have been reported. According to unofficial sources, the bomb allegedly detonated by urban guerrilla commandos blew up a power tower in the northwestern part of San Salvador at 0650.  INCIDENT TYPE bombing DATE March 19 LOCATION El Salvador: San Salvador PERPETRATOR urban guerilla commandos PHYSICAL TARGET power tower HUMAN TARGET - EFFECT ON PHYS. TARGET destroyed Manfred Stede

Informationsextraktion 19 March. A bomb went off this morning near a power tower in San Salvador leaving a large part of the city without energy, but no casualties have been reported. According to unofficial sources, the bomb allegedly detonated by urban guerrilla commandos blew up a power tower in the northwestern part of San Salvador at 0650.  INCIDENT TYPE bombing DATE March 19 LOCATION El Salvador: San Salvador PERPETRATOR urban guerilla commandos PHYSICAL TARGET power tower HUMAN TARGET - EFFECT ON PHYS. TARGET destroyed Manfred Stede

Automatische Zusammenfassung Ziel: Aus langem Text erstelle kurzen Text System bietet Kurzfassung an, Leser/in kann dann entscheiden, ob Originaldokument lesenswert ist E-Mail „gisting“, z.B. für mobile Applikationen Web-Recherche - schnell Überblick verschaffen Problem: Identifizieren der „wichtigen“ Informationen ...unabhängig von der inhaltlichen Domäne!  Techniken der Informationsextraktion nicht verwendbar Manfred Stede

Grundlage: Statistik (Luhn 58) TF/IDF Gewichtung Idee: „wichtige“ Wörter sind im fraglichen Text häufig, im gesamten Textbestand jedoch selten Sei N: Anzahl aller Texte Sei Df(w): Anzahl der Dokumente (document frequency), in denen Wort w vorkommt Idf(w) := log(N / Df(w)) (inverted document frequency) Sei Tf(w) die Häufigkeit des Wortes w (term frequency) im Text Tf(w) * Idf(w): Maß für die Gewichtung des Wortes w im Text Ermittele die „wichtigen“ Wörter des Textes nach Tf*Idf Wähle diejenigen Sätze aus, in denen die wichtigen Wörter am häufigsten auftreten. Fertig ist die Zusammenfassung!  Zusammenfassung = Extraktion Manfred Stede

1. Einleitung: RIU Die zur World of TUI gehörende RIU-Gruppe besticht weltweit durch sehr gute Anlagen der gehoben Preis- und Qualitätsklasse mit herausragendem Service. Daher versuche ich eigentlich immer meinen Erholungsurlaub in einem der Hotels dieser Kette zu genießen. 2. Lage: Hotel RIU Gran Canaria Das 4****-Hotel liegt im Süden Gran Canarias, bei Maspalomas. Zu den bekannten Dünen sind es etwa 1000 Meter entlang der neuen und sehr sauberen Küstenpromenade, die erst 2002 fertig gestellt wurde. Den Leuchturm erreicht man bereits nach 700 Meter. Dort befindet sich auch der nächste Geldautomat der Deutschen Bank. Zwischen Leuchtturm und Hotel liegt ein recht großes Einkaufszentrum mit Supermarkt, Apotheke usw. 3. Die Hotelanlage Das Hotel wurde 2000 eröffnet, so das die Einrichtung noch nicht abgenutzt ist. Die Außenfassade wirk zwar ziemlich luxuriös, allerdings herrscht trotzdem eine überraschend ungezwungene Atmosphäre. Da das Hotel auch eine eigene Kinderanimation bietet, findet man viele Familien in der Anlage. Die Kinder stören aber den Erholungsbetrieb nicht, da das Hotel sehr weitläufig ist. Besonders bemerkenswert finde ich hier die sehr großzügige Poolanlage mit 3 großen Pools, einer davon für Kinder. In dier poolanlage befindet sich auch das Poolrestaurant und zusätzlich noch eine Bar. <...> 6. Preise Das Hotel ist zwar recht teuer, aber das Geld auf jeden Fall wert. Man kommt deutlich günstiger wenn man über ein Reiseunternehmen bucht (TUI). 7. Meine Meinung Der Aufenthalt im RIU Gran Canaria gehört zweifelslos zu meinen schönsten Urlauben und ich überlege bereits ob ich dort nicht nächstes Weihnachten wieder verbringen sollte. Von der Qualität des Services her ist das Hotel auf jedem Fall 5***** Sterne wert.

..... 1560506043 Minibar 1149846558 Fazit 1067714661 Supermarkt 1012960063 Aerobic 930828166 Sauna 876073568 Tischtennis 821318970 Albatros 684432475 Gartenanlage 629677877 Salate 602300578 Luxor 588611928 Bungalows 564783538 Strand 554390304 Balkon 547545980 Boccia 547545980 Billard 531119600 Hotel 506480031 Verpflegung 492791382 RIU 492791382 Aufpreis 465414083 Urlauber 438036784 Badezimmer 434614621 Abendessen 410659485 Müsli 383282186 Volleyball 383282186 Liegestühle 383282186 Fußball 365030653 Ausflug 355904887 Haan 355904887 Diskothek 328527588 Schlafzimmer 328527588 Raucher 328527588 Kleiderschrank 328527588 Dinar 328527588 Bakschisch 322443743 Zimmer 301150289 Kreta ..... Manfred Stede

1. Einleitung: RIU Die zur World of TUI gehörende RIU-Gruppe besticht weltweit durch sehr gute Anlagen der gehoben Preis- und Qualitätsklasse mit herausragendem Service. Daher versuche ich eigentlich immer meinen Erholungsurlaub in einem der Hotels dieser Kette zu genießen. 2. Lage: Hotel RIU Gran Canaria Das 4****-Hotel liegt im Süden Gran Canarias, bei Maspalomas. Zu den bekannten Dünen sind es etwa 1000 Meter entlang der neuen und sehr sauberen Küstenpromenade, die erst 2002 fertig gestellt wurde. Den Leuchturm erreicht man bereits nach 700 Meter. Dort befindet sich auch der nächste Geldautomat der Deutschen Bank. Zwischen Leuchtturm und Hotel liegt ein recht großes Einkaufszentrum mit Supermarkt, Apotheke usw. 3. Die Hotelanlage Das Hotel wurde 2000 eröffnet, so das die Einrichtung noch nicht abgenutzt ist. Die Außenfassade wirk zwar ziemlich luxuriös, allerdings herrscht trotzdem eine überraschend ungezwungene Atmosphäre. Da das Hotel auch eine eigene Kinderanimation bietet, findet man viele Familien in der Anlage. Die Kinder stören aber den Erholungsbetrieb nicht, da das Hotel sehr weitläufig ist. Besonders bemerkenswert finde ich hier die sehr großzügige Poolanlage mit 3 großen Pools, einer davon für Kinder. In dier poolanlage befindet sich auch das Poolrestaurant und zusätzlich noch eine Bar. <...> 6. Preise Das Hotel ist zwar recht teuer, aber das Geld auf jeden Fall wert. Man kommt deutlich günstiger wenn man über ein Reiseunternehmen bucht (TUI). 7. Meine Meinung Der Aufenthalt im RIU Gran Canaria gehört zweifelslos zu meinen schönsten Urlauben und ich überlege bereits ob ich dort nicht nächstes Weihnachten wieder verbringen sollte. Von der Qualität des Services her ist das Hotel auf jedem Fall 5***** Sterne wert.

Mögliche Extrakt-Probleme Pronomina In Deutschland sind 5 Mio Menschen arbeitslos. Der Bundeskanzler handelt aber nicht. Er hat ein Konjunkturprogramm abgelehnt. Temporale und lokale Anaphern In Deutschland sind 5 Mio Menschen arbeitslos. Am vergangenen Montag beriet der Bundeskanzler sich mit den Ministerpräsidenten der Länder. Am nächsten Tag traf Schröder den Arbeitgeberpräsidenten. Definite NPs In Deutschland sind 5 Mio Menschen arbeitslos. Dies rief gestern auch den Bund der Steuerzahler auf den Plan. Der Vorsitzende forderte ein Vereinfachung des Steuersystems. Manfred Stede

Mögliche Extrakt-Probleme Komparative In Deutschland sind 5 Mio Menschen arbeitslos. Die Erwerbslosenquote stieg um zwei Prozent. Noch höher war der Anstieg in Ostdeutschland. Konnektoren In Deutschland sind 5 Mio Menschen arbeitslos. Wirtschaftsminister Clement stellte gstern ein rasches Hilfsprogramm der Bundesregierung in Aussicht. Dennoch zeigten die Gewerkschaften sich nicht zufrieden. Manfred Stede

Mögliche Extrakt-Probleme Statistisch nicht signifikante Sätze können gleichwohl „wichtig“ sein: Schulze (1994) hat ein Verfahren für die Gewichtung von Termen in Dokumenten vorgeschlagen. Es funktioniert aber nicht. Redundanz: Taucht dieselbe oder sehr ähnliche Information mehrfach im Text auf, wird sie auch mehrfach extrahiert Manfred Stede

Beyond extraction: PINK-Projekt SUMMaR Zusammenfassung verschiedener Dokument-Typen mit statistischer und linguistischer Analyse Technischer Ansatz: „Baukasten“ aus Textanalysemodulen, strikt XML-basiert Rolle der Linguistik: Robuste syntaktische Analyse (Partielle) Ableitung von Ko-Referenz (Partielle) Ableitung der rhetorischen Textstruktur Textsorten-Wissen: Textaufbau, Relevanz-anzeigende Formulierungen Manfred Stede

Soll der Steglitzer Kreisel abgerissen werden? Alles spricht gegen den Steglitzer Kreisel. Selbst wenn man vergisst, dass der olle Schuhkarton in bester Lage einst ein privates Prestigeobjekt war, das der öffentlichen Hand für teures Geld aufgenötigt wurde. Ein Symbol der West-Berliner Filzwirtschaft in den späten sechziger Jahren. Aber lassen wir das ruhig beiseite. Der Kreisel ist Asbest verseucht. Nicht nur hier und da, sondern durch und durch. Zwar könnte man, wie beim Palast der Republik, den Bau bis aufs wackelige Stahlskelett entkleiden und neu aufbauen. Aber das würde mindestens 84 Millionen Euro, vielleicht auch das Doppelte kosten. Was für ein Preis für die Restaurierung eines städtebaulichen Schandflecks, der seit mehr als dreißig Jahren Schatten auf die nette, gutbürgerliche Umgebung wirft. Von allen Seiten versperrt der Kreisel die Sicht. Er ist keine Sehenswürdigkeit. Und für die Mitarbeiter des Bezirks Steglitz, die im Hochhaus arbeiten, kann die Lebensqualität bei einem Umzug in ein anderes Dienstgebäude nur steigen. Der Kreisel ist auch innen hässlich, zudem zugig und Energie verschleudernd. Einzig brauchbar ist die gute Verkehrsanbindung und der Blick aus dem 24. Stock auf den Süden Berlins. Aber beides rechtfertigt es nicht, das marode Gebäude zu sanieren. Für das viele Geld kann man fast zwei neue, wirklich schöne Häuser bauen. Manfred Stede

Soll der Steglitzer Kreisel abgerissen werden? Alles spricht gegen den Steglitzer Kreisel. Selbst wenn man vergisst, dass der olle Schuhkarton in bester Lage einst ein privates Prestigeobjekt war, das der öffentlichen Hand für teures Geld aufgenötigt wurde. Ein Symbol der West-Berliner Filzwirtschaft in den späten sechziger Jahren. Aber lassen wir das ruhig beiseite. Der Kreisel ist Asbest verseucht. Nicht nur hier und da, sondern durch und durch. Zwar könnte man, wie beim Palast der Republik, den Bau bis aufs wackelige Stahlskelett entkleiden und neu aufbauen. Aber das würde mindestens 84 Millionen Euro, vielleicht auch das Doppelte kosten. Was für ein Preis für die Restaurierung eines städtebaulichen Schandflecks, der seit mehr als dreißig Jahren Schatten auf die nette, gutbürgerliche Umgebung wirft. Von allen Seiten versperrt der Kreisel die Sicht. Er ist keine Sehenswürdigkeit. Und für die Mitarbeiter des Bezirks Steglitz, die im Hochhaus arbeiten, kann die Lebensqualität bei einem Umzug in ein anderes Dienstgebäude nur steigen. Der Kreisel ist auch innen hässlich, zudem zugig und Energie verschleudernd. Einzig brauchbar ist die gute Verkehrsanbindung und der Blick aus dem 24. Stock auf den Süden Berlins. Aber beides rechtfertigt es nicht, das marode Gebäude zu sanieren. Für das viele Geld kann man fast zwei neue, wirklich schöne Häuser bauen. Manfred Stede

Soll der Steglitzer Kreisel abgerissen werden? Alles spricht gegen den Steglitzer Kreisel. Selbst wenn man vergisst, dass der olle Schuhkarton in bester Lage einst ein privates Prestigeobjekt war, das der öffentlichen Hand für teures Geld aufgenötigt wurde. Ein Symbol der West-Berliner Filzwirtschaft in den späten sechziger Jahren. Aber lassen wir das ruhig beiseite. Der Kreisel ist Asbest verseucht. Nicht nur hier und da, sondern durch und durch. Zwar könnte man, wie beim Palast der Republik, den Bau bis aufs wackelige Stahlskelett entkleiden und neu aufbauen. Aber das würde mindestens 84 Millionen Euro, vielleicht auch das Doppelte kosten. Was für ein Preis für die Restaurierung eines städtebaulichen Schandflecks, der seit mehr als dreißig Jahren Schatten auf die nette, gutbürgerliche Umgebung wirft. Von allen Seiten versperrt der Kreisel die Sicht. Er ist keine Sehenswürdigkeit. Und für die Mitarbeiter des Bezirks Steglitz, die im Hochhaus arbeiten, kann die Lebensqualität bei einem Umzug in ein anderes Dienstgebäude nur steigen. Der Kreisel ist auch innen hässlich, zudem zugig und Energie verschleudernd. Einzig brauchbar ist die gute Verkehrsanbindung und der Blick aus dem 24. Stock auf den Süden Berlins. Aber beides rechtfertigt es nicht, das marode Gebäude zu sanieren. Für das viele Geld kann man fast zwei neue, wirklich schöne Häuser bauen. Manfred Stede

Document Structure Analysis Syntactic Analysis Statistical Analysis document structure (XML) tokenized text Document Structure Analysis Syntactic Analysis Statistical Analysis dependency structures term relevance sentence relevance structure-based relevance Coreference Analysis coreference chains Summarizer doc info „backbone“

Mehrschichtige Repräsentation -------STAT/TS-RELEVANT------- -----PROGRESSION-1-NUC-------- -------------PROGRESSION-1-SAT------------- -------------EXTERN----------- KON-1 ---------------INTERN------------- REF-1 REF-{1,2} NP-DEF NP-DEF PIS VVFIN APPR ART NN NN ADV KOUS PIS VFIN KOUS ART ADJ NN Alles spricht gegen den Steglitzer Kreisel. Selbst wenn man vergisst, dass der olle Schuhkarton in Manfred Stede

Manfred Stede

Manfred Stede

Manfred Stede

Manfred Stede

Manfred Stede

Manfred Stede

Manfred Stede

XML-Toolbox für Dokumentverarbeitung Komponenten Dokumentstruktur-Repräsentation Statistische Auswertung Robuste syntaktische Analyse Ko-Referenz Analyse Ableitung der Diskursstruktur Anwendungsfelder Text-Zusammenfassung Informationsextraktion Frage-/Antwort Systeme Automatische Übersetzung Manfred Stede

Zusammenfassung SUMMaR Tf/Idf + Textsortenwissen  Liste relevanter Sätze Part-of-speech tagging + robustes parsing Ko-Referenz Analyse  unterspezifizierte referentielle Ketten Konnektoren-Analyse (+ synt. Merkmale)  unterspezifizierte „rhetorische Textstruktur“ Partielle Re-Generierung des Extrakts In Deutschland sind 5 Mio Menschen arbeitslos. { } Schröder traf die Spitzen der Arbeitgeberverbände. {} Der Bundeskanzler kündigte an, die nächste Stufe der Steuerreform vorzuziehen. {} Dennoch mahnte Bsirske an, die Unternehmensgewinne stärker zu besteuern. Manfred Stede

Zusammenfassung SUMMaR Tf/Idf + Textsortenwissen  Liste relevanter Sätze Part-of-speech tagging + robustes parsing Ko-Referenz Analyse  unterspezifizierte referentielle Ketten Konnektoren-Analyse (+ synt. Merkmale)  unterspezifizierte „rhetorische Textstruktur“ Partielle Re-Generierung des Extrakts In Deutschland sind 5 Mio Menschen arbeitslos. { } Schröder traf die Spitzen der Arbeitgeberverbände. {} Der Bundeskanzler kündigte an, die nächste Stufe der Steuerreform vorzuziehen. {} Dennoch mahnte Bsirske an, die Unternehmensgewinne stärker zu besteuern. Manfred Stede

Zusammenfassung SUMMaR Tf/Idf + Textsortenwissen  Liste relevanter Sätze Part-of-speech tagging + robustes parsing Ko-Referenz Analyse  unterspezifizierte referentielle Ketten Konnektoren-Analyse (+ synt. Merkmale)  unterspezifizierte „rhetorische Textstruktur“ Partielle Re-Generierung des Extrakts In Deutschland sind 5 Mio Menschen arbeitslos. { } Bundeskanzler Schröder traf die Spitzen der Arbeitgeberverbände. {} Er kündigte an, die nächste Stufe der Steuerreform vorzuziehen. {} Dennoch mahnte Bsirske an, die Unternehmens-gewinne stärker zu besteuern. Manfred Stede

Zusammenfassung SUMMaR Tf/Idf + Textsortenwissen  Liste relevanter Sätze Part-of-speech tagging + robustes parsing Ko-Referenz Analyse  unterspezifizierte referentielle Ketten Konnektoren-Analyse (+ synt. Merkmale)  unterspezifizierte „rhetorische Textstruktur“ Partielle Re-Generierung des Extrakts In Deutschland sind 5 Mio Menschen arbeitslos. { } Bundeskanzler Schröder traf die Spitzen der Arbeitgeberverbände. {} Er kündigte an, die nächste Stufe der Steuerreform vorzuziehen. {} Dennoch mahnte Bsirske an, die Unternehmens-gewinne stärker zu besteuern. Manfred Stede

Zusammenfassung SUMMaR Tf/Idf + Textsortenwissen  Liste relevanter Sätze Part-of-speech tagging + robustes parsing Ko-Referenz Analyse  unterspezifizierte referentielle Ketten Konnektoren-Analyse (+ synt. Merkmale)  unterspezifizierte „rhetorische Textstruktur“ Partielle Re-Generierung des Extrakts In Deutschland sind 5 Mio Menschen arbeitslos. { } Bundeskanzler Schröder traf die Spitzen der Arbeitgeberverbände. {} Er kündigte an, die nächste Stufe der Steuerreform vorzuziehen. {} Der DGB zeigte sich im Prinzip einverstanden. Dennoch mahnte Bsirske an, die Unternehmensgewinne stärker zu besteuern. Manfred Stede

Zusammenfassung SUMMaR Tf/Idf + Textsortenwissen  Liste relevanter Sätze Part-of-speech tagging + robustes parsing Ko-Referenz Analyse  unterspezifizierte referentielle Ketten Konnektoren-Analyse (+ synt. Merkmale)  unterspezifizierte „rhetorische Textstruktur“ Partielle Re-Generierung des Extrakts In Deutschland sind 5 Mio Menschen arbeitslos. { } Bundeskanzler Schröder traf die Spitzen der Arbeitgeberverbände. {} Er kündigte an, die nächste Stufe der Steuerreform vorzuziehen. {} Der DGB zeigte sich im Prinzip einverstanden. Dennoch mahnte Bsirske an, die Unternehmensgewinne stärker zu besteuern. Manfred Stede

Zusammenfassung SUMMaR Tf/Idf + Textsortenwissen  Liste relevanter Sätze Part-of-speech tagging + robustes parsing Ko-Referenz Analyse  unterspezifizierte referentielle Ketten Konnektoren-Analyse (+ synt. Merkmale)  unterspezifizierte „rhetorische Textstruktur“ Partielle Re-Generierung des Extrakts In Deutschland sind 5 Mio Menschen arbeitslos. { } Bundeskanzler Schröder traf die Spitzen der Arbeitgeberverbände. {} Er kündigte an, die nächste Stufe der Steuerreform vorzuziehen. {} Der DGB zeigte sich im Prinzip einverstanden. Dennoch mahnte Verdi-Chef Bsirske an, die Unternehmensgewinne stärker zu besteuern. Manfred Stede

Perspektive: Multi-Document Summarization Japans Ministerpräsident Koizumi hat bei der Unterhauswahl einen überwätigenden Sieg errungen. Die LDP errang {271/276/296} der 480 Sitze. Erstmals seit 15 Jahren verfügt sie über die absolute Mehrheit.