Hrvatski paralelni korpusi (Kroatische Parallelkorpora)

Slides:



Advertisements
Ähnliche Präsentationen
Intelligente Anwendungen im Internet
Advertisements

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Soziologische Theorien und soziale Fakten 8. Veranstaltung.
Dr. Helmuth Sagawe WS 2010/11 Universität Heidelberg
eine Plattform für annotierte Korpora in XML
Anmerkungen zu XML Im September 2000 Entwicklung/Anspruch von XML
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
© Karin Haenelt 2006, Äquivalenzen Reg.Ausdrücke, Reg.Sprachen, EA ( ) 1 Reguläre Sprachen Karin Haenelt.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Folie 1 E-Voting in Österreich Präsentation beim E-Voting Seminar beim DFKI Saarbrücken Robert Krimmer Wirtschaftsuniversität Wien.
Prof. Dr. Bernhard Wasmayr
Der Spendenmarkt in Deutschland
Der Spendenmarkt in Deutschland
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
Akutes Koronarsyndrom: Optimierte Antiplättchentherapie
Vom richtigen Zitieren
Verband Deutscher Sprache Die Aktionen. Allgemein Bürger wollen verhindern das Deutsch zu einem Denglisch wird.
20:00.
Institut für Slawistik der Universität Innsbruck
Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović
Universität für Bodenkultur Wien BOKU Präsentation Die Universität für Bodenkultur Wien P räsentation
Österreich & E-Government
Angebote des Electronic Commerce Centrums Stuttgart (ECC)
Anglo-Amerikanische Korpuslinguistik Anglo-American Corpus Linguistics Erstellt von Gudrun Krenn Slawische Korpuslinguistik SE SS 2006 Dr. Branko Tošović
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
1 Universitätsbibliothek Johann Christian Senckenberg Das Angebot E lektronischer M edien eLearning Netzwerktag am 30. Juni 2008 Subtitel Dr. Klaus Junkes-Kirchen.
Univ.-Prof. Dr. Dimitris Karagiannis 40482/5 Freitag, 12: :00 Uhr 40482/6 Freitag, 14: :00 Uhr VK Einführung.
Peter Grzybek Projekt # (FWF) Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten.
Karl-Franzens-Universität Graz Institut für Slawistik
Sprachen und Schlüsselkompetenzen für Studierende der TU Graz
„Die Lokativpräpositionen in den Grazer Werken von Ivo Andrić“
Institut für Slawistik der Karl-Franzens Universität Graz Graz, 25. November 2010 Evaluierung der Grazer Sprachwissenschaft von 2005 bis 2009 Einführung.
Institut für Slawistik der Karl-Franzens Universität Graz Graz, 25. November 2010 Evaluierung der Grazer Sprachwissenschaft von 2005 bis 2009 Perspektive.
Die Entwicklung des Beistrichs in den Rechtschreibregelwerken des Bosnischen/Kroatischen/ Montenegrinischen/Serbischen Die Entwicklung des Beistrichs in.
Diplomarbeit Magdalena Kaiser Karl-Franzens Universität Graz Mai 2010
Kroatische online Wörterbücher und digitale Bibliotheken
Italianismen im Kroatischen
Germanismen im Gralis-Korpus
Französisch-Slawische Korpuslinguistik Французско- славянская корпусная лингвистика Aigner Ruth Prenn Linde SE Korpuslinguistik O. Univ.-Prof. Dr. Branko.
Bitte F5 drücken.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Stjepko Težaks Sichtweise auf die Verhältnisse zwischen dem Kroatischen, Serbischen und Bosnischen Delmina Hodžić Institut.
Hauptseminar SS 2006 Hinweise für Autoren.
Andrea Karner Susi Luginger
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Peer-to-Peer-Netzwerke
erstellt von: Rita Plos
Kontrastive Untersuchung von Präpositionen (D-Fr)
Sommerkolleg in Zakopane Juli Wie bewerbe ich mich? Slawistik-> Service-> Sprach- und Studienaufenthalte-> Geförderte bilaterale Sommerkollegs.
Folie Einzelauswertung der Gemeindedaten
Qualitative Interviews Sabina Misoch ISBN: © 2015 Walter de Gruyter GmbH, Berlin/Mu ̈ nchen/Boston Abbildungsübersicht / List of Figures.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Betreuer: O. Univ. Prof. Dr. Branko Tošović
Die grammatikalischen Unterschiede zwischen dem
Corinna Schnedhuber Slowenische Papallelkorpera Slovenski paralelni korpera Slawische Korpuslinguistik Prof. TosovicSS 2006.
Italianismen in der kroatischen Sprache Diplomarbeit Alexandra Groß
Parallelkorpora Einführung Amir Zeldes
Denis Imširović (Graz)
Branko Tošović (Univerzitet Graz, Austrija) 1
Diplomarbeit vorgelegt von Daniel Dugina am Institut für Slawistik
Andrićev Gralis-Korpus za period od do 1941.
Slowenische Korpuslinguistik
Branko Tošović Institut für Slawistik der Karl-Franzens Universität Graz Projekat.
 Präsentation transkript:

Hrvatski paralelni korpusi (Kroatische Parallelkorpora) Seminar: „Slawische Korpuslinguistik“ Ernedina Muminović (erni.muminovic@gmx.at) & Silvije Beus (beus_s@yahoo.de) o.Univ.-Prof. Mag. Dr. Branko Tošović, SS 2006 4. April 2006

Slawische Korpuslinguistik Pojmovi (Begriffe) Korpus Paralelni korpus (Parallelkorpus) Računalni korpus (Elektronisches Korpus) Sravnjivanje (Alignement) Pojavnice (Wörter) Slawische Korpuslinguistik

Hrvatski korpusi (Kroatische Korpora) http://www.hnk.ffzg.hr/ http://riznica.ihjj.hr/ Slawische Korpuslinguistik

Hrvatski nacionalni korpus (Kroatisches Nationalkorpus) Slawische Korpuslinguistik

Korpus suvremenoga hrv. jezika (Korpus kro. Gegenwartssprache) 30 mil. 30 milijunski korpus suvremenog hrvatskog jezika (30 Mio. Wörter) Tekstovi od 1990. do danas (Texte ab 1990 bis heute) Različita područja i žanrovi (Verschiedene Gebiete und Genres) Reprezentativan za hrv. suvremeni standardni jezik (Representativ für die kro. Standardsprache) Slawische Korpuslinguistik

Zbirka hrvatskih tekstova (Kroatische Textsammlung) HETA hrvatski elektronski tekstovni arhiv: (Kroatisches elektronisches Textarchiv) Tekstovi stariji od 1990. godine (Texte vor 1990) I neki tekstovi nakon 1990. godine (wenige Texte ab 1990) Slawische Korpuslinguistik

Hrvatska jezična mrežna riznica (Kroatische Netzquelle) Početak (Beginn): 2005. godine Tekstovi iz druge polovice XIX. st. (Texte aus der 2. Hälfte des 19. Jh.) Djela hrv. književnosti (Werke kro. Literatur) Publicistička djela (Werke aus der Publizistik) Znanstvena djela (Wissenschaftliche Werke) Literarna djela prevedena na hrvatski (Literarische Werke übersetzt auf Kroatisch) Tisak (Presse) Djela iz predstandardnoga razdoblja (Werke vor der Standardisierung der kroatischen Sprache) Slawische Korpuslinguistik

Slawische Korpuslinguistik Ciljevi (Ziele) Dostupnost materijala preko Interneta (Internetzugang) Informacije o hrvatskoj jezičnoj normi (Informationen über die kro. Sprachnorm) Izrada Velikoga rječnika hrvatskoga jezika (Verfassen des Großen Wörterbuches der kro. Sprache) Opća jezikoslovna istraživanja (Allgemeine Sprachuntersuchungen) Slawische Korpuslinguistik

Hrv.-slo. paralelni korpus (Kroatisch-slowenisches Parallelkorpus) Početak (Beginn): 1999. godine Sporazum o dvostranoj znanstvenoj suradnji Hrvatske i Slovenije (Abkommen) Trajanje (Dauer): 2 godine Učesnici (Teilnehmer): Filozofski fakulteti u Zagrebu i Ljubljani Slawische Korpuslinguistik

Slawische Korpuslinguistik Ciljevi (Ziele) Stvaranje usporednog korpusa (Schaffen des Parallelkorpus) Skupljanje hrvatskih i slovenskih originala i odgovarajućih prijevoda (Sammeln) Sravnjivanje korpusa na razini rečeničnih prijevodnih ekvivalenata (Korpusalignement) Slobodan pristup korpusu putem Interneta (Internetzugang) Slawische Korpuslinguistik

Primjena rezulatata (Verwendung der Resultate) Pomoć pri učenju jezika (Hilfe bei Fremdsprachenerlernung) Stvaranje kontrastivne gramatike i udžbenika (Kontrastive Grammatik und Lehrbücher) Sastavljane dvojezičnih rječnika (zweisprachige Wörterbücher) Slawische Korpuslinguistik

Primjena rezulatata (Verwendung der Resultate) Leksikografska i leksikološka istraživanje (lexikograpische und lexikographische Untersuchungen) Mogućnost slobodnog korištenja npr. pri prevođenju, studiranju… (Korpus als Hilfestellung bei Translationen, beim Studieren...) Slawische Korpuslinguistik

Slawische Korpuslinguistik Građa (Aufbau) 500.000 pojavnica po jeziku (Wörter) Vremenski raspon tekstova: 1990.-2001. (Texte von 1990-2001) Slawische Korpuslinguistik

Podjela korpusa (Korpusgliederung) Slawische Korpuslinguistik

Obrada korpusa (Korpusbearbeitung) Pretvaranje teksta u XML format (XML-Formatierung) Program 2XML Segmentacija (Satzsegmentierung) Obilježavanje rečenica ID oznakama (Satzkennzeichnung) Usklađivanje odlomaka (Absatzangleichung) Sravnjivanje teksta pomoću programa Vanilla Aligner (Alignement) Slawische Korpuslinguistik

Hrv.-engl. paralelni korpus (Kroatisch-englisches Parallelkorpus) Početak (Beginn): 1. hrv.-engl. korpus (kro.-engl. Korpus) 1968.-1971. “Srpskohrvatsko-engleski kontrastivni projekt” (serbokro.-engl. kontrastives Projekt) Skupljanje i obrada materijala (Sammeln und Verarbeiten) Izdavanje velikog broja naučnih publikacija (Publikationen) Slawische Korpuslinguistik

Hrv.-engl. paralelni korpus (Kroatisch-englisches Parallelkorpus) 2. hrv.-engl. korpus (kro.-engl. Korpus) Prijevod Platonove “Države” (Plato‘s “Republik”) Prilično malog opsega (relativ klein) Nije mjerodavan (nicht aussagekräftig) 3. hrv.-engl. korpus (kro.-engl. Korpus) Cilj mu je testirati (Ziel): Organizaciju paralelnih korpusa (Organisation) Sravnjivanje (Alignement) Slawische Korpuslinguistik

Hrv.-engl. paralelni korpus (Kroatisch-englisches Parallelkorpus) Početak (Beginn): 1998.-2001. Skupljanje materijala na FF u Zagrebu (Materialsammlung) Slawische Korpuslinguistik

Slawische Korpuslinguistik Izvor (Quelle) Tjednik “Croatia Weekly” (Wochenzeitung) Članci s hrvatskog prevođeni na engleski jezik (Übersetzungen Kroatisch-Englisch) Vremenski raspon članaka 1998.-2000. (Artikel von 1998-2000) Područja proučavanja (Forschungsgebiete): Politika, gospodarstvo i financije, turizam, ekologija, umjetnost, sport, zbivanja Slawische Korpuslinguistik

Korpusni parametri (Korpusparameter) Jezik (Sprache) Hrvatski (Kroatisch) Engleski (Englisch) Članci (Artikel) 4.748 Rečenice (Sätze) 74.638 82.898 Pojavnice (Wörter) 1.636.246 1.968.874 Slawische Korpuslinguistik

Obrada teksta (Textverarbeitung) Pretvaranje teksta u XML format (XML-Formatierung) Usklađivanje odlomaka (Absatzangleichung) Obilježavanje rečenica ID oznakama (Identifikation) Sravnjivanje teksta pomoću programa Vanilla Aligner (Alignement) Slawische Korpuslinguistik

Sravnjeni hrv.-engl. Korpus (Aligntes Kro.-Engl. Korpus) 0:1 250 0,35 % 1:0 19 0,09 % 1:1 58788 83,52 % 1:2 9374 13,32 % 2:1 1529 2,17 % 2:2 432 0,61 % Ukupno (gesamt) 70392 100 % Slawische Korpuslinguistik

Literatura (Literaturverzeichnis) Tadić, M. (1996): Računalna obradba hrvatskoga i nacionalni korpus, in: Suvremena lingvistika 41-42; 603-612. Tadić, M. (1998): Raspon, opseg i sastav korpusa suvremenoga hrvatskoga jezika, in: Filologija 30-31; 337-347. Tadić, M. (2000): Building the Croatian-English Parallel Corpus, in: Zbornik, 1; 523-530. Tadić, M., Požgaj-Hadži, V. (2000): Hrvatsko-slovenski paralelni korpus, Jezikovne tehnologije / Language Technologies, Ljubljana, 70-74. Tadić, M. (2001): Procedures in Building the Croatian-English Parallel Corpus, in: International Journal of Corpus Linguistics, 107-123. Slawische Korpuslinguistik

Literatura (Literaturverzeichnis) Tadić, M., Šojat, K. (2002): Identifikacija prijevodnih ekvivalenata u hrvatsko-engleskom paralelnom korpusu, in: Filologija 38-39; 247-262. Tadić, M. et al. (2004): Making Monolingual Corpora Comparable: a Case Study of Bulgarian and Croatian, in: Zbornik, 4; 1187-1190. Internet: http://www.hnk.ffzg.hr/ http://www.hnk.ffzg.hr/mt/ http://riznica.ihjj.hr/ http://www-gewi.kfunigraz.ac.at/gralis/ Slawische Korpuslinguistik