Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Data Analytics(1) M.Vlachos IBM Research – Zurich, Switzerland How Difficult is a Foreign-Language Document?

Ähnliche Präsentationen


Präsentation zum Thema: "Data Analytics(1) M.Vlachos IBM Research – Zurich, Switzerland How Difficult is a Foreign-Language Document?"—  Präsentation transkript:

1 Data Analytics(1) M.Vlachos IBM Research – Zurich, Switzerland How Difficult is a Foreign-Language Document?

2 Data Analytics(2) Our Goal Provide: –semantic sorting operator –for foreign documents (with respect to the reader native language) –based on their perceived comprehensibility Documents/Books on a topic Easy < > Difficult

3 Data Analytics(3) why is it useful ? (1/2) E-Bookstores: Recommendations based on users language level

4 Data Analytics(4) why is it useful ? (1/2) E-Bookstores: Recommendations based on users language level Easy Difficult ><

5 Data Analytics(5) Web search/personalization: A lot of content overlap on the internet. Provide only a subset to the user, based on both: –Relevance –Document difficulty/comprehensibility why is it useful ? (2/2) Which documents should I read that better correspond to my understanding of the German language?

6 Data Analytics(6) Background - Readability Manuals / Army Documents

7 Data Analytics(7) Background - Readability Zipfs Law Zipf's law states that given some corpus of natural language utterances, the frequency of any word is inversely proportional to its rank in the frequency table.

8 Data Analytics(8) Background - Readability Flesch Reading Ease year old year old 0-30 University student Microsoft Word

9 Data Analytics(9) Readability 65 Readability 52

10 Data Analytics(10) what makes the new problem challenging/interesting?

11 Data Analytics(11) Cognates Many words in different languages exhibit visual and semantic affinity –Derived words –Loan words Ein Experte kam um die Maschine zu reparieren An expert came to repair the machine.

12 Data Analytics(12)

13 Data Analytics(13) Compound Words

14 Data Analytics(14) Compound Words German, Dutch, Swedish, etc are compound languages. Complex words can be built from simpler ones Intuition: Even if a word cannot be found in a Dictionary (or has low frequency), if it consists of easy building blocks then it is also easy to understand

15 Data Analytics(15) how to find word frequency? Better: Use web search engines! Popularity of a word: Very large text corpora (eg project gutenberg)

16 Data Analytics(16) Putting it all together An easy text contains: –Simple syntactical structure (e.g. no deeply connected sentences) –Easy words: frequently encountered – (eg. web frequency) similar to my native language – cognates (finanzkrise = finance crisis) Combine these measures to deduce overall difficulty

17 Data Analytics(17) Estimating Cognativity

18 Data Analytics(18) Estimating Cognativity Compute how easy it is to transform one word into another… j -> y (ja -> yes) k -> c (Architekt -> architect) z -> c (sozial -> social) Common Letter Transformations:

19 Data Analytics(19)

20 Data Analytics(20)

21 Data Analytics(21) Assembling everything

22 Data Analytics(22)

23 Data Analytics(23) some experiments

24 Data Analytics(24) Results – User Study Ich habe mit dreissig Jahren angefangen, Deutsch zu lernen. Das war ziemlich spät; ich glaube, wenn man jünger ist, ist es viel leichter, eine Fremdsprache zu lernen. Aber ich wollte es trotzdem versuchen. Mich interessierte die Deutsche Kultur, und einige Mitarbeiter der Firma hatten die Aussicht, einmal in Deutschland zu arbeiten. Also lernte ich Deutsch. über mangelnde Beschäftigung während der Weihnachtsfeiertage konnte sich die städtische Berufsfeuerwehr dieses Jahr wahrhaftig night beklagen. Mehr als dreihundert Einsätze im gesamten Münchner Stadtgebiet hielten Oberbranddirektor Wanninger und seine Mitarbeiter rund um die Uhr in Atem. In den meisten Fällen konnten sie das Feuer schnell unter Kontrolle bringen. Zwei Einfamilienhäuser und mehrere Etagenwohnungen brannten jedoch vollständig aus. Das sogenannte Vorgesicht ist ein bis zum Schauen oder mindestens deutlichem Hören gesteigertes Ahnungsvermögen und hier in Westfalen so gewöhnlich, dass man überall doch tatsächlich damit Behaftete trifft und im Grunde fast kein Eingeborener sich gänzlich davon freimachen dürfte.Seine Gabe überkommt ihn zu jeder Tageszeit, am häufigsten jedoch in Mondnächten, wo er plötzlich erwacht und von fieberhafter Unruhe ins Freie oder ans Fenster getrieben wird. Er hört das Geschrei der Verunglückten und an Tür oder Fensterläden das Anklopfen desjenigen, der ihn oder seinen Nachfolger zur Hilfe rufen wird. easy medium difficult

25 Data Analytics(25) Comparing Readability vs Our Method

26 Data Analytics(26) Comprehensibility consistently outperforms readability measures 300 Essays from: CourseInfo.com GCSE (high-school) A-level (pre-college preparation) University Level

27 Data Analytics(27)

28 Data Analytics(28) LingoRANK A web tool for keyword-based news retrieval in German language Semantic ranking of document based on comprehensibility

29 Data Analytics(29) In summary Dynamic Corpus for Term Frequency –Use search engines Difficulty Depends on the Userss Native Language –Cognate Identification Word Decompounding –Building blocks simple to understand? -> Compound word is simple –Finanzminister (= Finance Minister) Finanzminister We can mesh relevance and comprehensibility using a skyline ordering approach Customizing Search Results for Non-Native Speakers (2012) T. Lappas, M. Vlachos: International Conference on Information and Knowledge Management (CIKM)


Herunterladen ppt "Data Analytics(1) M.Vlachos IBM Research – Zurich, Switzerland How Difficult is a Foreign-Language Document?"

Ähnliche Präsentationen


Google-Anzeigen