Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Pflichtenheft wxOCR Matthias Jauernig Michael Lahl Verteidigung.

Ähnliche Präsentationen


Präsentation zum Thema: "Pflichtenheft wxOCR Matthias Jauernig Michael Lahl Verteidigung."—  Präsentation transkript:

1 Pflichtenheft wxOCR Matthias Jauernig Michael Lahl Verteidigung

2 1. Zielbestimmung Texterkennung mithilfe eines Künstlichen Neuronalen Netzes Texterkennung mithilfe eines Künstlichen Neuronalen Netzes Erkennung von gedrucktem Text Erkennung von gedrucktem Text text-enthaltendes Bild wird verarbeitet und vom Programm in Text umgewandelt text-enthaltendes Bild wird verarbeitet und vom Programm in Text umgewandelt Beispiel: Beispiel: BildText Im heutigen Seminar verteidigen wir unser Pflichtenheft – hoffentlich erfolgreich… Überblick

3 1. Zielbestimmung Normales Feed-Forward-Netz, welches mit Backpropagation auf die aufzunehmenden Zeichensätze angelernt wird. Normales Feed-Forward-Netz, welches mit Backpropagation auf die aufzunehmenden Zeichensätze angelernt wird. Bekommt als Input ein Zeichen in Form eines float-Vektors, liefert als Output einen Erkennungsvektor für die jeweiligen Buchstaben. Bekommt als Input ein Zeichen in Form eines float-Vektors, liefert als Output einen Erkennungsvektor für die jeweiligen Buchstaben. Neuronales Netz

4 1. Zielbestimmung Veranschaulichung: Veranschaulichung: Neuronales Netz Muster als float-Vektor mit skalierten Graustufen-Werten … … ABCDEFGHABCDEFGH Neuronales Netz … 0,94 0,08 0,04 0,05 Erkennungsgrad der einzelnen Buchstaben

5 1. Zielbestimmung 2 Teilprogramme: 2 Teilprogramme: 1.wxOCRnetTrainer: Entwickler-Tool zum Anlernen des Neuronalen Netzes 2.wxOCR (main): Benutzerprogramm zur Durchführung der Texterkennung Effektivität der Erkennung zu großem Teil auch von Anlernbarkeit von Zeichensätzen abhängig Fokus auf Entwicklung des netTrainers Effektivität der Erkennung zu großem Teil auch von Anlernbarkeit von Zeichensätzen abhängig Fokus auf Entwicklung des netTrainers Hauptprogramm (wxOCR main) muss hauptsächlich über gute Algorithmen zur Bildverarbeitung verfügen Hauptprogramm (wxOCR main) muss hauptsächlich über gute Algorithmen zur Bildverarbeitung verfügen Aufteilung in Teilprogramme

6 Veranschaulichung: Veranschaulichung: ZeichensatzNeuronales NetzBildTextdatei load save load save wxOCR net TrainerwxOCR (main) 1. Zielbestimmung Aufteilung in Teilprogramme Folie 14 Siehe auch Produktdaten:

7 Kerning: Unterschneiden Kerning: Unterschneiden 1. Zielbestimmung Probleme bei der Erkennung Pixel des nächsten Buchstaben reichen in den vorigen hinein, daher ist z.B. Abtrennen von Buchstaben durch Finden einer leeren Spalte nicht möglich Ligaturen: Ligaturen: 2 oder mehr Buchstaben verschmelzen miteinander, sodass sie nicht mehr durch einen Abstand voneinander getrennt werden

8 Implementation der beiden Teilprogramme Implementation der beiden Teilprogramme Erkennung gedruckten Textes aus einem vom Benutzer gewählten Bild Erkennung gedruckten Textes aus einem vom Benutzer gewählten Bild Erkannter Text kann nachträglich bearbeitet und gespeichert werden Erkannter Text kann nachträglich bearbeitet und gespeichert werden Zuverlässige Erkennung von Arial 14pt… Zuverlässige Erkennung von Arial 14pt… Plattformunabhängige Implementierung als Open Source Plattformunabhängige Implementierung als Open Source 1. Zielbestimmung Musskriterien

9 Erkennung unterschiedlicher Schriften und Schriftgrößen Erkennung unterschiedlicher Schriften und Schriftgrößen Bedingte Behandlung von Kerning Bedingte Behandlung von Kerning Erkennung von Text aus schiefen Textzeilen Erkennung von Text aus schiefen Textzeilen Behandlung von Nicht-Textelementen (Bilder, Grafikelemente, …) Behandlung von Nicht-Textelementen (Bilder, Grafikelemente, …) 1. Zielbestimmung Wunschkriterien

10 Keine Erkennung von Handschrift sowie stark von Arial abweichenden Schriften Keine Erkennung von Handschrift sowie stark von Arial abweichenden Schriften Keine Schrift mit Ligaturen Keine Schrift mit Ligaturen Keine Schaffung eines sehr ausgereiften Systems zur Schrifterkennung Keine Schaffung eines sehr ausgereiften Systems zur Schrifterkennung 1. Zielbestimmung Abgrenzungskriterien

11 1.Für Endbenutzer von z.B. Scannersoftware zur Erkennung von Text aus einem gescannten Bild 2.Für Software-Entwickler oder Informatik-Studenten, die Teile des Quelltextes verwenden bzw. daraus lernen wollen 2. Produkteinsatz

12 3. Produktübersicht Use-Case-Diagramm Nur 2 Use Cases, der Großteil der Arbeit findet unter der Haube statt Nur 2 Use Cases, der Großteil der Arbeit findet unter der Haube statt

13 4. Produktfunktionen Geschäftsprozesse 1.Netz trainieren: Entwickler-Geschäftsprozess, bei dem das Neuronale Netz auf Zeichensätze antrainiert wird 2.Text erkennen: Benutzer-Geschäftsprozess, bei dem Text aus einem Bild erkannt wird unter Verwendung des antrainierten Neuronalen Netzes

14 Neuronales Netz 1 Datei Neuronales Netz 1 Datei Zeichensätze mehrere Dateien Zeichensätze mehrere Dateien 5. Produktdaten Dauerhaft zu speichern Folie 6 Siehe auch:

15 Hauptbestandteile: Hauptbestandteile: 1. Bilddaten und Matrizen erkannter Muster 2. Daten des Neuronalen Netzes 5. Produktdaten Zur Laufzeit anfallend

16 Anwender vom zeitintensiven Prozess des Netz-Anlernens befreien durch Aufteilung in die 2 Teilprogramme Anwender vom zeitintensiven Prozess des Netz-Anlernens befreien durch Aufteilung in die 2 Teilprogramme Texterkennung sollte bei A4-Seite nicht länger als 10s dauern (im Vorfeld nur bedingt abschätzbar) Texterkennung sollte bei A4-Seite nicht länger als 10s dauern (im Vorfeld nur bedingt abschätzbar) 6. Produktleistungen

17 Haupt-Augenmerk zum einen auf der Benutzbarkeit, so dass es auch von einem Laien benutzt werden kann Haupt-Augenmerk zum einen auf der Benutzbarkeit, so dass es auch von einem Laien benutzt werden kann Zum anderen Schwerpunkt auf Änderbarkeit und Übertragbarkeit, vor allem in Hinblick auf Plattformunabhängigkeit und Open Source Zum anderen Schwerpunkt auf Änderbarkeit und Übertragbarkeit, vor allem in Hinblick auf Plattformunabhängigkeit und Open Source 7. Qualitätsanforderungen

18 8. Benutzungsoberfläche Benutzungsoberfläche mit Mausbedienung Benutzungsoberfläche mit Mausbedienung wxOCR net Trainer Prototyp unter Linux mit KDE 3.3 wxOCR (main) Prototyp unter Windows

19 C++ Open-Source-Bibliothek zur Erstellung plattfomunabhängiger GUIs C++ Open-Source-Bibliothek zur Erstellung plattfomunabhängiger GUIs Genauer: Wrapper, der Funktionsaufrufe je nach OS in verschiedene System Calls umwandelt Genauer: Wrapper, der Funktionsaufrufe je nach OS in verschiedene System Calls umwandelt Mächtiges Werkzeug zur plattformunabhängigen Programmierung Mächtiges Werkzeug zur plattformunabhängigen Programmierung Webseite: Webseite: 9. Nichtfunktionale Anforderungen Grafikbibliothek

20 Noch Fragen? ?? ? ? ? ? ? ? ? ??


Herunterladen ppt "Pflichtenheft wxOCR Matthias Jauernig Michael Lahl Verteidigung."

Ähnliche Präsentationen


Google-Anzeigen