Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Dominik Schmidt Geändert vor über 8 Jahren
1
Twoing & CHAID VON JOHANNES KREMER UND THOMAS HETZ
2
Einführung
3
Twoing Split 1 Grundgesamtheit Mutterknoten Tochterknoten
4
CHAID ( Ch i-squared A utomatic I nteraction D etector) Grundprinzip Für jede Kategorie (z.B. Farbe, Alter etc.) wird ermittelt, welche Ausprägungen (z.B. rot, blau, gelb) sich mit Minimalen Informationsverlust zusammenfassen lassen. Festlegung einer p-value Grenze Kennzahl für die „Güte“ der Wahl einer Kategorie nach welcher verzweigt wird p-value Stärken des Verfahrens Geeignet auch für nicht metrische Kategorien Geringe Wahrscheinlichkeit von Overfitting aufgrund der p-value Grenze
5
CHAID ( Ch i-squared A utomatic I nteraction D etector) Grundprinzip Für jede Kategorie (z.B. Farbe, Alter etc.) wird ermittelt, welche Ausprägungen (z.B. rot, blau, gelb) sich mit Minimalen Informationsverlust zusammenfassen lassen. Festlegung einer p-value Grenze Hohe Abhängigkeit, hoher Chi² Wert, kleiner p-value GutSchlechtΣ Rot105 15 Gelb123 15 Grün1020 30 Orange822 30 Σ405090 GutSchlechtΣ Rot/Gelb228 30 Grün/ Orange 1842 60 Σ405090
6
CHAID ( Ch i-squared A utomatic I nteraction D etector) Grundprinzip Für jede Kategorie (z.B. Farbe, Alter etc.) wird ermittelt, welche Ausprägungen (z.B. rot, blau, gelb) sich mit Minimalen Informationsverlust zusammenfassen lassen. Festlegung einer p-value Grenze Kennzahl für die „Güte“ der Wahl einer Kategorie nach welcher verzweigt wird p-value Vergleich der p-Values: bei welcher Kategorie ist er am kleinsten? Mutterknoten Rot/Gelb Grün/Orange Mutterknoten groß/mittelgroßklein Mutterknoten altjung vs.
7
CHAID ( Ch i-squared A utomatic I nteraction D etector) Grundprinzip Für jede Kategorie (z.B. Farbe, Alter etc.) wird ermittelt, welche Ausprägungen (z.B. rot, blau, gelb) sich mit Minimalen Informationsverlust zusammenfassen lassen. Festlegung einer p-value Grenze Kennzahl für die „Güte“ der Wahl einer Kategorie nach welcher verzweigt wird p-value Stärken des Verfahrens Geeignet auch für nicht metrische Kategorien Geringe Wahrscheinlichkeit von Overfitting aufgrund der p-value Grenze
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.