Twoing & CHAID VON JOHANNES KREMER UND THOMAS HETZ
Einführung
Twoing Split 1 Grundgesamtheit Mutterknoten Tochterknoten
CHAID ( Ch i-squared A utomatic I nteraction D etector) Grundprinzip Für jede Kategorie (z.B. Farbe, Alter etc.) wird ermittelt, welche Ausprägungen (z.B. rot, blau, gelb) sich mit Minimalen Informationsverlust zusammenfassen lassen. Festlegung einer p-value Grenze Kennzahl für die „Güte“ der Wahl einer Kategorie nach welcher verzweigt wird p-value Stärken des Verfahrens Geeignet auch für nicht metrische Kategorien Geringe Wahrscheinlichkeit von Overfitting aufgrund der p-value Grenze
CHAID ( Ch i-squared A utomatic I nteraction D etector) Grundprinzip Für jede Kategorie (z.B. Farbe, Alter etc.) wird ermittelt, welche Ausprägungen (z.B. rot, blau, gelb) sich mit Minimalen Informationsverlust zusammenfassen lassen. Festlegung einer p-value Grenze Hohe Abhängigkeit, hoher Chi² Wert, kleiner p-value GutSchlechtΣ Rot Gelb Grün Orange Σ GutSchlechtΣ Rot/Gelb Grün/ Orange Σ405090
CHAID ( Ch i-squared A utomatic I nteraction D etector) Grundprinzip Für jede Kategorie (z.B. Farbe, Alter etc.) wird ermittelt, welche Ausprägungen (z.B. rot, blau, gelb) sich mit Minimalen Informationsverlust zusammenfassen lassen. Festlegung einer p-value Grenze Kennzahl für die „Güte“ der Wahl einer Kategorie nach welcher verzweigt wird p-value Vergleich der p-Values: bei welcher Kategorie ist er am kleinsten? Mutterknoten Rot/Gelb Grün/Orange Mutterknoten groß/mittelgroßklein Mutterknoten altjung vs.
CHAID ( Ch i-squared A utomatic I nteraction D etector) Grundprinzip Für jede Kategorie (z.B. Farbe, Alter etc.) wird ermittelt, welche Ausprägungen (z.B. rot, blau, gelb) sich mit Minimalen Informationsverlust zusammenfassen lassen. Festlegung einer p-value Grenze Kennzahl für die „Güte“ der Wahl einer Kategorie nach welcher verzweigt wird p-value Stärken des Verfahrens Geeignet auch für nicht metrische Kategorien Geringe Wahrscheinlichkeit von Overfitting aufgrund der p-value Grenze