Statistische Methoden in der Hochenergiephysik big background s m a l l s i g n a l s v e r s u s Statistische Methoden in der Hochenergiephysik Sebastian Naumann 5. Februar 2005
S. Naumann - Statistische Methoden in der HEP Übersicht Allgemeines Root Einfache Schnitte Likelihood-Methode Neuronale Netze Range-Searching 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Allgemeines Statistik: mathematische Disziplin, die sich mit der Analyse von Daten und der Überprüfung von Hypothesen mit den Mitteln der Wahrscheinlich- keitsrechnung beschäftig. Die ersten statistischen Methoden wurden im Zusammenhang mit Glücksspielen entwickelt (Huygens, Bernoulli, Laplace, Pascal). 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Allgemeines Theorie Hypothesen Modelle Statistik PDF‘s Messergebnisse Monte Carlo Beobach- tungen Experiment 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Allgemeines Besondere Anforderungen an statistische Methoden in der Hochenergiephysik: hohe Ereignisraten kleine Verzweigungsverhältnisse Effizienz bzgl. Schnelligkeit, Datenvolumen und korrekter Signalklassifikation 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Allgemeines Beispiel: Messung in zwei Variablen Experiment: Theorie: Aufgabe: Trenne Signal- von Untergrund-Ereignissen S B 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Allgemeines Signal-Effizienz: Signal-Reinheit: „Signal-over-noise“: 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Root ist ein „Framework“ für C++ wird seit 1994 entwickelt, federführend am CERN wird an allen großen Einrichtungen der Kern- und Teilchenphysik genutzt, zunehmend auch in anderen Bereichen (Medizin, Wirtschaft) 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Root Befehlszeilen- Interpreter und Skript- Prozessor Templates für graphische Benutzer- oberflächen Tools für I/O, Histogramme, Fitting... 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Einfache Schnitte 3 1 1 3 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Einfache Schnitte 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Likelihood-Methode Idee: schneide nicht direkt auf den einzelnen Variablen xi sondern auf einer Diskriminante Die Diskriminante bildet den Vektor (x1,...,xn) auf einen Skalar ab und ermöglicht die Trennung von Signal und Untergrund Verwende dazu Wahrscheinlichkeitsverteilungen (z.B. aus Monte Carlo): Normierung: 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Likelihood-Methode Wahrscheinlichkeit, dass ein gemessener Wert xi aus der Klasse j{s,b} stammt: Likelihood-Funktion: 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Likelihood-Methode Signal-Likelihood für das zweidimensionale Beispiel: 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Likelihood-Methode Background-Likelihood für das zweidimensionale Beispiel: 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Likelihood-Methode 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Likelihood-Methode Klassische Schnitte Vergleich: Likelihood-Methode 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Neuronale Netze Nervenzelle: Modellneuron: Leistungsmerkmale neuronaler Netwerke: Parallelität, Fehlertoleranz, Assoziation, Abstraktion, Mustererkennung, Lernfähigkeit... 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Neuronale Netze Mathematische Beschreibung des Modellneurons: Eingabevektor: Gewichtsvektor: ωi>0 exzitatorische Synapse (verstärkende Erregung) ωi<0 inhibitorische Synapse (hemmende Erregung) Schwelle: Aktivierung: Transferfunktion: (z.B. Heavyside-Stufenfkt.) Ausgabewert/Aktivität: 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Neuronale Netze Klassifikation nach Netz-Topologie Beispiel: das Feedforward-Netz Theorem von Kolmogorov: Sofern die Zahl der Knoten (Neuronen) unbegrenzt ist, genügt schon eine versteckte Schicht, um beliebige stetige Funktionen n m zu realisieren Mehrschicht-Perzeptron Gewichtsmatrix 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Neuronale Netze Training (überwachtes Lernen): Optimierung der Gewichte des Netzes auf Grundlage von Beispielpaaren von Eingabe- und gewünschten Ausgabevektoren (Targetvektoren) Die Startwerte für die Gewichte werden häufig randomisiert Die Trainingsdaten (Trainingsmuster) stammen z.B. aus Monte Carlo-Simulationen Nach erfolgreichem Training (bekannte Gewichte) kann ein neuronales Netz sogar in die Hardware implementiert werden ( Geschwindigkeit). 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Neuronale Netze Ein Feedforward-Netz mit 1 versteckten Schicht und einem Ausgabeknoten kann 2 Klassen separieren. Zweidimensionales XOR-Problem: Eingabeschicht: nicht linear separierbar Ausgabeschicht: linear separierbar 05.02.2005 S. Naumann - Statistische Methoden in der HEP
Range-Searching Die Idee der PDE-RS-Methode: „Probability Density Estimation based on Range-Searching“ Zähle in der Nachbarschaft des zu klassifizierenden Events die Signal- und Untergrund-Ereignisse aus einer Monte Carlo-Simulation Durchsuche dabei ein kleines Volumen im n-dimensionalen Phasenraum: Berechne die Diskrimante: 05.02.2005 S. Naumann - Statistische Methoden in der HEP
Range-Searching Der PDE-RS-Algorithmus: Die Events aus der Monte Carlo-Simulation werden in je einem n-dimensionalen Tree für Signal und Background abgelegt... 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Range-Searching Beispiel 1: background rejection: 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Range-Searching Beispiel 2: 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Range-Searching Vergleich: Neuronale Netze Training des Netzwerks erforderlich Hardware-Implementierung möglich PDE-RS Großer Arbeitsspeicher erforderlich Transparente Methode (Fehlerabschätzung) Die Ergebnisse sind (je nach Fall) für beide Methoden von vergleichbarer Qualität. 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Zusammenfassung Die Hochenergiephysik stellt hohe Anforderungen an statistische Methoden Eine wichtige Aufgabe ist die Klassifizierung von Messwerten in Signal und Untergrund Eine bessere Möglichkeit als einfache Schnitte bietet die Likelihood-Diskriminante Insbesondere bei höher-dimensionalen Problemen sind leistungsfähige Methoden neuronale Netze sowie die PDE-RS-Technik 05.02.2005 S. Naumann - Statistische Methoden in der HEP
S. Naumann - Statistische Methoden in der HEP Quellen V. Blobel, E. Lohrmann: Statistische und numerische Methoden der Datenanalyse. Stuttgart, 1998 G. Cowan: Statistical Data Analysis. Oxford, 1998 S. Udluft: Untersuchungen zu Neuronalen Netzen als Vertextrigger im H1-Experiment bei HERA. München, 1996 T. Carli, B. Koblitz: A Multi-variate Discrimination Technique Based on Range-Searching. In: NIM A (501), 2003 http://root.cern.ch 05.02.2005 S. Naumann - Statistische Methoden in der HEP