Drawing Drawing











Digitale Intelligenz

- Emergenzbasierte Statistik -




Zentrum für Emergenzbasierte Statistik
http://zes.dhbw-vs.de

André Kuck

kuck@dhbw-vs.de

Inhalt

  1. Warum ist eine neue statistische Methodik überhaupt notwendig?

  2. Grundbegriffe der emergenzbasierten Statistik

  3. Anwendungsbeispiele zentraler Vorteile emergenzbasierter Statistik im Finanzsektor
    • 3.1. KnowledgeNets und Erklärbarkeit algorithmischer Prognosen und Entscheidungen
    • 3.2. Identifikation unprofitabler Teilportfolien im Kreditgeschäft
    • 3.3. KnowledgeWarehouses zur Stabilitätskontrolle des Kreditprozesses

1. Warum ist eine neue statistische Methodik überhaupt notwendig?

  • Unterschiedliche statistische und ML-Verfahren erzeugen aus dem gleichen Datensatz unterschiedliche Modelle für dieselbe Größe. Es ist nicht eindeutig überprüfbar, welches Modell und welche Prognose "richtig" ist. Es lässt sich kein widerspruchsfreies "Wissen" generieren.

Beispiel: EK-Anforderungen für die Commerzbank-Aktie bei Variation des internen Modells

Drawing
  • Derzeit verwendete Formen stochastischer Tests oder der Relevanzanalyse basieren meist auf sehr fragwürdigen Metriken und sind nur schwer interpretierbar.

Beispiele für Erklärungen:

Stochastische Interpretation eines linearen Regressionsmodells:

Weil (unter der Annahme der Normalverteilung der Störvariablen bei genau der geschätzten Varianz der Störvariablen und der Existenz eines "richtigen" linearen Modells) die Wahrscheinlichkeit, dass ein "richtiger" Koeffozient von 0 in der Grundgesamtheit einen größeren als den beobachteten Regressionskoeffizienten hervorbringt, kleiner als 1% ist, wird die Variable bei der Einschätzung der Ausfallwahrscheinlichkeit berücksichtigt (Der Koeffizient ist signifkant größer als 0).

LIME (lokale interpretierbare, modelagnostische Erklärung)

In der lokalen Umgebung des betrachteten Wertes haben die Variablen $X$ mit der jeweiligen Merkmalsausprägung $x_i$ in einer erkärbaren Approximation des betrachteten Modells nach einer Wichtigkeitsmetrik die folgenden Wichtigkeiten:

  • Die für die praktische Verwendung so wichtige Ursachenanalyse ist nur sehr eingeschränkt möglich.

  • Sie erzeugen Modelle, die nur als Ganzes zur Prognose verwendbar sind. Eine Weiterverwendung von "Wissensbausteinen" ist nicht vorgesehen.

2. Grundbegriffe der emergenzbasierten Statistik

  • Muster sind definiert als Relationen zwischen Funktionen von Sequenzen von Messungen
  • Ein emergentes Gesetz ist eine bisher wahre Allaussage darüber, dass ein "Muster" in Daten bisher immer beobachtet wurde.

Beispiel für ein einfaches emergentes Gesetze über Behandlungskosten:

In [6]:
aktlaw=LLaws(data,'df.costs',x='df.costs',bed_y='df.smoker==1',bed_x='df.smoker==0')
aktlaw.PlotLaws('ct')
display(aktlaw.DescribeLaw()[['Target','Bench','Bed_y','R','Bed_x','TU_ct','Div(TU_ct)','Min(TU_ct)','Max(TU_ct)']])
Target Bench Bed_y R Bed_x TU_ct Div(TU_ct) Min(TU_ct) Max(TU_ct)
0 df.costs df.costs df.smoker==1 > df.smoker==0 32 40.8125 1265.458363 45148.888383
  • In jeder Sequenz von $32$ Versicherten waren die durchschnittlichen Kosten der Raucher größer als die der Nichtraucher.

  • Dieses Muster wurde in $DiV=40,825$ ($+1$) nicht überlappenden Fenstern der Länge $T=32$ beobachtet.

Diese Aussagen sind annahmefrei.

  • Wir prognostizieren, dass auch in der nächsten Sequenz von $T=32$ Versicherten die durchschnittlichen Kosten der Raucher höher sein werden als die der Nichtraucher.

Diese Prognose ist nach 32 weiteren Beobachtungen exakt überprüfbar.

KnowledgeBase und KnowledgeNets

Emergente Gesetze sind objektiv, sie machen objektiv überprüfbare Prognosen, sie sind eindeutig interpretierbar und Modelle bestehen aus Wissensbausteinen, die vielseitig verwendbar sind.

Was bisher immer so war kann sich nicht widersprechen. Emergente Gesetze erlauben die Generierung von widerspruchsfreiem "Wissen" darüber was bisher immer war. (KnowledgeBases)

Unsere Algorithmen generieren SQL-Datenbanken mit unterschiedlichen Arten von emergenten Gesetzen, die die Vorteile unserer Methodik nutzbar machen.

Use Cases:

  • Analyse von Produktionsfehlern
  • Analyse von Maschinenstillstandszeiten
  • Call-Center-Planung
  • Personalplanung
  • Absatz- und Umsatzprognose
  • Makroökonomische Modelle und Prognosen
KnowledgeNets in einer KnowledgeBase


Drawing

KnowledgeNet:
Menge von im Bezug auf die durchschnittliche Kosten bisher immer geordneten und im Ergebnis zu disjunkten Mengen führenden Auswahlregeln (Pairwise Net).

Ein emergentes Gesetz aus diesem KnowledgeNet:

Versicherte, die

  • nicht weniger als 4007 Schritte pro Tag machen (~(steps<=4007.0)) und
  • einen bmi von mehr als 30,5 hatten (bmi>30.5) und
  • und nicht Nichtraucher waren (~(smoker==0))

verursachten in jeder Sequenz von T=4 Versicherten im Durchschnitt höhere Kosten als die Versicherten, die mit allen anderen Auswahlregeln im Netz ausgewählt werden.

Die Vorhersage, das dies auch in der nächsten Gruppe von 4 Beschäftigten wieder so sein wird, wurde in der Evaluierungsstichprobe bestätigt (Mean (oos) = 41082,087>37467,376).

Metagesetze

Die Prognose, dass ein Muster sich auch beim nächsten Mal wiederholen wird, ist eindeutig überprüfbar.

Man kann also in Teilsequenzen von Daten nach Gesetzen suchen und dann einfach zählen, wie viele Gesetze man gefunden hat und wie oft die Prognose, dass das Muster sich wiederholt, richtig war.

Für unterschiedliche Probleme ergeben sich die folgenden Zeitpfade der empirisch beobachteten Raten richtiger Prognosen (Rel) in Abhängigkeit von DiV: