Induktion von Beobachtungen auf ein allgemeines Gesetz, das zur Prognose verwendet werden kann:
Bisher sind alle Raben, die wir beobachtet haben, schwarz.
Probleme der induktiven Vorgehensweise:
Aus diesen Gründen verwendet man heute meist Wahrscheinlichkeitsaussagen:
Die Wahrscheinlichkeit, dass es morgen regnet, beträgt 50%.
Probleme der wahrscheinlichkeitsbasierten Vorgehensweise:
→ Wir behaupten zurzeit, alles mit "Wahrscheinlichkeit" zu wissen.
→ Leider können diese Behauptungen nur im Unendlichen und somit gar nicht objektiv überprüft werden!
Beispiel für ein emergentes Gesetz: Heimvorteil beim Fußball
Nach jeder Sequenz von T=256 Spielen war die Rate gewonnener Spiele der Heimmannschaft größer als die der Auswärtsmannschaft. Die Wahrheit dieser Aussage ist bis jetzt DiV=55,63 mal bestätigt.
data,_,_=loaddata('soccer',True,1)
aktlaw=LLaws(data,'df.gewonnen_h',x='df.gewonnen_a',bed_y='df.C',bed_x='df.C')
aktlaw.PlotLaws('ct')
display(aktlaw.DescribeLaw()[['Target','Bench','Bed_y','R','Bed_x','TU_ct','Div(TU_ct)','Min(TU_ct)','Max(TU_ct)']])
Beispiel für T-Dominante Entscheidungsregeln: Peer-to-Peer Kredite der Plattform "LendingClub"
Kreditportfolioauswahlregeln mit nach jeder Sequenz von 512 Krediten unterschiedlicher Rendite.
Man erkennt, dass es Auswahlregeln gibt, die nach jeder Sequenz von T=512 Krediten immer eine höhere Rendite aufwiesen.
Die Eigenschaft einer Handlungsheuristik, nach jeder Sequenz von T Entscheidungen nach einer Bewertungsmetrik (hier Rendite) zu einem besseren Ergebnisse zu führen, nennen wir T-Dominanz.
Eine Auswahl von Portfoliokonstruktionsstrategien auf Basis von Sharpe-Ratio oder RAROC würde zur Wahl der von allen anderen dominierten Strategie führen.
res=knowledge.evalnet(3426,'y_rend',select_obj="minT",MinT=4000)
display(res)
print(res.obj.iloc[2])
print()
print(res.obj.iloc[0])
Es bleibt die Frage, ob die bei obigem Beispiel zu beobachtende gute Performance von Prognosen mit emergenten Gesetzen ein systematisches Phänomen ist.
Kann man das Konstruktionsprinzip emergenter Gesetze auch auf die Prognosen mit emergenten Gesetzen anwenden?
Lerner suchen ab einem beliebigen Zeitpunkt nach Gesetzen über die relative mittlere Luftfeuchtigkeit in Washington DC.
Sie prognostizieren, dass die bis zum Zeitpunkt t in Fenstern der Größe T DiV-mal immer beobachtete Relation zwischen den mittleren Luftfeuchtigkeiten auch im Fenster t+T gilt.
Bei der Evaluierung der Prognosen ergeben sich die folgenden Zeitpfade der empirisch beobachteten Raten richtiger Prognosen (Rel) in Abhängigkeit von DiV:
knowledge=Knowledge_View("KnowledgeDB_Version_06_11_2017.db")
knowledge.plotrel("hum","0_3_C2b",3000,True,0)
Betrachtet man viele Prognoseprobleme, so kann man z. B. die folgenden emergenten Meta-Gesetze finden:
Wenn eine Aussage A DiV-mal bestätigt wurde, dann gehört die Prognose, dass A beim nächsten Mal wieder auftreten wird, zu einer Kategorie von Prognosen, für die gilt:
In jeder Sequenz von Prognosen der Länge T>=TU war der Anteil wahrer Prognosen >=Rel.
knowledge.show_overview_MetaLaws_1(Rels=["0.6","0.7","0.8","0.9","0.99","0.999"])
Bisher waren in jeder Sequenz von 512 Prognosen mit 8192 mal bestätigten Gesetzen mindestens 99% richtig.
→ Die Prognose, dass der nächste Rabe schwarz sein wird, gehört zu einer Art von Prognosen, von denen nach jeder Sequenz von 512 Prognosen bisher immer mindestens 99% richtig waren.
Datensatz: Gebrauchtwagenangebote im Internet
price
)offer_period
)data.tail()
Nach unseren Erkenntnissen lassen sich Prognoseprobleme in identifizierbare Klassen unterteilen, die die Verwendung unterschiedlicher Prognoseverfahren notwendig machen:
Für den Datensatz mit Gebrauchtwagenangeboten ergibt sich folgender Zeitverlauf der Reliabilities zur Vorhersage der Preise (in Fenstern von T=4000 Zeitpunkten):
--> Prognoseproblem mit tendenziell naturwissenschaftlichem Charakter - Emergente Standardmethoden verwendbar
Stochastische Verfahren beruhen immer auf "Annahmen". Daraus folgt, dass man immer in der Lage ist, mit unterschiedlichen Modellen für die gleiche zukünftige Beobachtung unterschiedliche - üblicherweise sich widersprechende - Prognosen zu machen.
In der Welt der Stochastik wird die Falsifikation der Modelle (die normalerweise alle für die nächste Beobachtung falsche Prognosen gemacht haben) nur dadurch verhindert, dass man sagt, nur z.B. der "Erwartungswert" (der Mittelwert nach unendlich vielen Beobachtungen) muss richtig sein.
Dies hat zur Konsequenz, dass so etwas wie "objektives empirisches stochastisches Wissen" nicht möglich ist. Viele konkurrierende Verfahren können nicht auf Basis objektiver Wahrheit ausgewählt werden und konkurrierende Verfahren machen (meist) sich widersprechende Vorhersagen.
Aufgrund dieser Eigenschaften lassen sich Emergente Gesetze strukturiert in einem KnowledgeWarehouse abspeichern. Alle auf dieser Basis gemachten Vorhersagen sind miteinander kompatibel.
Dies ist unserer Meinung nach einer der größten Vorteile emergenzbasierter Statistik.
Die derzeit in unserem KnowledgeWarehouse abgelegten Gesetze stammen von zwei unterschiedlichen Algorithmen:
Eine detailliertere Erklärung von KnowledgeWarehouses ist auf folgender Internetseite zu finden.
KnowledgeNets, Objekte und ihre Eigenschaften
price
) verlangt werden und die
sich innerhalb von 10 Tagen oder weniger (offer_period
) verkaufen.Die folgende Graphik zeigt einen kleinen Teil eines KnowledgeNets - dargestellt im KnowledgeWarehouse - für den Gebrauchtwagenpreis bei Internetangeboten.
Ein komplettes KnowledgeNet für den Gebrauchtwagenpreis und Verkaufsdauer lässt sich folgendermaßen darstellen.
Der oberste kleine rote Punkt in der oberen Graphikhälfte für den Gebrauchtwagenpreis (df.price
) ist der gerade gezeigte Eintrag im KnowledgeWarehouse.
Die in der umfangreicheren Übersicht dargestellten Objekte im KnowledgeWarehouse sind nach ihrem Mittelwert (mean
) in absteigender Reihenfolge sortiert.
Emergenzbasierte Modelle
In untenstehender Graphik ist ein kleiner Ausschnitt eines Modells zur Prognose des Angebotspreises bei Gebrauchtwagen dargestellt:
Anhand eines größerer Ausschnitts eines anderen Modells kann man erkennen, dass Modelle Sequenzen von Prognose-verbessernden Objekt-Heuristik-Kombinationen sind:
Obwohl die gerade gezeigten Vorteile emergenzbasierter Statistik unserer Einschätzung nach für ihre Praxisrelevanz entscheiden sind, wollen wir doch kurz die Ergebnisse von Modellen auf Basis emergenzbasierter Statistik (ELBS-Modell) mit den aktuell besten und populärsten Machine-Learning-Bibliotheken auf der Basis von Standard-Performance-Metriken vergleichen.
Für das obige Beispiel ergaben sich folgende Performance-Metriken eines ELBS-Modells im Vergleich mit Random-Forest (sklearn
), xgboost
und LightGBM
. (Bei der Anwendung aller ML-Verfahren werden optimale Hyperparameter mit einem Grid Search bestimmt.)
Error Metrics (out of sample) |
ELBS-Model | Random Forest (Grid Search) |
xgboost (Grid Search |
LightGBM (Grid Search) |
---|---|---|---|---|
Mean Absolute Percentage Error | 0.358 | 0.614 | 0.419 | 0.489 |
Mean Absolute Error | 1631.07 | 1973.53 | 1532.20 | 1842.86 |
Root Mean Squared Error | 20878.88 | 16963.02 | 14742.98 | 21652.99 |
Root Mean Squared Logarithmic Error | 0.415 | 0.562 | 0.450 | 0.514 |
Man erkennt, dass die auf Basis von Emergenzbasierter Statistik konstruierten Modelle (ELBS-Modelle) eine state-of-the-art Prognoseperformance erreichen, die der populärer Machine-Learning Bibliotheken zumindest vergleichbar ist.
Es sei an dieser Stelle aber noch einmal darauf hingewiesen, dass die oben vorgestellten und viele andere Anwendungsmöglichkeiten Emergenzbasierter Statistik - nach unserem Kenntnisstand - nicht mit den üblichen Machine-Learning Bibliotheken umsetzbar sind.
Kann man die Existenz einer Risikoprämie als empirisches Phänomen beobachten?
Sind Risiko-adjustierte Performancemaße wie Sharpe-Ratio oder Risk-Adjusted Return on Capital zur Portfoliokonstruktion empirisch geeignet?
Die stochastischen Methoden sind also subjektiv und Falsifizierungen auf Basis der Testtheorie sind vorläufig.
Emergente Methoden hingegen sind objektiv und führen zu endgültigen Falsifizierungen von Hypothesen.
Im Beispiel erfolgt eine Operationalisierung des Risikobegriffs über drei häufig verwendete Maße über unterschiedliche Schätzfenster (T1):
(1) Standardabweichung der Rendite eines Assets (std(T1))
(2) 1 % Quantil der Rendite (.quantile(0.01,T1))
(3) Das Beta mit dem gleichgewichteten Portfolio aller Aktie (_beta(T1)_)
Außerdem werden die folgenden Risiko-adjustierten Performance-Maße auf ihre Performance hin untersucht:
(1) Sharpe-Ratio (Mean(T1)/std(T1))
(2) RAROC (Mean(T1)/quantile(0.01,T1))
(3) Kelly's optimaler Hebel (Mean(T1)/Varianz(T1))
mit T1 in [2,3,4,8,16,32,64,128,256,512]
Empirische Grundlage sind die täglichen Kursdaten von 200 amerikanischen Aktien, die zumindest eine Historie von 4000 Handelstagen haben. (Datenquelle Kaggle, nur aktuell existierende Unternehmen daher Selection-Bias)
Beispiele für die Ergebnisfunktion der beschriebenen elementaren Auswahlstrategien:
logrend(df['USSTOCKS'_df.C_16_.std()_max_1_1']).shift(-1)
Wähle immer das Asset (aus Gruppe USSTOCKS
), das in den letzten 16 Handelstagen (C_16
) die höchste (_max_1_1
) Standardabweichung (.std()
) hatte und berechne die stetige Rendite des nächsten Tages (logrend().shift(-1)
).
oder
logrend(df['USSTOCKS'_df.C_128_sr_quantile_0.2_0.1']).shift(-1)
Konstruiere für jeden Handelstag ein gleichgewichtetes Portfolio aus Assets (aus Gruppe USSTOCKS
), die in den letzten 128 Handelstagen (C_128
) eine Sharpe-Ratio (_sr_
) hatten, die zwischen dem 0.1 und dem 0.2-Quantil (_quantile_0.2_0.1
), der nach dieser Sharpe-Ratio sortierten Assets, hatten und berechne die stetige Rendite dieses Portfolios für den nächsten Handelstag (logrend().shift(-1)
).
resultlist=show_results(df,Endo,Search='sr')
Übertragbarkeit bisheriger Performance:
Es gibt eine Lag-Länge T, für die gilt:
Zu jedem Zeitpunkt t ist die mittlere Rendite über T Handelstage einer Strategie Pf(Hoch,T1,t) höher als die einer Strategie Pf(Niedrig,T1,t).
Risikoprämie
Es gibt eine Lag-Länge T, für die gilt:
Zu jedem Zeitpunkt t ist die mittlere Rendite über T Handelstage einer Strategie Risiko(Hoch,T1,t) höher als die einer Strategie Risiko(Niedrig,T1,t)
Empirische Überprüfung für ein Strategiepaar:
Zum Beispiel werden hier die Ergebnisse der beiden extremen Strategien:
`logrend(df['USSTOCKS_3_sr_max_1_1']).shift(-1)` und
`logrend(df['USSTOCKS_3_sr_min_1_1']).shift(-1)`
miteinander verglichen. Man erkennt, dass in jeder Sequenz von 1024 Tagen die Durchschnittsrendite der nach dem SR-Kriterium (Sharpe-Ratio) "besseren" Strategie geringer war.
LLaws(df,"logrend(df['USSTOCKS_3_sr_max_1_1']).shift(-1)",x="logrend(df['USSTOCKS_3_sr_min_1_1']).shift(-1)",bed_y='df.C',bed_x='df.C').PlotLaws('ct')
Es war bisher immer so, dass die Durchschnittsrendite der Strategie "Wähle immer das Asset mit der niedrigsten Sharpe-Ratio der letzten 3 Handelstage" in Fenstern der Länge 1024 höher war als die der Strategie "Wähle immer das Asset mit der höchsten Sharpe-Ratio".
Dieses Gesetz ist bisher 5.05 mal bestätigt.
Die Prognose, dass ein DiV in [4...8]
mal bestätigtes Muster im nächsten 1024-Tage Fenster wieder auftritt, gehört zu einer Kategorie von Prognosen von denen nach Sequenzen von 26843456 Prognosen immer mindestens 70% richtig waren. (Reliability-Angabe 0.8 in obiger Grafik wird aus einer differenzierteren Klasse von Metagesetzen abgeleitet. Beide Angaben waren aber bisher immer richtig und widersprechen sich nicht)
Die Hypothese, dass immer eine Überlegenheit der nach dem SR-Kriterium besseren Assets in Fenstern kleiner als 6000 Messungen auftaucht ist für immer falsifiziert.
Zusammenfassung der Ergebnisse:
Betrachtet man nun systematisch alle Paare von Strategien, die nach dem selben Risiko-(Performance-)Maß verglichen werden können und sucht nach emergenten Gesetzen über die relative Performance der Strategien, so erhält man folgende Tabelle mit der Anzahl von Gesetzen, die die jeweiligen Hypothesen bestätigen oder in die Gegenrichtung weisen:
erg
Man erkennt, dass es tatsächlich z.B. für das Maß std
(Standardabweichung) alle gefundenen empirischen Gesetze (insgesamt 11 Gesetze) die Hypothese der Existenz einer Risikoprämie in T-Fenstern bestätigen. Für 139 Strategiepaare mit unterschiedlichem Risiko ist hingegen keine immer zu beobachtende Risikoprämie vorhanden.
Hingegen gibt es insgesamt 75 Gesetze, in denen die nach dem Performance-Kriterium sr
(Sharpe-Ratio) bisher besseren Strategien in Fenstern der Länge T immer eine schlechtere Durchschnittsrendite hatten. Also ist bisher die Ausrichtung an der Performance der Vergangenheit ein sehr schlechter Ratgeber.
Es sei an dieser Stelle noch einmal darauf hingewiesen, dass die hier gemachten Aussagen auf keinerlei Annahmen basieren. Es war schlicht bisher immer so (im Mittel über T-Fenster und vor dem Hintergrund der verwendeten Erfahrung).
In diesem Sinne sind die hier gemachten Aussagen nicht kontrovers und man kann nicht aus der Perspektive unterschiedlicher "Theorien" oder "stochastischer Annahmen" darüber diskutieren.
Nach unserer Einschätzung gilt:
Die meisten derzeit verwendeten ML-Verfahren mit guter Prognoseperformance - gemessen in den Standardmetriken - erzeugen Modelle, die für den Menschen nicht verständlich sind.
Ob Verständlichkeit der Modelle eine relevante Eigenschaft ist, wird derzeit durchaus kontrovers diskutiert. Große Spieler wie Google wenden aber beträchtliche Ressourcen auf, um z. B. Deep-Neural-Nets zu "verstehen".
Nicht die "Optimierung" einer mehr oder weniger willkürlich gewählten Performance-Statistik ist entscheidend für die Praxis-Tauglichkeit eines statistischen Modells.
Entscheidend ist die Fähigkeit, Handlungsregeln zu finden, die zu einer Verbesserung der Ergebnisse von Entscheidungssequenzen führen.
Verständlichkeit von Modellen ist aber eng verknüpft mit ihrer Fähigkeit, Ergebnisse zu erzeugen, die für die Verbesserung von Handlungsergebnissen relevant sind.
Ein Beispiel für die Verbindung von Verständlichkeit und Entscheidungsrelevanz ist die Möglichkeit zur Durchführung von "Was wäre wenn Experimenten" an "interessanten" Objekten.
Nur wenn man:
1. exakt identifizieren kann, in welchen Objekten man bisher unerwünschte Entscheidungsergebnisse erhält und
2. exakt identifizieren kann, welche Teile der Auswahlregel durch eigene Handlungen verändert werden können
kann man versuchen, die Konsequenzen von eigenen Handlungsmöglichkeiten zu quantifizieren und so überlegene Handlungsstrategien identifizieren. Soweit wir erkennen können, ist dies mit opaken Standard-ML-Modellen nicht möglich.
Wir nennen diese Vorgehensweise "Kontrafaktisches Experiment".
Nimmt man als einfaches Beispiel die Gesetze aus dem Datensatz IBM (Datenquelle Kaggle), bei dem die Variable df.y
anzeigt, ob ein Mitarbeiter im nächsten Jahr das Unternehmen verlässt (Kündiger) und sucht aus der Menge der Objekte, die mindestens 100 Beobachtungen auswählen,
dasjenige mit der höchsten Rate an Kündigern heraus (ca. 47%), so findet man das Objekt:
"(((df.JobLevel==1)&(~(df.JobRole=='Research Scientist')))&(df.StockOptionLevel==0))"
Es handelt sich hier also um Mitarbeiter der untersten Hierarchieebene (df.JobLevel==1
), die nicht "Research Scientist" (~(df.JobRole=='Research Scientist'
)) sind und keine Aktienoptionen in ihrem Gehaltspaket haben (df.StockOptionLevel==0
).
Gehen wir davon aus, dass die Variablen df.JobLevel
und df.StockOptionLevel
"Policy-Variablen" in dem Sinne sind, dass IBM durch Beförderung bzw. durch die Vergabe von Optionen im Gehaltspaket diese Variablen autonom setzen kann.
Dann können wir nach Gesetzen über die Möglichkeiten von IBM suchen, die Rate an Kündigern durch die Wahl einer anderen Policy zu beeinflussen.
Dazu muss das Objekt nur auf andere beobachtete Werte der Policy-Variable gesetzt werden:
set_global_rel(0.8,plot_rel=False)
beispiel='ibm'
obj="(((df.JobLevel==1)&(~(df.JobRole=='Research Scientist')))&(df.StockOptionLevel==0))"
ausdr="df.JobLevel==1"
ziel='df.y'
ibmlaws=experiment(beispiel,ziel,obj,ausdr,lprint=False)
ausdr="df.StockOptionLevel==0"
ibmlaws=ibmlaws.append(experiment(beispiel,ziel,obj,ausdr,lprint=False),ignore_index=True)
und man erhält eine Liste mit Gesetzen über Veränderungen der Rate an Kündigern bei Variation von Policy-Variablen.
display(ibmlaws)
Man erkennt, dass z. B. in der Gruppe der eine Hierarchieebene höher angesiedelten Mitarbeitern (df.JobLevel==2
) die Kündigungsrate immer (in jeder Sequenz von 16 Mitarbeitern) zwischen 6,25% und 50,0% niedriger lag. Dies Gesetz ist 11.25 mal bestätigt.
Die Prognose, dass dies in der nächsten Sequenz von 16 Mitarbeitern wieder so sein wird, liegt in einer Klasse von Prognosen von denen wir wissen, dass bisher in jeder Sequenz von 67108864 Prognosen die Rate wahrer Prognosen über 80% lag.
Die Vermutung liegt nahe, dies als einen Hinweis auf die Möglichkeit zu interpretieren, die Kündigungsrate in dieser Gruppe durch z.B. Beförderungen senken zu können.
Wir nennen diese Vorgehensweise "kontrafaktisches Experiment", weil man nicht in der Lage ist, die Konsequenzen der eigentlich interessierenden Änderungen an den Beschäftigten aus der Gruppe JobRole==1
zu beobachten. Stattdessen verwendet man die "Erfahrung" von anderen Beschäftigten, um zu Gesetzen über die Konsequenzen einer hypothetischen Verhaltensänderung zu kommen.
T-Dominanz als Entscheidungskriterium + die Fähigkeit zur Abschätzung der emergenten Konsequenzen von Verhaltensänderungen durch kontrafaktische Experimente sind (unserer Einschätzung nach) für die Anwendung in der Praxis von entscheidender Bedeutung.
Aufsetzend auf die universell kombinierbaren Gesetze in einem KnowledgeWarehouse lassen sich so für relevante Objekte "bisher immer bessere" Entscheidungsregeln finden. Meta-Gesetze erlauben eindeutige Aussagen über die bisherige Güte der wiederholten Verwendung der Prognosestrategie "Es bleibt so, wie es bisher immer war".
Letztendlich kann man automatisiert alle Objekte mit nicht wünschenswerten Ergebnissen (im Rahmen der gegebenen Handlungsmöglichkeiten) auf T-Dominante Verbesserungsvorschläge hin untersuchen.
Der Methodenserver des ZES (Methoden-Server) stellt für Forschung und Lehre eine Python Umgebung, Daten und Algorithmen zur Emergenzbasierten Statistik zur Verfügung.
Er wird in der Lehre in folgenden Bereichen eingesetzt (werden):
Eine detailliertere Erklärung eines Learning Systems ist auf folgender Internetseite bereitgestellt.
Unter den angegebenen E-Mail Adressen können Sie bei Fragen, Anmerkungen gerne mit uns Kontakt aufnehmen.