Advanced Stats Diskussion


Mahoney_jr

Bankspieler
Beiträge
22.353
Punkte
113
Ort
Country House
Ich habe mal ein neues Thema erstellt, vor allem aus Eigeninteresse bzw. Eigenbedarf, aber auch weil wir im alten Forum so einen Thread hatten.

Was ist mein Anliegen? Durch meinen Foren-Spam von gestern Abend ist wahrscheinlich nicht unbemerkt geblieben, dass ich an einer Statistik arbeite, die zeigt, wie gut eine Mannschaft war, wenn ein bestimmter Spieler auf dem Platz stand. Soetwas gibt es derzeit nicht (soweit ich weiß) frei verfügbar.

Warum will ich das? Weil ich an Team-Sport glaube und daran, dass es oft auf die gesamte Mannschaft ankommt und nicht nur auf die individuellen Fähigkeiten des Spielers. Deshalb möchte ich einen zusätzlichen Wert bereitstellen, der als Ergänzung zu den anderen Statistiken verwendet wird.

Was klappt gut bisher? Die Bewertung von Spielern, die über die Saison hinweg ca. zwischen 1.000 und 2.500 Minuten gespielt haben.

Warum sind die anderen Daten weniger gut?
Wenig Minuten können durch statistische Ausreißer zu einer zu stark beeinflussten Zahl führen (Beispiel Wolfsburg-Augsburg 8:1 führe zu -3,85 "Team Goals" für einen Augsburger in 90 Minuten. Wenn der insgesamt nur 500 Minuten auf dem Platz stand, dann haut den das komplett in den Keller. Umgekehrt ist das dann bei einem Wolfsburger, der +3,72 erhält.
Viele Minuten wiederum sorgen dafür, dass ein Spieler der reinste Durchschnitt für die Mannschaft ist. Die Statistik ist also 100% wertlos für einen Torhüter, der alle 34 Spiele über 90 Minuten bestritten hat (also plus Nachspielzeit über 3.060 Minuten auf dem Platz stand). Daher derzeit mein "Gefühl", dass es ab 2.500 Minuten nur noch wenig Aussagekraft gibt.

Was kann man dagegen tun?
Ich glaube, das letzte Feature muss eine Logik für den Umgang mit den angesprochenen Ausreißern sein. Und deshalb habe ich den Thread erstellt, um vielleicht @Cicero , @Alice (noch da?), @mystic oder @Mystic587 und gerne jeden weiteren Interessierten (!) um Unterstützung zu bitten.

Als Grundlage kann ich gerne ein paar Daten liefern, z.B. hier die Rohdaten für einen Box-Plot:

Minimalwert: -3,85
Erstes Quartil: -0,79922092
Medianwert: 0,00955652
Drittes Quartil: 0,88754835
Maximalwert: 4,08
IQR: 1,68676927

Q1 - IQR 1,5 : -3,32937483
Q3 - IQR 1,5 : 3,41770225

Tja und die unteren beiden sind auch mein Problem, glaube ich. Es gibt 612 Spiele und nach der 1,5-Regel habe ich lediglich 9 Ausreißer. Das kommt mir wenig vor. Ist das also gut oder schlecht?

Und zweite Frage: Was soll ich mit denen machen? Soll ich die auf einen bestimmten Wert runterrechnen?

Danke :)
 

Mahoney_jr

Bankspieler
Beiträge
22.353
Punkte
113
Ort
Country House
Mal ein einfaches Info-Posting. Der Einfluss einer roten Karte auf den "Erfolg" einer Mannschaft. Im Schnitt kassiert ein Team 1,7 Tore mehr und schießt 0,75 Tore weniger in 90 Minuten. Das ist ziemlich heftig und unterstreicht einfach, dass Notbremsen und "mit Hand der der Linie klären" sehr, sehr dumme Aktionen sind, solange noch signifikant Minuten zu spielen sind.

3479

PS: 26 Minuten mit 9 Mann sind natürlich klar, welches Spiel das war.. haben uns angesichts dessen ganz gut gehalten ;)
 

Mahoney_jr

Bankspieler
Beiträge
22.353
Punkte
113
Ort
Country House
Und hier die Daten in Bezug auf die Wettquote (umgerechnet in "Siegwahrscheinlichkeit" in Prozent). Der Großteil der Mannschaften hat zwischen 20 und 50% Siegwahrscheinlichkeit. So richtig vielversprechend sieht es laut Statistik aber erst für die Teams aus, wenn sie wirklich so ab ca 45% Siegwahrscheinlichkeit habe (also ca, eine Quote von 2,2). Ein Ausreißer sind die Spiele mit Wahrscheinlichkeiten von 70 bis 80%. Da haben die Mannschaften deutlicheren Abstand als die Quote der Wettanbieter vorhergesehen hat. Sie schossen mehr Tore und sie kassierten weniger Gegentore als Mannschaften mit der Wahrscheinlichkeit von 80-90%). Hier bewegen wir uns aber im Bereich von 14 Spielen vs 10 Spielen, also nicht mehr so viele Daten.

Insgesamt ist es aber schon gut zu sehen, dass die Erwartung vor dem Spiel im Trend dann auch die tatsächlichen Resultate vorhersagt. Jedes einzelne Spiel ist wiederum natürlich stark vom Zufall abhängig, aber es zeigt, dass man durchaus so rangehen kann, wie ich das gemacht habe, also eine Gewichtung der Daten anhand von Wettquoten und Überzahl/Unterzahl.

3482
 

Mahoney_jr

Bankspieler
Beiträge
22.353
Punkte
113
Ort
Country House
Da zwischen verschiedenen Threads eine Diskussion entbrannt ist, wie sehr die XG Qualität darstellen (teilweise z.B. hier: https://sportforen.de/threads/bvb-19-20-von-zögerli-zu-vollgas-jahr-2-des-neuaufbaus.914/post-196268) wollte ich ganz kurz in diesem Thread zusammenfassen:

4047

Zur Erklärung: Hier wird gezeigt, wie angenommene Siegwahrscheinlichkeit mit tatsächlichem Erfolg nach XG (pro 90 Min) und tatsächlichen Toren (pro 90 Min) korrelliert.
Antwort: Sehr, sehr hoch. Dazu zeigt es auch, dass Mannschaften aber noch mehr Tore schießen, wenn sie überlegen sind (11 %). Das führt zu folgender Zusammenfassung:
  1. Gute Teams produzieren mehr XG
  2. Die XG steigen, wenn der Gegner schwächer ist
  3. Aber aus den produzierten XG resultieren in Relation sogar noch einmal 11% mehr Tore, wenn das Team als deutlich stärker als sein Gegner eingeschätzt wird
  4. Ansonsten stimmen die XG mit den tatsächlichen Toren überein, d.h. der XG-Algorithmus bildet im Durchschnitt sehr gut ab, wie hoch die Tor-Wahrscheinlichkeit ist
 

le Tissier

Bankspieler
Beiträge
2.294
Punkte
113
Man kann nicht bestreiten, dass Expected Goals Daten aussagekräftig sind. Denn sie können besser zukünftige Ergebnisse prognostizieren als die tatsächlichen Ergebnisse einer Mannschaft.

Der Grundgedanke dahinter: Chancenverwertung ist stark von Glück und Zufall geprägt. Die Expected Goals Werte können diesen Zufallsfaktor minimieren. Gleichzeitig gibt es aber selbstverständlich etliche Einschränkungen: Auch mit diesen Werten werden tolle Angriffe nicht erfasst wenn der letzte Pass nicht ankommt und somit kein Torschuss entsteht. Also man ist weit davon entfernt die Leistung einer Mannschaft sauber in einer einzigen Zahl zusammenfassen zu können. Aber die Zahl ist aussagekräftiger als das tatsächliche Ergebnis.

---

Ich habe deine Ausführungen meistens nur überflogen und nicht im Detail jeden einzelnen Post verfolgt. Du hast einige Tabellen mit den Zahlen zu individuellen Spielern gepostet.
Schon beim Basketball muss man mit diesen Zahlen sehr vorsichtig sein. Und dort gibt es im Gegensatz zum Fußball mehr Spiele und viel mehr "Toraktionen" pro Partie. Für aussagekräftige Daten will man außerdem eine möglichst zufällige Verteilung der Spielzeit. Das ist beim Basketball durch die Rotation eher gegeben als beim Fußball mit nur 3 Wechseln pro Spiel.

Beim Basketball wird die Rotation eher weniger der Qualität der Gegner angepasst. Eher einzelnen Matchups. Beim Fußball hat das aber einen großen Einfluss. Christian Streich hat Guede bevorzugt gegen starke Teams und in Auswärtsspielen eingesetzt weil er mit seiner Physis die Gegner nerven sollte. In Heimspielen oder gegen Teams auf Augenhöhe spielten dagegen eher kreative und torgefährliche Stürmer. Dadurch sind die Minuten nicht fair verteilt sondern abhängig von der Stärke der gegnerischen Mannschaft. Es ist logisch, dass Guede dann insgesamt häufiger bei Niederlagen auf dem Feld steht auch wenn seine Leistungen ordentlich sind. Man kann versuchen die Qualität der Gegner in seine Formel einzubauen. Aber das wirft dann wieder ganz neue Fragen auf. Denn wie kann ich die Qualität des Gegners objektiv feststellen? Nimmt man den Tabellenplatz? Oder die Form der letzten Spiele? Was ist wenn der Gegner zwar Barca oder Bayern heißt und aber die Stars schont und nur die B11 auf den Rasen schickt?

Da ist beim Fussball aus meiner Sicht die Datenmenge einfach viel zu klein für wirklich belastbare Erkenntnisse.
Expected Goals funktioniert mit Sicherheit deutlich besser als wenn du die tatsächlichen Ergebnisse heranziehen würdest. Aber ich halte beide Varianten für sehr schwierig.

---

Und dann klingt es bei dir häufiger so als wäre der Unterschied zwischen erzielten Toren und Expected Goals ----> die Qualität der Spieler
Das ist einfach nicht richtig. Das hat sicher auch einen Einfluss aber grundsätzlich beschreibt diese Zahl den Zufall. Das ist ja das Grundprinzip der ganzen Geschichte. Und wenn man das vermischt hat man das ganze Thema nicht richtig verstanden.
Die Qualität eines Spielers/Teams drückt sich eindeutig in den absoluten Zahlen aus.

Gibt natürlich auch hier etliche verschiedene Einflussfaktoren: Wenn ein Spieler es schafft hauptsächlich seine "bevorzugten" Abschlüsse loszuwerden, wird er auf Dauer eher eine positive Abweichung haben und "überperformen". Das ist dann natürlich kein Glück.
 
  • Like
Reaktionen: xEr

xEr

Bankspieler
Beiträge
12.727
Punkte
113
Und dann klingt es bei dir häufiger so als wäre der Unterschied zwischen erzielten Toren und Expected Goals ----> die Qualität der Spieler
Das ist einfach nicht richtig. Das hat sicher auch einen Einfluss aber grundsätzlich beschreibt diese Zahl den Zufall.

Wobei man sagen muss, dass die expected goals im Grunde ja nur den Durchschnitt der Verwertung einer bestimmten Chancen- bzw. Schussqualität darstellen. Wenn also von tausenden ausgewerteten Schüssen mit vergleichbaren Parametern (Entfernung, Winkel, Gegenspieler usw.) die xG meinetwegen 0,3 sind und ich einen Stürmer habe mit besserer Abschlussqualität (als der ausgewertete Durchschnitt), dann wird sich das langfristig auch in einem Delta zu seinem xG wert wiederspiegeln.


Ansonsten exzellenter Beitrag, dem ich fast überall zustimmen möchte.
Insbesondere deinen Ausführungen hierzu:

"Ich habe deine Ausführungen meistens nur überflogen und nicht im Detail jeden einzelnen Post verfolgt. Du hast einige Tabellen mit den Zahlen zu individuellen Spielern gepostet.
Schon beim Basketball muss man mit diesen Zahlen sehr vorsichtig sein. Und dort gibt es im Gegensatz zum Fußball mehr Spiele und viel mehr "Toraktionen" pro Partie. Für aussagekräftige Daten will man außerdem eine möglichst zufällige Verteilung der Spielzeit. Das ist beim Basketball durch die Rotation eher gegeben als beim Fußball mit nur 3 Wechseln pro Spiel."


Sehe ich ganz genauso. Und im Basketball stehen nur 5 Spieler pro Mannschaft auf dem Feld, was den Einfluss eines einzelnen Spielers natürlich deutlich verstärkt und messbarer macht.
Für die Auswertungen im Fußball sind die Datenmengen in meinen Augen tatsächlich viel zu gering. Du brauchst ja nicht nur sehr viele Spielminuten pro Spieler für eine Auswertung, sondern im Grunde auch viele Spielminuten ohne diesen Spieler und beides möglichst auch in allen möglichen anderen Team-Konstellationen. An solche Datenmengen kommst du aber nicht innerhalb von nur einer Saison und dann ist der Zeitraum schon zu groß, um daraus einen wirklich interessanten Erkenntnisgewinn zu ziehen.
 
Zuletzt bearbeitet:

Mahoney_jr

Bankspieler
Beiträge
22.353
Punkte
113
Ort
Country House
Man kann nicht bestreiten, dass Expected Goals Daten aussagekräftig sind. Denn sie können besser zukünftige Ergebnisse prognostizieren als die tatsächlichen Ergebnisse einer Mannschaft.

Der Grundgedanke dahinter: Chancenverwertung ist stark von Glück und Zufall geprägt. Die Expected Goals Werte können diesen Zufallsfaktor minimieren. Gleichzeitig gibt es aber selbstverständlich etliche Einschränkungen: Auch mit diesen Werten werden tolle Angriffe nicht erfasst wenn der letzte Pass nicht ankommt und somit kein Torschuss entsteht. Also man ist weit davon entfernt die Leistung einer Mannschaft sauber in einer einzigen Zahl zusammenfassen zu können. Aber die Zahl ist aussagekräftiger als das tatsächliche Ergebnis.

Ja, und natürlich funktioniert das besser, je mehr Daten man reinnimmt. Wenn ich also alle Daten die ich habe, in nur drei Pakete schnüre (wie im vorigen Post), dann ist es sehr nah an der Wahrheit. Und in dieser kleinen Tabelle kann man den Qualitätsaspekt ablesen, oder aber es rein auf Kantersieg-Phänomene zurückführen (also Psychologie).

Ich habe deine Ausführungen meistens nur überflogen und nicht im Detail jeden einzelnen Post verfolgt. Du hast einige Tabellen mit den Zahlen zu individuellen Spielern gepostet.
Schon beim Basketball muss man mit diesen Zahlen sehr vorsichtig sein. Und dort gibt es im Gegensatz zum Fußball mehr Spiele und viel mehr "Toraktionen" pro Partie. Für aussagekräftige Daten will man außerdem eine möglichst zufällige Verteilung der Spielzeit. Das ist beim Basketball durch die Rotation eher gegeben als beim Fußball mit nur 3 Wechseln pro Spiel.

Beim Basketball wird die Rotation eher weniger der Qualität der Gegner angepasst. Eher einzelnen Matchups. Beim Fußball hat das aber einen großen Einfluss. Christian Streich hat Guede bevorzugt gegen starke Teams und in Auswärtsspielen eingesetzt weil er mit seiner Physis die Gegner nerven sollte. In Heimspielen oder gegen Teams auf Augenhöhe spielten dagegen eher kreative und torgefährliche Stürmer. Dadurch sind die Minuten nicht fair verteilt sondern abhängig von der Stärke der gegnerischen Mannschaft. Es ist logisch, dass Guede dann insgesamt häufiger bei Niederlagen auf dem Feld steht auch wenn seine Leistungen ordentlich sind. Man kann versuchen die Qualität der Gegner in seine Formel einzubauen. Aber das wirft dann wieder ganz neue Fragen auf. Denn wie kann ich die Qualität des Gegners objektiv feststellen? Nimmt man den Tabellenplatz? Oder die Form der letzten Spiele? Was ist wenn der Gegner zwar Barca oder Bayern heißt und aber die Stars schont und nur die B11 auf den Rasen schickt?

Da ist beim Fussball aus meiner Sicht die Datenmenge einfach viel zu klein für wirklich belastbare Erkenntnisse.
Expected Goals funktioniert mit Sicherheit deutlich besser als wenn du die tatsächlichen Ergebnisse heranziehen würdest. Aber ich halte beide Varianten für sehr schwierig.

Das ist in der Tat tricky, aber ich habe halt die Wettquoten, eine Logik für Überzahl/Unterzahl, sowie Datenpunkte, ob man von Beginn an gespielt hat oder nach einem Wechsel. Das hilft, die Daten zu interpretieren.

Dazu habe ich sowohl tatsächlichen Erfolg (Tore, Gegentore), wie auch XG/XGA against, in gleichen Teilen berücksichtigt. Und das für jede einzelne Minute, die ein Spieler auf dem Platz stand und mit der Angabe der o.g. jeweiligen Siegwahrscheinlichkeit.

Ich kann auch danach schauen, ob jemand eher zuhause oder auswärts zum Einsatz kam... das wird zwar in der Siegwahrscheinlichkeit ausgedrückt, aber manche Teams performen auswärts halt einfach schlechter als andere oder umgekehrt.

Mein Ziel ist es, dass in einer einzigen Kennzahl auszudrücken. Aber die ist natürlich sehr angreifbar, das verstehe ich. Durch die ganzen zusätzlichen Informationen wird aber sicherlich absehbar sein, ob Freiburg mit Guede mehr oder weniger Tore kassiert im Kontext der Stärke der Gegner.

Und dann klingt es bei dir häufiger so als wäre der Unterschied zwischen erzielten Toren und Expected Goals ----> die Qualität der Spieler
Das ist einfach nicht richtig. Das hat sicher auch einen Einfluss aber grundsätzlich beschreibt diese Zahl den Zufall. Das ist ja das Grundprinzip der ganzen Geschichte. Und wenn man das vermischt hat man das ganze Thema nicht richtig verstanden.
Die Qualität eines Spielers/Teams drückt sich eindeutig in den absoluten Zahlen aus.

Gibt natürlich auch hier etliche verschiedene Einflussfaktoren: Wenn ein Spieler es schafft hauptsächlich seine "bevorzugten" Abschlüsse loszuwerden, wird er auf Dauer eher eine positive Abweichung haben und "überperformen". Das ist dann natürlich kein Glück.

Doch, ich glaube schon an den Qualitätsaspekt. Ein guter Torwart wird die tatsächlichen Tore in Relation zu XG senken. Man braucht nur genügend Daten, bis man zu dieser Erkenntnis gelangt. Aber selbst ein Torwart kann die Anzahl der Chancen durch gute Antizipation senken, so wie jeder andere Spieler auch in der Lage ist die Anzahl von Chancen zu heben/senken, je nach Aufgabe. Man muss halt alles im Kontext betrachten.

Abschließend möchte ich wieder darauf hinweisen, dass die Statistik nur eine Ergänzung sein kann. Sie soll zeigen, wie gut eine Mannschaft war, wenn ein Spieler gespielt hat. Und das tut sie natürlich auch :) Kritik zu äußern ist aber immer dann absolut legitim, wenn ich Kausalität behaupte und nicht nur Korrelation. Für Kausalität (die Mannschaft war besser, weil X gespielt hat) sollte man natürlich das Spiel schauen. Meine Statistik kann aber helfen, auf Dinge im Spiel zu achten (unterstützt X unsere Defensive, so wie die Zahlen es behaupten?). Mehr kann Sportstatistik in meinen Augen sowieso nicht leisten.
 

xEr

Bankspieler
Beiträge
12.727
Punkte
113
Mehr kann Sportstatistik in meinen Augen sowieso nicht leisten.

Wobei das stark von der betrachteten Sportart abhängt. In den populären US Sportarten sind Statistiken z.B. weit aussagekräftiger als im Fußball. Z.B. durch die Konzeption der Sportart und weil bestimmte Dinge besser/ einfacher messbar sind.
 

Mahoney_jr

Bankspieler
Beiträge
22.353
Punkte
113
Ort
Country House
Wobei das stark von der betrachteten Sportart abhängt. In den populären US Sportarten sind Statistiken z.B. weit aussagekräftiger als im Fußball. Z.B. durch die Konzeption der Sportart und weil bestimmte Dinge besser/ einfacher messbar sind.

Ich bin von Team-Statistiken im Basketball (Baseball ist fast nur individueller Sport, Football bin ich weniger Experte als Basketball) aber ehrlicherweise ebenfalls weniger überzeugt, als von individuellen Statistiken. Die mögen sicherlich besser sein als meine (hey, das ist ein Projekt was nicht mal 6 Monate als ist :D ), aber sie kranken immer am Pudel's Kern: wie gut passen Spieler zusammen. Da kann ich x Mal die Advanced Stats von mehreren Rollenspielern abfeiern, wenn ich sie zusammen bringe und keiner kreiert, wird es dennoch nicht funktionieren.

Im Fußball ist aber sowas von Brachland, was gute Stats anbelangt, dass ich schon glaube, dass man sich dem widmen sollte. Und so wirklich gar nicht scheint der Bereich des Impacts auf den Team-Erfolg beackert zu werden...
 

xEr

Bankspieler
Beiträge
12.727
Punkte
113
Im Fußball ist aber sowas von Brachland, was gute Stats anbelangt, dass ich schon glaube, dass man sich dem widmen sollte. Und so wirklich gar nicht scheint der Bereich des Impacts auf den Team-Erfolg beackert zu werden...

Es gibt ja professionelle Anbieter wie opta, die sich mit Statistiken im Fußball intensiv befassen und diese aufbereitet z.B. an Fußballclubs oder Sportmedien verkaufen. Da werden schon Teams von Statistikern oder Mathematikern sitzen, die sich Gedanken machen. Z. B. finde ich die expected goals schon ne super Statistik, deren Ausarbeitung und Messbarkeit ne Menge Aufwand erfordert haben muss.
Was den Impact auf den Team-Erfolg angeht: Das scheint aus besagten Gründen im Fußball außerordentlich schwierig. Vielleicht gibt es auch dort schon einigermaßen gute Modelle, die aber noch nicht den Weg in die Öffentlichkeit gefunden haben. Wenn es was gibt, ließe es sich jedenfalls gut verkaufen und dann will der Käufer es nicht for free im TV oder Internet sehen. Ich kanns mir allerdings kaum vorstellen.
 

le Tissier

Bankspieler
Beiträge
2.294
Punkte
113
Wobei man sagen muss, dass die expected goals im Grunde ja nur den Durchschnitt der Verwertung einer bestimmten Chancen- bzw. Schussqualität darstellen. Wenn also von tausenden ausgewerteten Schüssen mit vergleichbaren Parametern (Entfernung, Winkel, Gegenspieler usw.) die xG meinetwegen 0,3 sind und ich einen Stürmer habe mit besserer Abschlussqualität (als der ausgewertete Durchschnitt), dann wird sich das langfristig auch in einem Delta zu seinem xG wert wiederspiegeln.

Messi schießt aus 20 Metern aus halbrechter Position vom 16er Eck auf das Tor. Er hat den Ball mit einem Flachpass im Stand erhalten, es gibt keinen Gegnerdruck, es stehen keine Gegenspieler im Schussweg und der Torwart steht zentral auf der Linie. Dann wird anhand dieser Parameter der Erwartungswert ermittelt (wie du richtig beschrieben hast) indem man die Aktion mit tausenden ähnlichen Abschlüssen abgleicht. Da sind dann vielleicht auch Versuche vom aufgerückten Süle dabei und natürlich hunderte Abschlüsse von Bellarabi, Hahn und Co. Man kann davon ausgehen, dass Messi oder Robben in dieser speziellen Situation deutlich besser abschließen als der "Durchschnitt".
Andererseits kommt Messi aber auch zu Kopfballchancen. Oder zu Abschlüssen mit dem rechten Fuß bei starkem Gegnerdruck.
In diesen Situationen ist es umgekehrt. ´Da haben dann wiederum andere Spielertypen einen Vorteil.

Man kann sicher nicht so tun als wäre die Qualität des Spielers überhaupt kein Einflussfaktor. Aber grundsätzlich basiert das ganze Konzept der Expected Goals auf der Erkenntnis, dass es beim reinen Verwerten der Torchancen keine großen Unterschiede anhand der Qualität der Spieler gibt. Das ist der Kern der ganzen Geschichte. Darum ist es absurd wenn man anhand der Abweichung zwischen realen Daten und den expected Goals Daten die Qualität eines Stürmers bestimmen will.

Die Klasse eines Spielers zeigt sich in den absoluten Zahlen. Ein guter Spieler kommt häufiger in Abschlusspositionen. Weil er selbst die Leute ausdribbelt und zum Abschluss kommt oder eben weil er das bessere Timing hat und im richtigen Moment startet um die Flanke zu erreichen.
Und dazu schafft es der bessere Spieler eben auch die "besseren Chancen" herauszuspielen. Shaqiri schießt aus 25 Metern aufs Tor, Robben macht noch einen kleinen Haken und schon steht er zentraler und näher am Tor und hat 10% mehr Trefferwahrscheinlichkeit.

Anderes Beispiel mit Zahlen:

Sandro Wagner lauert am langen Pfosten auf die Flanke und muss mit dem Verteidiger ins Kopfballduell. Starke Bedrängnis. Erwartungswert anhand der Expected Goals Daten: 14%
Lewandowski macht bei der gleichen Flanke vorher eine Finte und täuscht den Weg zum kurzen Pfosten an. Verteidiger macht einen Schritt nach vorne und Lewandowski köpft unbedrängt ohne Gegnerdruck: 55% Wahrscheinlichkeit

Das zeigt den Qualitätsunterschied. Und darum sind die absoluten Werte wichtig. Vielleicht köpft Lewandowski in der Szene dann nur 50% statt 55% der Dinger wirklich ins Netz. Und Sandro Wagner schafft sogar 20% statt der erwarteten 14%

Dann ist Lewandowski 5% schlechter als erwartet und Wagner 6% besser. Das ist aber nicht entscheidend. Denn bei 10 identischen Flanken würde Lewa 5 Buden machen und Wagner nur 2.

Die Abweichung zwischen realen Zahlen und expected Goals Zahlen ist bei kleiner/normaler Sample Size (selbst eine Saison ist wenig) einfach nur Zufall. Wenn es langfristig starke Abweichungen gibt und ein Spieler über 5 Jahre konstant "überperformed" muss man sich die Zahlen genauer anschauen. Ich würde dann wohl zunächst davon ausgehen, dass der Spieler es schafft extrem viele Abschlüsse aus seinen "Lieblingspositionen" herauszuspielen.

Wenn Barca jetzt plötzlich mehr Flanken schlägt, kommt Messi zu mehr Kopfbällen. Dann wird er wohl kaum weiterhin so deutlich "überperformen". Aber das würde überhaupt nichts an seinen Qualitäten als Finisher verändern. Dementsprechend halte ich es wirklich für absolut falsch wenn man mit dieser Zahl die Qualität eines Stürmers ausdrücken will.... Und es klang manchmal so bei den Ausführungen von @Mahoney_jr

Das ist in der Tat tricky, aber ich habe halt die Wettquoten, eine Logik für Überzahl/Unterzahl, sowie Datenpunkte, ob man von Beginn an gespielt hat oder nach einem Wechsel. Das hilft, die Daten zu interpretieren.

Dazu habe ich sowohl tatsächlichen Erfolg (Tore, Gegentore), wie auch XG/XGA against, in gleichen Teilen berücksichtigt. Und das für jede einzelne Minute, die ein Spieler auf dem Platz stand und mit der Angabe der o.g. jeweiligen Siegwahrscheinlichkeit.

Ich kann auch danach schauen, ob jemand eher zuhause oder auswärts zum Einsatz kam... das wird zwar in der Siegwahrscheinlichkeit ausgedrückt, aber manche Teams performen auswärts halt einfach schlechter als andere oder umgekehrt.

Mein Ziel ist es, dass in einer einzigen Kennzahl auszudrücken. Aber die ist natürlich sehr angreifbar, das verstehe ich. Durch die ganzen zusätzlichen Informationen wird aber sicherlich absehbar sein, ob Freiburg mit Guede mehr oder weniger Tore kassiert im Kontext der Stärke der Gegner.

Du kannst natürlich einzelne Faktoren berücksichtigen aber du kannst nie das Problem lösen, dass der Trainer ja nicht zufällig aufstellt. Der passt seine Entscheidungen doch den Umständen an. Schon beim Basketball gibt es da kleine Verzerrungen aber da ist die Rotation doch relativ konstant und dadurch viel näher an einer zufälligen Minutenverteilung für alle Spieler. Und genau diese zufällige Minuten und Einsatzverteilung brauchst du für aussagekräftige Zahlen.

Und auch die Wettquoten muss man da vorsichtig betrachten. Denn die verändern sich ja auch abhängig vom aktuellen Kader:
Mal angenommen der BVB spielt zweimal gegen Bayern. Einmal mit Hazard auf dem linken Flügel. Ergebnis 2:2 Expected Goals auch 2:2

Im nächsten Spiel mit Reus statt Hazard: Leistung, Ergebnis und Expected Goals identisch. Dann wird nach deiner Formel aber Hazard als der bessere Spieler angesehen. Du hast schließlich die Wettquoten eingebaut und die waren für den Sieg mit Reus mit Sicherheit etwas kleiner als im anderen Spiel durch den Ausfall von Reus ;)

Das verzerrt deine Daten extrem wenn der BVB viele Ausfälle hat und Spieler ersetzen muss.

----

Warum berücksichtigst du denn überhaupt die real erzielten Tore? Es ist doch unstrittig, dass die Expecte Goals Werte viel aussagekräftiger sind um die Leistung zu beschreiben!?


Ich bin von Team-Statistiken im Basketball (Baseball ist fast nur individueller Sport, Football bin ich weniger Experte als Basketball) aber ehrlicherweise ebenfalls weniger überzeugt, als von individuellen Statistiken. Die mögen sicherlich besser sein als meine (hey, das ist ein Projekt was nicht mal 6 Monate als ist :D ), aber sie kranken immer am Pudel's Kern: wie gut passen Spieler zusammen. Da kann ich x Mal die Advanced Stats von mehreren Rollenspielern abfeiern, wenn ich sie zusammen bringe und keiner kreiert, wird es dennoch nicht funktionieren.

Im Fußball ist aber sowas von Brachland, was gute Stats anbelangt, dass ich schon glaube, dass man sich dem widmen sollte. Und so wirklich gar nicht scheint der Bereich des Impacts auf den Team-Erfolg beackert zu werden...

Selbst American Football kann man besser"in Einzelaspekte" unterteilen. Beim Football geht das Spiel immer in eine Richtung. 20 Yards vorwärts ist immer gut und es ist messbar wie sehr sich das einem Punkterfolg näher bringt. Die Spielzüge sind voneinander getrennt. auch beim Basketball kannst du das Spiel viel einfacher in einzelne Angriffe gliedern und dann untersuchen.

Fußball (oder auch Hockey) ist da eher Chaos. Umkämpfte Bälle im Mittelfeld, manchmal will das Team den Ball überhaupt nicht haben. Rückpässe sind Raumverlust aber trotzdem oft sinnvoll....

Darum sind ja auch fast alle "alten" Statistiken absolut sinnfrei. Zweikampfquote, Ballbesitzanteil, Laufleistung oder Passquoten haben keine Aussagekraft darüber wer das Spiel gewinnt.

Und dann kam "Packing" :)
Es war eine sensationelle Marketing Aktion, dass dieser sinnlose Quatsch bei bester Sendezeit über Wochen im TV erklärt wurde.


Es gibt ja professionelle Anbieter wie opta, die sich mit Statistiken im Fußball intensiv befassen und diese aufbereitet z.B. an Fußballclubs oder Sportmedien verkaufen. Da werden schon Teams von Statistikern oder Mathematikern sitzen, die sich Gedanken machen. Z. B. finde ich die expected goals schon ne super Statistik, deren Ausarbeitung und Messbarkeit ne Menge Aufwand erfordert haben muss.
Was den Impact auf den Team-Erfolg angeht: Das scheint aus besagten Gründen im Fußball außerordentlich schwierig. Vielleicht gibt es auch dort schon einigermaßen gute Modelle, die aber noch nicht den Weg in die Öffentlichkeit gefunden haben. Wenn es was gibt, ließe es sich jedenfalls gut verkaufen und dann will der Käufer es nicht for free im TV oder Internet sehen. Ich kanns mir allerdings kaum vorstellen.

Es gibt doch auch schon lange eine große Online Community die sich damit befasst.
"Statsbomb" ist mir vor Jahren noch als Zusammenschluss von einigen Nerds in Erinnerung die in einem Forum wie hier ihre Ideen diskutiert haben. Mittlerweile ist das Forum weg und da hat sich jetzt eine ambitionierte Firma entwickelt. Einige Leute die dort am Anfang eigenes Material veröffentlicht haben sind heute bei Profi Clubs angestellt.

Fußball ist auch schon seit Jahren am MIT bei der jährlichen Sloan Sports Analytics Conference vertreten. Da wird natürlich auch versucht die Fortschritte in den anderen Sportarten auf Fußball zu übertragen weil es ein gewaltiger Markt ist. Da ist auch der deutsche Fußball vertreten.

Insofern läuft das schon eine ganze Weile. Ich bezweifle, dass man Fußball jemals so umfassend beschreiben kann wie Baseball oder auch (in ageschwächter Form) Basketball und American Football. Und gerade der Impact von einzelnen Spielern kann in naher Zukunft sicher nicht in eine Zahl gepackt werden. Aber in einzelnen Aspekten hat das natürlich auch schon jetzt Einfluss.

@Mahoney_jr

Kannst ja auch mal "statsbomb free data" googeln. Da findest vielleicht interessante Rohdaten zum Herumspielen :)
 

Mahoney_jr

Bankspieler
Beiträge
22.353
Punkte
113
Ort
Country House
Die Abweichung zwischen realen Zahlen und expected Goals Zahlen ist bei kleiner/normaler Sample Size (selbst eine Saison ist wenig) einfach nur Zufall. Wenn es langfristig starke Abweichungen gibt und ein Spieler über 5 Jahre konstant "überperformed" muss man sich die Zahlen genauer anschauen. Ich würde dann wohl zunächst davon ausgehen, dass der Spieler es schafft extrem viele Abschlüsse aus seinen "Lieblingspositionen" herauszuspielen.

Wenn Barca jetzt plötzlich mehr Flanken schlägt, kommt Messi zu mehr Kopfbällen. Dann wird er wohl kaum weiterhin so deutlich "überperformen". Aber das würde überhaupt nichts an seinen Qualitäten als Finisher verändern. Dementsprechend halte ich es wirklich für absolut falsch wenn man mit dieser Zahl die Qualität eines Stürmers ausdrücken will.... Und es klang manchmal so bei den Ausführungen von @Mahoney_jr

Erstmal vielen Dank für das ausführliche Feedback!

Wegen XG = Tore: Wie erklärst du dann, dass bei einer Sample Size von über 40.000 gespielten Minuten, eine besonders überlegene Mannschaft 11% mehr Tore schießt und eine besonders unterlegene Mannschaft 11% mehr Tore kassiert als XG erwarten würden? Das ist ja der Grund für meinen Post gewesen.

Da stecken sicherlich viele mögliche Erklärungen drin (denn es sind ja sehr viele Minuten), aber im Trend reißt XG einfach aus. XG kann offensichtlich sehr gut den Durchschnitt abdecken, aber nicht große Differenzen bei der Qualität der aufeinander treffenden Mannschaften. Der Rest ist dann schwer zu beweisen, aber ich denke, bei den Resultaten ist tatsächlich Fakt, dass XG =/= Tore, bei hohem Qualitätsunterschied der Mannschaften.

Und das liegt daran, dass laut Wettbüros überlegene Mannschaften mehr Tore schießen als die XG erwarten würden und das (laut Wettbüros unterlegene) Mannschaften mehr kassieren. Aber unterlegene Mannschaften treffen genau so gut, wie XG voraussagen. Lustig :) D.h. die XG versagen nicht bei der Defensive der überlegenen Mannschaften, sondern eher in der Offensive. Und vice versa versagen sie nicht in der Offensive der unterlegenen Mannschaften, sondern eher in der Defensive.

Es bleibt dann wieder die Frage: Warum bekommt XG es nicht hin, die tatsächlichen Tore von überlegenen Mannschaften abzubilden? Und das gilt gar nicht so sehr für Bayern, denn die sind einfach nicht sehr effizient (der Unterschied wäre also noch deutlicher, wenn Lewandowski kein so schlechtes Jahr hätte und die statistisch gerechtfertigten 10+ mehr geschossen hätte). Auch Hoffenheim hatte letztes Jahr ein sehr ineffizientes Jahr. Andere Teams hingegen treffen richtig gut, wenn sie als überlegen eingeschätzt werden (Wolfsburg, Düsseldorf, Freiburg, Augsburg, Bremen, Leverkusen und natürlich Dortmund). Hier nur Daten von Minuten mit Siegwahrscheinlichkeit über 50%, aufgesplittet auf die jeweiligen Teams).

4088

Du kannst natürlich einzelne Faktoren berücksichtigen aber du kannst nie das Problem lösen, dass der Trainer ja nicht zufällig aufstellt. Der passt seine Entscheidungen doch den Umständen an. Schon beim Basketball gibt es da kleine Verzerrungen aber da ist die Rotation doch relativ konstant und dadurch viel näher an einer zufälligen Minutenverteilung für alle Spieler. Und genau diese zufällige Minuten und Einsatzverteilung brauchst du für aussagekräftige Zahlen.

Und auch die Wettquoten muss man da vorsichtig betrachten. Denn die verändern sich ja auch abhängig vom aktuellen Kader:
Mal angenommen der BVB spielt zweimal gegen Bayern. Einmal mit Hazard auf dem linken Flügel. Ergebnis 2:2 Expected Goals auch 2:2

Im nächsten Spiel mit Reus statt Hazard: Leistung, Ergebnis und Expected Goals identisch. Dann wird nach deiner Formel aber Hazard als der bessere Spieler angesehen. Du hast schließlich die Wettquoten eingebaut und die waren für den Sieg mit Reus mit Sicherheit etwas kleiner als im anderen Spiel durch den Ausfall von Reus ;)

Das verzerrt deine Daten extrem wenn der BVB viele Ausfälle hat und Spieler ersetzen muss.

Das habe ich nicht ganz verstanden. Die Wettquoten sind das Ergebnis von schlauen Statistikern (und Data Scientists undundund) auf Basis von allen Informationen, die es gibt (Stärke zuhause/auswärts, Verletzungen, Trend etc.). Sie bildet also die "Qualität" einer Mannschaft deutlich besser ab, als Tabellenstand o.ä. . Und ich kenne keine Statistik, die XG schonmal gegen diese "Qualität" gelegt hat. Daher ist es schon recht interessant, eine mögliche "Schwachstelle" von XG darzulegen.

Was soll das also bedeuten? Nicht jeder Spielerausfall kann eingepreist werden. Aber die Quoten NICHT mit reinzunehmen, kann auch keine Lösung sein. Favre stellte z.B. Delaney noch lieber auswärts als zuhause auf. Sowas drückt sich in den anteiligen Quoten für Delaney aus. Oder Dahoud hat viele seiner wenigen Minuten gegen Bayern gespielt. Da kann man natürlich schlechter seine Stats padden, als ein Joker, der immer 30 Minuten gegen Abstiegskandidaten bekommt.

Warum berücksichtigst du denn überhaupt die real erzielten Tore? Es ist doch unstrittig, dass die Expecte Goals Werte viel aussagekräftiger sind um die Leistung zu beschreiben!?

Das ergibt sich schlussendlich aus den obigen Ausführungen. Trainer, Mannschaften etc. werden nicht nach XG bewertet, sondern nach tatsächlichen Toren. Wenn ein Spieler mehr auf dem Platz steht, als ein anderer, dann manchmal auch, weil man mit ihm tatsächlich erfolgreicher war (und nicht nur nach XG). Gleichzeitig sind XG aber sehr, sehr wertvoll, und daher wollte ich sie unbedingt mit drin haben. Hätte ich XG übrigens nicht mit drin, dann würde ich deutlich weniger Aufwände bei der Erstellung der Datenbasis haben...

Aber so wie ich die Werte immer dargestellt habe, kann man auch alles nur rein auf XG bewerten. Wenn du möchtest, kann ich das auch in Relation zu Wettquoten setzen, also die "Team Goals" tatsächlich ohne die eigentlich geschossenen Tore ausweisen. Ist nur wenig Aufwand...

Selbst American Football kann man besser"in Einzelaspekte" unterteilen. Beim Football geht das Spiel immer in eine Richtung. 20 Yards vorwärts ist immer gut und es ist messbar wie sehr sich das einem Punkterfolg näher bringt. Die Spielzüge sind voneinander getrennt. auch beim Basketball kannst du das Spiel viel einfacher in einzelne Angriffe gliedern und dann untersuchen.

Fußball (oder auch Hockey) ist da eher Chaos. Umkämpfte Bälle im Mittelfeld, manchmal will das Team den Ball überhaupt nicht haben. Rückpässe sind Raumverlust aber trotzdem oft sinnvoll....

Darum sind ja auch fast alle "alten" Statistiken absolut sinnfrei. Zweikampfquote, Ballbesitzanteil, Laufleistung oder Passquoten haben keine Aussagekraft darüber wer das Spiel gewinnt.

Und dann kam "Packing" :)
Es war eine sensationelle Marketing Aktion, dass dieser sinnlose Quatsch bei bester Sendezeit über Wochen im TV erklärt wurde.

Ja, ich halte Fußballstatistiken auch für nicht gut. Gerade deshalb habe ich ja mit der Statistik begonnen. Individuell gibt es eigentlich kaum etwas, was die Qualität eines Spielers wirklich zum Ausdruck bringt. Da sind Kicker-Noten ironischerweise noch das beste. Und das ist schon traurig...

Ich selbst finde jedenfalls, dass ich erst am Anfang bin und versuche mich ranzutasten. Bis dahin habe ich aber, wie ich finde, ein paar nette Dinge herausgefunden.

Oder wusstest du dass ein Spiel mit zwei gleichstarken Mannschaften, bei der die eine aber auf einen Spieler verzichten muss (rote Karte in der 1. Minute) im Durchschnitt 0 zu 2,21 für diese ausgeht? Übrigens ist die höchste Quote die ich bisher hatte, war eine "25" und die besagt demnach 4% Siegwahrscheinlichkeit. Hier geht ein Spiel im Schnitt 0 zu 1,79 aus. In Relation dazu senkt also eine rote Karte deine Siegwahrscheinlichkeit auf deutlich unter 4%! Ich glaube nicht, dass so etwas allgemein bekannt ist. Rote Karten sind schlimmer, als als Aufsteiger in München zu spielen :)

Oder die o.g. Tatsache, dass XG es nur schafft, bei ähnlich starken Mannschaften die Realität komplett abzubilden?

Oder wie viele Tore eine Mannschaft mit Spieler A in der Startelf schießt?

Oder oder oder :)

Kannst ja auch mal "statsbomb free data" googeln. Da findest vielleicht interessante Rohdaten zum Herumspielen :)

Kenn ich :)
 
Zuletzt bearbeitet:

xEr

Bankspieler
Beiträge
12.727
Punkte
113
Oder die o.g. Tatsache, dass XG es nur schafft, bei ähnlich starken Mannschaften die Realität komplett abzubilden?

Da kann ich nicht mitgehen. Was sagt xG denn überhaupt aus? Dass aus den abgegebenen Torschüssen im Durchschnitt der ausgewerteten Torschüsse eine bestimmte Anzahl an Toren erzielt wurde. Das wars. Es handelt sich hierbei um ein Maß, das die Leistung einer Mannschaft genauer wiedergeben soll als nur das Ergebnis. Und genau das erreicht xG. Das hat nichts mit "Realität komplett abbilden" zu tun. Die Aussagekraft von xG ändert sich doch nicht deswegen, weil die Torschüsse später besser oder schlechter verwertet werden.

Ansonsten bin ich bei dem Punkt aber auch nicht ganz bei @le Tissier. Die Differenz zwischen xG und tatsächlich erzielten Toren kommt nicht nur aufgrund von Zufall zustande, auch wenn der kurzfristig bestimmt den größeren Effekt hat. Sobald ich Spieler habe die ihre vorhandenen Torschüsse besser/schlechter nutzen als der betrachtete Durchschnitt oder einen Torhüter der die betrachteten Schüsse besser/schlechter hält als der Durchschnitt macht sich das natürlich auch bemerkbar.

Beispiel: 11meter werden mit xG = 0,76 bewertet. Der betrachtete Durchschnitt verwertet einen 11meter also mit einer 76% Chance. Ich glaube niemand würde auf die Idee kommen, dass jeder 11meter Schütze gleich gut ist und die Trefferquote alleine vom Zufall abhängt. Auch wenn der sicher ne gute Rolle spielt, da die Sample Size für 11meter pro Spieler/Mannschaft relativ klein sein wird. Aber an der Aussagekraft von xG ändert dies nichts. Die herausgespielte Chance (11meter) hat eine gewisse Qualität, die aber erstmal unabhängig vom später ausführenden Schützen ist. Wenn in einem Spiel zwischen Mannschaft A und Mannschaft B die Erstere einen 11meter bekommt und Mannschaft B zwei 11meter, dann wird ja auch niemand sagen, dass Mannschaft A die besseren Chancen hatte, weil deren 11meter Schütze auf dem Papier zu 90% verwandelt, während der 11meter Schütze von Mannschaft B nur zu 30% verwandelt.
 
Zuletzt bearbeitet:

Mahoney_jr

Bankspieler
Beiträge
22.353
Punkte
113
Ort
Country House
Da kann ich nicht mitgehen. Was sagt xG denn überhaupt aus? Dass aus den abgegebenen Torschüssen im Durchschnitt der ausgewerteten Torschüsse eine bestimmte Anzahl an Toren erzielt wurde. Das wars. Es handelt sich hierbei um ein Maß, das die Leistung einer Mannschaft genauer wiedergeben soll als nur das Ergebnis. Und genau das erreicht xG. Das hat nichts mit "Realität komplett abbilden" zu tun. Die Aussagekraft von xG ändert sich doch nicht deswegen, weil die Torschüsse später besser oder schlechter verwertet werden.

Ist vielleicht falsch ausgedrückt. Aber das Ziel ist ja schon, auf gesamter Sicht für den Algorithmus: XG = Tore

Und das klappt nicht bei Überlegenheit.
 

L-X

Human Intelligence (pre-Alpha)
Beiträge
4.222
Punkte
113
...
Das habe ich nicht ganz verstanden. Die Wettquoten sind das Ergebnis von schlauen Statistikern (und Data Scientists undundund) auf Basis von allen Informationen, die es gibt (Stärke zuhause/auswärts, Verletzungen, Trend etc.)...
Ich habe die bisherige Diskussion nur kurz überflogen (wenn ich dazu komme, werde ich mich sicher etwas intensiver damit befassen), aber den Einfluss der Quoten halte ich grundsätzlich für problematisch. Die Ausgangsquoten sind zeitlich zu weit vom Ereignis entfernt, um die Kräfteverhältnisse vernünftig abbilden zu können. Je näher das Ereignis rückt, desto besser wird logischerweise die Prognosequalität. Deren Einfluss wird aber durch das Verhalten der Wetter mit zunehmendem Volumen immer geringer.
 

Blayde

Bankspieler
Beiträge
13.155
Punkte
113
Trotzdem die beste Art, Siegwahrscheinlichkeiten abzubilden oder nicht?
 

L-X

Human Intelligence (pre-Alpha)
Beiträge
4.222
Punkte
113
Ah ok, dann reden wir allerdings nicht mehr von Ergebnissen schlauer Statistiker, sondern - wenn man den Begriff für angemessen hält - von der Schwarmintelligenz der Wetter. ;)
 
Oben