Wobei man sagen muss, dass die expected goals im Grunde ja nur den Durchschnitt der Verwertung einer bestimmten Chancen- bzw. Schussqualität darstellen. Wenn also von tausenden ausgewerteten Schüssen mit vergleichbaren Parametern (Entfernung, Winkel, Gegenspieler usw.) die xG meinetwegen 0,3 sind und ich einen Stürmer habe mit besserer Abschlussqualität (als der ausgewertete Durchschnitt), dann wird sich das langfristig auch in einem Delta zu seinem xG wert wiederspiegeln.
Messi schießt aus 20 Metern aus halbrechter Position vom 16er Eck auf das Tor. Er hat den Ball mit einem Flachpass im Stand erhalten, es gibt keinen Gegnerdruck, es stehen keine Gegenspieler im Schussweg und der Torwart steht zentral auf der Linie. Dann wird anhand dieser Parameter der Erwartungswert ermittelt (wie du richtig beschrieben hast) indem man die Aktion mit tausenden ähnlichen Abschlüssen abgleicht. Da sind dann vielleicht auch Versuche vom aufgerückten Süle dabei und natürlich hunderte Abschlüsse von Bellarabi, Hahn und Co. Man kann davon ausgehen, dass Messi oder Robben in dieser speziellen Situation deutlich besser abschließen als der "Durchschnitt".
Andererseits kommt Messi aber auch zu Kopfballchancen. Oder zu Abschlüssen mit dem rechten Fuß bei starkem Gegnerdruck.
In diesen Situationen ist es umgekehrt. ´Da haben dann wiederum andere Spielertypen einen Vorteil.
Man kann sicher nicht so tun als wäre die Qualität des Spielers überhaupt kein Einflussfaktor. Aber grundsätzlich basiert das ganze Konzept der Expected Goals auf der Erkenntnis, dass es beim reinen Verwerten der Torchancen keine großen Unterschiede anhand der Qualität der Spieler gibt. Das ist der Kern der ganzen Geschichte. Darum ist es absurd wenn man anhand der Abweichung zwischen realen Daten und den expected Goals Daten die Qualität eines Stürmers bestimmen will.
Die Klasse eines Spielers zeigt sich in den absoluten Zahlen. Ein guter Spieler kommt häufiger in Abschlusspositionen. Weil er selbst die Leute ausdribbelt und zum Abschluss kommt oder eben weil er das bessere Timing hat und im richtigen Moment startet um die Flanke zu erreichen.
Und dazu schafft es der bessere Spieler eben auch die "besseren Chancen" herauszuspielen. Shaqiri schießt aus 25 Metern aufs Tor, Robben macht noch einen kleinen Haken und schon steht er zentraler und näher am Tor und hat 10% mehr Trefferwahrscheinlichkeit.
Anderes Beispiel mit Zahlen:
Sandro Wagner lauert am langen Pfosten auf die Flanke und muss mit dem Verteidiger ins Kopfballduell. Starke Bedrängnis. Erwartungswert anhand der Expected Goals Daten: 14%
Lewandowski macht bei der gleichen Flanke vorher eine Finte und täuscht den Weg zum kurzen Pfosten an. Verteidiger macht einen Schritt nach vorne und Lewandowski köpft unbedrängt ohne Gegnerdruck: 55% Wahrscheinlichkeit
Das zeigt den Qualitätsunterschied. Und darum sind die absoluten Werte wichtig. Vielleicht köpft Lewandowski in der Szene dann nur 50% statt 55% der Dinger wirklich ins Netz. Und Sandro Wagner schafft sogar 20% statt der erwarteten 14%
Dann ist Lewandowski 5% schlechter als erwartet und Wagner 6% besser. Das ist aber nicht entscheidend. Denn bei 10 identischen Flanken würde Lewa 5 Buden machen und Wagner nur 2.
Die Abweichung zwischen realen Zahlen und expected Goals Zahlen ist bei kleiner/normaler Sample Size (selbst eine Saison ist wenig) einfach nur Zufall. Wenn es langfristig starke Abweichungen gibt und ein Spieler über 5 Jahre konstant "überperformed" muss man sich die Zahlen genauer anschauen. Ich würde dann wohl zunächst davon ausgehen, dass der Spieler es schafft extrem viele Abschlüsse aus seinen "Lieblingspositionen" herauszuspielen.
Wenn Barca jetzt plötzlich mehr Flanken schlägt, kommt Messi zu mehr Kopfbällen. Dann wird er wohl kaum weiterhin so deutlich "überperformen". Aber das würde überhaupt nichts an seinen Qualitäten als Finisher verändern. Dementsprechend halte ich es wirklich für absolut falsch wenn man mit dieser Zahl die Qualität eines Stürmers ausdrücken will.... Und es klang manchmal so bei den Ausführungen von
@Mahoney_jr
Das ist in der Tat tricky, aber ich habe halt die Wettquoten, eine Logik für Überzahl/Unterzahl, sowie Datenpunkte, ob man von Beginn an gespielt hat oder nach einem Wechsel. Das hilft, die Daten zu interpretieren.
Dazu habe ich sowohl tatsächlichen Erfolg (Tore, Gegentore), wie auch XG/XGA against, in gleichen Teilen berücksichtigt. Und das für jede einzelne Minute, die ein Spieler auf dem Platz stand und mit der Angabe der o.g. jeweiligen Siegwahrscheinlichkeit.
Ich kann auch danach schauen, ob jemand eher zuhause oder auswärts zum Einsatz kam... das wird zwar in der Siegwahrscheinlichkeit ausgedrückt, aber manche Teams performen auswärts halt einfach schlechter als andere oder umgekehrt.
Mein Ziel ist es, dass in einer einzigen Kennzahl auszudrücken. Aber die ist natürlich sehr angreifbar, das verstehe ich. Durch die ganzen zusätzlichen Informationen wird aber sicherlich absehbar sein, ob Freiburg mit Guede mehr oder weniger Tore kassiert im Kontext der Stärke der Gegner.
Du kannst natürlich einzelne Faktoren berücksichtigen aber du kannst nie das Problem lösen, dass der Trainer ja nicht zufällig aufstellt. Der passt seine Entscheidungen doch den Umständen an. Schon beim Basketball gibt es da kleine Verzerrungen aber da ist die Rotation doch relativ konstant und dadurch viel näher an einer zufälligen Minutenverteilung für alle Spieler. Und genau diese zufällige Minuten und Einsatzverteilung brauchst du für aussagekräftige Zahlen.
Und auch die Wettquoten muss man da vorsichtig betrachten. Denn die verändern sich ja auch abhängig vom aktuellen Kader:
Mal angenommen der BVB spielt zweimal gegen Bayern. Einmal mit Hazard auf dem linken Flügel. Ergebnis 2:2 Expected Goals auch 2:2
Im nächsten Spiel mit Reus statt Hazard: Leistung, Ergebnis und Expected Goals identisch. Dann wird nach deiner Formel aber Hazard als der bessere Spieler angesehen. Du hast schließlich die Wettquoten eingebaut und die waren für den Sieg mit Reus mit Sicherheit etwas kleiner als im anderen Spiel durch den Ausfall von Reus
Das verzerrt deine Daten extrem wenn der BVB viele Ausfälle hat und Spieler ersetzen muss.
----
Warum berücksichtigst du denn überhaupt die real erzielten Tore? Es ist doch unstrittig, dass die Expecte Goals Werte viel aussagekräftiger sind um die Leistung zu beschreiben!?
Ich bin von Team-Statistiken im Basketball (Baseball ist fast nur individueller Sport, Football bin ich weniger Experte als Basketball) aber ehrlicherweise ebenfalls weniger überzeugt, als von individuellen Statistiken. Die mögen sicherlich besser sein als meine (hey, das ist ein Projekt was nicht mal 6 Monate als ist
), aber sie kranken immer am Pudel's Kern: wie gut passen Spieler zusammen. Da kann ich x Mal die Advanced Stats von mehreren Rollenspielern abfeiern, wenn ich sie zusammen bringe und keiner kreiert, wird es dennoch nicht funktionieren.
Im Fußball ist aber sowas von Brachland, was gute Stats anbelangt, dass ich schon glaube, dass man sich dem widmen sollte. Und so wirklich gar nicht scheint der Bereich des Impacts auf den Team-Erfolg beackert zu werden...
Selbst American Football kann man besser"in Einzelaspekte" unterteilen. Beim Football geht das Spiel immer in eine Richtung. 20 Yards vorwärts ist immer gut und es ist messbar wie sehr sich das einem Punkterfolg näher bringt. Die Spielzüge sind voneinander getrennt. auch beim Basketball kannst du das Spiel viel einfacher in einzelne Angriffe gliedern und dann untersuchen.
Fußball (oder auch Hockey) ist da eher Chaos. Umkämpfte Bälle im Mittelfeld, manchmal will das Team den Ball überhaupt nicht haben. Rückpässe sind Raumverlust aber trotzdem oft sinnvoll....
Darum sind ja auch fast alle "alten" Statistiken absolut sinnfrei. Zweikampfquote, Ballbesitzanteil, Laufleistung oder Passquoten haben keine Aussagekraft darüber wer das Spiel gewinnt.
Und dann kam "Packing"
Es war eine sensationelle Marketing Aktion, dass dieser sinnlose Quatsch bei bester Sendezeit über Wochen im TV erklärt wurde.
Es gibt ja professionelle Anbieter wie opta, die sich mit Statistiken im Fußball intensiv befassen und diese aufbereitet z.B. an Fußballclubs oder Sportmedien verkaufen. Da werden schon Teams von Statistikern oder Mathematikern sitzen, die sich Gedanken machen. Z. B. finde ich die expected goals schon ne super Statistik, deren Ausarbeitung und Messbarkeit ne Menge Aufwand erfordert haben muss.
Was den Impact auf den Team-Erfolg angeht: Das scheint aus besagten Gründen im Fußball außerordentlich schwierig. Vielleicht gibt es auch dort schon einigermaßen gute Modelle, die aber noch nicht den Weg in die Öffentlichkeit gefunden haben. Wenn es was gibt, ließe es sich jedenfalls gut verkaufen und dann will der Käufer es nicht for free im TV oder Internet sehen. Ich kanns mir allerdings kaum vorstellen.
Es gibt doch auch schon lange eine große Online Community die sich damit befasst.
"Statsbomb" ist mir vor Jahren noch als Zusammenschluss von einigen Nerds in Erinnerung die in einem Forum wie hier ihre Ideen diskutiert haben. Mittlerweile ist das Forum weg und da hat sich jetzt eine ambitionierte Firma entwickelt. Einige Leute die dort am Anfang eigenes Material veröffentlicht haben sind heute bei Profi Clubs angestellt.
Fußball ist auch schon seit Jahren am MIT bei der jährlichen Sloan Sports Analytics Conference vertreten. Da wird natürlich auch versucht die Fortschritte in den anderen Sportarten auf Fußball zu übertragen weil es ein gewaltiger Markt ist. Da ist auch der deutsche Fußball vertreten.
Insofern läuft das schon eine ganze Weile. Ich bezweifle, dass man Fußball jemals so umfassend beschreiben kann wie Baseball oder auch (in ageschwächter Form) Basketball und American Football. Und gerade der Impact von einzelnen Spielern kann in naher Zukunft sicher nicht in eine Zahl gepackt werden. Aber in einzelnen Aspekten hat das natürlich auch schon jetzt Einfluss.
@Mahoney_jr
Kannst ja auch mal "statsbomb free data" googeln. Da findest vielleicht interessante Rohdaten zum Herumspielen