Furiosa
Weiches Brötchen
- Beiträge
- 13.262
- Punkte
- 113
Da ich die nächsten Wochen und Monate an einer umfangreicheren Arbeit über gewisse statistische Modelle im Fußball, speziell bezogen auf die Bundesliga, sitze, kann ich ja ein paar der Ergebnisse hier teilen bzw. mal einen generellen Diskussionsthread zu dem Thema öffnen.
Ziele dieser Modelle sind dabei sowohl das Geschehene besser zu beschreiben (besser als es bspw. reine Punktzahlen oder Tordifferenzen könnten), als auch die Vorhersagequalität zu steigern.
Ich beginne mal mit der recht einfachen und statistikaffinen Fußballfans gut bekannten "Total Shots Ratio".
Die Total Shots Ratio (TSR) klingt fancy, heißt aber simpel übersetzt nur: Schüße zählen! Sie beschreibt den Anteil an Torschüssen (=/ Schüßen aufs Tor), den eine Mannschaft an der Gesamtzahl hat. Beispiel: Wenn die Bayern gegen den HSV 20x aufs Tor schießen und Hamburg nur 10x ist die TSR bei 0,666 (bzw. 0,333 beim HSV).
TSR=Anzahl Schüsse des Teams / (Schüsse eigenes Team + Schüsse des Gegners)
Im Beispiel: 20 / (20+10) = 0,667
Über alle Teams in einer Saison gesehen ist die TSR logischerweise immer bei genau 0,5.
Möchte man nun eine Prognose über die Punktzahlen der kommenden Saison erstellen erweist sich die TSR als stärkerer Indikator als würde man nur die Punktzahlen oder Tordifferenzen der letzten Saison betrachten.
Ich habe zur Veranschaulichung mal die Total Shot Ratios aller Bundesligisten der letzten zwei Saisons (36 Datenpunkte) gesammelt und den letztendlich erreichten Punkten gegenübergestellt. Die Daten stammen von whoscored.com.
R² = 0,54
R squared von 0,54 beschreibt eine durchaus verlässliche Metrik, was das genau bedeutet muss hier nicht ausführlich beschrieben werden, allerdings möchte man grundsätzlich einen höheren Wert erreichen, aber dazu später mehr.
Die beabsichtigte Aussage erkennt man ja auf dem Bild, eine hohe TSR spricht zwar für viele Punkte, garantiert sie aber noch lange nicht. Bayern dominiert wie man es erwartet die Gegner mit gewissem Abtand. Die größten Ausreißer erkennt man sowohl beim BVB als auch bei Gladbach der letzten Saison. Gerade Gladbach hat im Schnitt weniger Torschüße als der Gegner ohne das sich das nun zwei Jahre hintereinander auf die Performance auswirkt. Das Modell stößt hier an klare Grenzen, wir selber wissen woran es liegt, können die Methode dahinter beschreiben, aber durch dieses Modell nicht darstellen.
TSR wiederholbar?
Hier habe ich mal die 16 Teams zusammengestellt, die die beiden letzten Saisons in der BL waren und die TSR auf ihre Wiederholbarkeit geprüft:
R²=0,64
Nicht, dass 16 Daten ausreichend sind, aber es dient auch hier erstmal nur der Veranschaulichung. Größere Datenmengen haben einen tendenziell niedrigeren r-squared Wert ergeben. Es deutet jedenfalls darauf hin, dass die TSR in der ersten Saison einen guten Hinweis auf TSR in der zweiten Saison gibt. Die Teams verhalten sich alle recht ähnlich, aber auch größere Abweichungen um 0,05 sind nicht selten. Zwei der größeren Ausreißer zuletzt (Leverkusen, Werder) hatten ja einen durchaus entscheidenden Trainerwandel durchgemacht. Sicherlich auch ein wichtiger Grund für die veränderten Werte.
Würde man nun von beiden Darstellungen hier erste, einfache Ableitungen ziehen wollen käme man wohl zum Schluß, dass gerade beim BVB aber auch bei Leverkusen punktetechnisch Raum nach oben ist, dass Wolfsburg letztes Jahr überperformte und das Schalke auf einem noch größeren Abwärtstrend ist als durch die Punkte dargestellt wurde. Alles keine komplett bahnbrechenden Erkentnisse natürlich, aber ein Anfang.
Die Schwäche von TSR
Bis 2013 war die Total Shots Ratio eine der wichtigsten advanced stats für die Statistik Nerds in den Foren und Blogs. Bis die expected goals kamen. Die TSR behandelt jeden Torschuß gleich, ob ein Verzweiflungsschuß aus 22 Metern oder eine astreine Kopfballchance mitten im 5m Raum. Alle Schüße haben den selben Wert. Auf große Datenmengen (=eine komplette Saison) gesehen ist das allerdings nicht so wichtig, die guten und schlechten Chancen gleichen sich halt irgendwann irgendwie aus, daher hat sich TSR auch recht lange gehalten - das Modell funkioniert zu einem gewissen Grad. Am Beispiel Mönchengladbach erkennt man aber auch wie massiv einige Teams falsch bewertet werden können. Die Tatsache, dass Favre mit seinem Team zwar weniger, dafür hochprozentigere Chancen kreiert wird klar übersehen, TSR suggeriert hier mehr Glück als da war. Aber gut, fürs erste genug.
Ziele dieser Modelle sind dabei sowohl das Geschehene besser zu beschreiben (besser als es bspw. reine Punktzahlen oder Tordifferenzen könnten), als auch die Vorhersagequalität zu steigern.
Ich beginne mal mit der recht einfachen und statistikaffinen Fußballfans gut bekannten "Total Shots Ratio".
Die Total Shots Ratio (TSR) klingt fancy, heißt aber simpel übersetzt nur: Schüße zählen! Sie beschreibt den Anteil an Torschüssen (=/ Schüßen aufs Tor), den eine Mannschaft an der Gesamtzahl hat. Beispiel: Wenn die Bayern gegen den HSV 20x aufs Tor schießen und Hamburg nur 10x ist die TSR bei 0,666 (bzw. 0,333 beim HSV).
TSR=Anzahl Schüsse des Teams / (Schüsse eigenes Team + Schüsse des Gegners)
Im Beispiel: 20 / (20+10) = 0,667
Über alle Teams in einer Saison gesehen ist die TSR logischerweise immer bei genau 0,5.
Möchte man nun eine Prognose über die Punktzahlen der kommenden Saison erstellen erweist sich die TSR als stärkerer Indikator als würde man nur die Punktzahlen oder Tordifferenzen der letzten Saison betrachten.
Ich habe zur Veranschaulichung mal die Total Shot Ratios aller Bundesligisten der letzten zwei Saisons (36 Datenpunkte) gesammelt und den letztendlich erreichten Punkten gegenübergestellt. Die Daten stammen von whoscored.com.
R² = 0,54
R squared von 0,54 beschreibt eine durchaus verlässliche Metrik, was das genau bedeutet muss hier nicht ausführlich beschrieben werden, allerdings möchte man grundsätzlich einen höheren Wert erreichen, aber dazu später mehr.
Die beabsichtigte Aussage erkennt man ja auf dem Bild, eine hohe TSR spricht zwar für viele Punkte, garantiert sie aber noch lange nicht. Bayern dominiert wie man es erwartet die Gegner mit gewissem Abtand. Die größten Ausreißer erkennt man sowohl beim BVB als auch bei Gladbach der letzten Saison. Gerade Gladbach hat im Schnitt weniger Torschüße als der Gegner ohne das sich das nun zwei Jahre hintereinander auf die Performance auswirkt. Das Modell stößt hier an klare Grenzen, wir selber wissen woran es liegt, können die Methode dahinter beschreiben, aber durch dieses Modell nicht darstellen.
TSR wiederholbar?
Hier habe ich mal die 16 Teams zusammengestellt, die die beiden letzten Saisons in der BL waren und die TSR auf ihre Wiederholbarkeit geprüft:
R²=0,64
Nicht, dass 16 Daten ausreichend sind, aber es dient auch hier erstmal nur der Veranschaulichung. Größere Datenmengen haben einen tendenziell niedrigeren r-squared Wert ergeben. Es deutet jedenfalls darauf hin, dass die TSR in der ersten Saison einen guten Hinweis auf TSR in der zweiten Saison gibt. Die Teams verhalten sich alle recht ähnlich, aber auch größere Abweichungen um 0,05 sind nicht selten. Zwei der größeren Ausreißer zuletzt (Leverkusen, Werder) hatten ja einen durchaus entscheidenden Trainerwandel durchgemacht. Sicherlich auch ein wichtiger Grund für die veränderten Werte.
Würde man nun von beiden Darstellungen hier erste, einfache Ableitungen ziehen wollen käme man wohl zum Schluß, dass gerade beim BVB aber auch bei Leverkusen punktetechnisch Raum nach oben ist, dass Wolfsburg letztes Jahr überperformte und das Schalke auf einem noch größeren Abwärtstrend ist als durch die Punkte dargestellt wurde. Alles keine komplett bahnbrechenden Erkentnisse natürlich, aber ein Anfang.
Die Schwäche von TSR
Bis 2013 war die Total Shots Ratio eine der wichtigsten advanced stats für die Statistik Nerds in den Foren und Blogs. Bis die expected goals kamen. Die TSR behandelt jeden Torschuß gleich, ob ein Verzweiflungsschuß aus 22 Metern oder eine astreine Kopfballchance mitten im 5m Raum. Alle Schüße haben den selben Wert. Auf große Datenmengen (=eine komplette Saison) gesehen ist das allerdings nicht so wichtig, die guten und schlechten Chancen gleichen sich halt irgendwann irgendwie aus, daher hat sich TSR auch recht lange gehalten - das Modell funkioniert zu einem gewissen Grad. Am Beispiel Mönchengladbach erkennt man aber auch wie massiv einige Teams falsch bewertet werden können. Die Tatsache, dass Favre mit seinem Team zwar weniger, dafür hochprozentigere Chancen kreiert wird klar übersehen, TSR suggeriert hier mehr Glück als da war. Aber gut, fürs erste genug.
Zuletzt bearbeitet von einem Moderator: