Dinge die keinen eigenen Thread verdienen


sinabambina

Nachwuchsspieler
Beiträge
160
Punkte
0
....Nerdz,Hust,Hust,ächz :D

ich glaube ich muss mir das nochmal 2 bis 3 mal durchlesen bis ich das kapiert habe:laugh2:
 

Sm0kE

The Magic Man
Beiträge
22.193
Punkte
113
Gut, da kann mystic aber nichts dafür, im Gegenteil. Fachbegriffe übersetzen ist meistens eine noch viel schlechtere Idee. ;)
 

mystic

Bankspieler
Beiträge
10.114
Punkte
113
Gut, da kann mystic aber nichts dafür, im Gegenteil. Fachbegriffe übersetzen ist meistens eine noch viel schlechtere Idee. ;)

Na gut, das mag bei einigen Sachen stimmen. Beispielsweise weiß ich wirklich nicht, wie ein sampling bias in Deutsch heisst, aber ein ill-posed problem kann in dem Fall als überbestimmtes Gleichungssystem bezeichnet werden (mehr Gleichungen als Variablen, ca. 230k Events in einer Saison (Gesamtanzahl der Possession), währenddessen "nur" ca. 480 Spieler als Variablen vorhanden sind); multicollinearity ist einfach Multikollinearität (Spieler haben mitunter viele ihrer Minuten mit einem oder mehreren anderen Spielern zusammen, sodass sie schwer von einander getrennt werden können) und overfitting ist halt eine Überanpassung, bei der dann jedwede kleine Abweichung dazu genutzt wird, um eine Separation zwischen Spielern herzustellen (besonders bei Spielern, die oft zusammenspielen, weil sie unterschiedliche Positionen bekleiden), die so nicht realistisch ist.

Aber wenigstens habe ich nicht einfach ein paar Gleichungen hingeknallt; zumindest mal ein Fortschritt. Ich hatte es auch schon geschafft, einfach so etwas zu hinterlassen:


β = (X^(T)X + λI)^(-1)X^(T)y

mit

bias(β) = -λUβ

wobei

U = (X^(T)X + λI)^(-1)

und

β - Vektor der Koeffizienten
X - Design-Matrix (unabhängige Variablen)
X^(T) - transponierte Design-Matrix
y - Vektor der abhängigen Variablen
λ - Penalisierungsparameter (heisst das so auf Deutsch?)

um Ridge Regression zu erklären. So, wenn man jetzt keine Ahnung hat, was Vektoren und Matrizen sind, sowie Matrix-Algebra nicht versteht, bringt das mal den Leuten überhaupt nichts. Aber so sieht dann die Mathematik dahinter in der Tat aus. Jetzt wandelt man einfach das pbp in so eine Design-Matrix um, in dem die Heimspieler, die auf dem Feld sind, dann einfach alle eine 1 zugeschrieben bekommen, während bei den jeweiligen Auswärtsspieler -1 steht. Das jeweilige Ergebnis der Possession wird in den dazugehörige y-Vektor geschrieben (also 0, 1, 2, 3, 4, etc. Punkte, je nachdem, wie viele denn erzielt wurden). Anschliessend nutzt man das, um via cross validation das λ zu bestimmen (dabei wird einfach versucht, mit Hilfe einer Teilmenge der Stichprobe ein andere Teil der Stichprobe bestmöglich "vorherzusagen"), was eben die kleinste Abweichung präsentiert. Wenn man dann das λ hat, ergibt sich dann der Rest von selbst.
Wenn dann noch ein prior genutzt wird, dann wird da entweder ein Term für die angenommene Verteilung oder aber ein Vektor mit den jeweiligen prior-Werten für die einzelnen Spieler als Koeffizient jeweils der transponierten Matrix vorangestellt. Dadurch werden die Ergebnisse (also die βs) einfach in eine vorgegebene Verteilung gezwungen, und entwickeln sich dann in Abhängigkeit von dem gewählten prior-Wert.
Dann könnte man das noch gewichten, in dem man bestimmten Resultaten einer Possession in Abhängigkeit von irgendetwas (beispielsweise in Abhängigkeit der gespielten Minuten im Spiel, oder vom Ergebnis, oder ob es ein b2b oder 4in5 Spiel ist, etc. pp.) eine höhere/niedrigere Wertigkeit zuspricht.

Am Ende muss man muss sich denn Effekt der ridge regression gegenüber der Methode der kleinsten Quadrate dann in etwa so vorstellen, als ob jemand gegen ein Gummiband ankämpft und nur wenn er stark genug daran zieht, kann er sich effektiv vom Ausgangspunkt wegbewegen und dabei den Ansatzpunkt des Gummibandes verschieben. Dabei ist in unserem Fall die "Stärke" durch die Stichprobengröße und den jeweiligen Effekt des Einzelspielers bestimmt. Je größer die Stichprobe und umso stärker die Abweichung des Spielers vom Ausgangswert, desto wahrscheinlicher wird eine Verschiebung. Daraus ergibt sich ein Problem, wenn ein Spieler nämlich nur sehr selten aufgestellt wird, dann kann er sich kaum vom initialen Wert entfernen. Wenn kein prior angesetzt ist, dann ist der initiale Wert 0 (also der erwartete Durchschnitt am Ende), weswegen dann besonders schlechte Spieler, die wegen ihrer mangelnden Fähigkeiten nicht eingesetzt werden, eher dazu tendieren, mit dem Verfahren überbewertet zu werden. Nimmt man dann allerdings von vorneherein an, dass solche Spieler schlecht sind, dann bekommt man am Ende ein Resultat, was eine bessere Vorhersagequalität hat. Auch für andere Spieler hat der prior den Effekt, dass die Varianz in einer kleineren Stichprobe quasi überdeckt werden kann, was letztendlich zu mehr Stabilität und bessere Prognosefähigkeit führt,

Na gut, keine Ahnung, ob das jetzt hier hilfreicher insgesamt ist ...

Wenn jemand Fragen hat, kann ich gern versuchen sie zu beantworten oder mit besseren Beispielen zu illustrieren.
 

Big d

Bankspieler
Beiträge
29.630
Punkte
113
mal ne OT frage an die experten:

warum muss im Basketball eigentlich der gefoulte selber werfen? wäre es nicht sinnvoll wie im Fußball einen zu bestimmen, so könnte jedes Team einen experten haben und Teams würden für das foulen als taktisches mittel nicht auch noch belohnt werden.

taktiken wie damals "hack a shaq" funktionieren ja nur deshalb, würde dann ein 88% schütze an die Linie gehen würde es sicher weniger fouls geben.
 

schafwolf

Nachwuchsspieler
Beiträge
147
Punkte
0
Wenn dann noch ein prior genutzt wird, dann wird da entweder ein Term für die angenommene Verteilung oder aber ein Vektor mit den jeweiligen prior-Werten für die einzelnen Spieler als Koeffizient jeweils der transponierten Matrix vorangestellt. Dadurch werden die Ergebnisse (also die βs) einfach in eine vorgegebene Verteilung gezwungen, und entwickeln sich dann in Abhängigkeit von dem gewählten prior-Wert.
Dann könnte man das noch gewichten, in dem man bestimmten Resultaten einer Possession in Abhängigkeit von irgendetwas (beispielsweise in Abhängigkeit der gespielten Minuten im Spiel, oder vom Ergebnis, oder ob es ein b2b oder 4in5 Spiel ist, etc. pp.) eine höhere/niedrigere Wertigkeit zuspricht.
...
Dabei ist in unserem Fall die "Stärke" durch die Stichprobengröße und den jeweiligen Effekt des Einzelspielers bestimmt. Je größer die Stichprobe und umso stärker die Abweichung des Spielers vom Ausgangswert, desto wahrscheinlicher wird eine Verschiebung. Daraus ergibt sich ein Problem, wenn ein Spieler nämlich nur sehr selten aufgestellt wird, dann kann er sich kaum vom initialen Wert entfernen.

Vielen Dank für die Ausführlichkeit! Um auf die Prior einzugehen... damit habe ich bisher mit die größten Verständnisprobleme bzw. Definitionsprobleme. Ich höre Prior meist in zwei verschiedenen Kontexten: Zum einen die Nutzung von Vorjahres-Prior, welcher den RAPM/RPM-Wert eines Spielers in einer aktuellen Saison anhand vergangener Leistungen beeinflußt und welcher durch die Possessions der aktuellen Saison auf aktuelles Niveau "korrigiert" wird. Wenn Spieler in der aktuellen Saison nur wenige Possessions loggen, ergibt sich das Problem, dass dieser Ausgangswert kaum verschoben wird, sich also anhand des RAPM/RPM-Wertes kein realistisches Bild der erbrachten Leistung in dieser Saison ergibt (siehe z.B. das O-RPM Kobe oder DRose, richtig?). Ich habe gelesen, dass die Ergebnisse durch die Nutzung von dieser Vorjahres-Prior Ergebnisse "stabiler" werden. Was genau bedeutet das bzw. warum ist "non-prior informed" RAPM weniger Wert?

Der zweite Kontext, in dem ich Prior höre ist der 'BoxScore-Prior' bei xRAPM. Wird damit einfach eine bestimmte Miteinbeziehung/Gewichtung von bestimmten BoxScore-Statistiken beschrieben ähnliche wie bei WP/WS? Wenn ja, weisst du ungefähr wie stark diese ist und ob dadurch bestimmte Spielertypen (starke Rebounder z.B.) bevorzugt werden?

Außerdem: Weißt du, ob RPM einen negativen Prior für Rookies verwendet? Laut einiger Ergebnisse, die ich gesehen haben scheint das eher nicht de Fall zu sein... durch die Einbeziehung der Alterskurve müsste ein Rook wie Gorgui Dieng dann doch einen großen Vorteil gegenüber jüngeren Rookies wie Giannis haben, oder? Das wäre auf ein Punkt, auf den ESPN eingehen sollte, ob nun mit Rook-Prior oder nicht...
 

TheBigO

3rd Wagner Brother
Beiträge
9.633
Punkte
113
Ich hab den höchsten Respekt vor euch, ihr mit eurer Wissenschaft und ihr mögt recht haben und allem voran den besseren GM abgeben, aber ist das nicht in etwa oder sogar noch mehr aufwändiger als das Spiel/die Spiele selber zu verfolgen? Was ist der Nutzen davon? Wenn jemand sowas drauf hat, hätte er dann mehr Chancen wirklich mal Trainer zu werden im US-Basketball?

Nutzen die vielen Assistent Coaches auch sowas, oder seid ihr da in der Vorreiter-Rolle?

Soll nicht derespektierlich klingen, wills nur wissen.
 

mystic

Bankspieler
Beiträge
10.114
Punkte
113
Was genau bedeutet das bzw. warum ist "non-prior informed" RAPM weniger Wert?

Varianz bei kleinerer Stichprobe ist einfach größer. Ein Spieler kann einfach zufällig dabei auf dem Feld sein, wenn das Ergebnis nicht besonders gut ist. Es ist einfach die Frage, wie zuverlässig die dann ohne prior bestimmten Werte sind. Insgesamt stellt sich dann heraus, dass sie zuverlässiger (also stabiler) werden, wenn ein prior verwendet wird. Der kann eben vielfältig aussehen, beispielsweise nutzt RPM einen prior, der aus der Linearkombination des Vorjahres-xRAPM und dem SPM (boxscore metric) besteht. Jerry hatte das mal mit 0.65*xRAPM+0.35*SPM angegeben. Ob das jetzt noch exakt für RPM stimmt, weiß ich nicht, aber zumindest die xRAPM-Werte auf seiner Webseite basieren darauf.

Wird damit einfach eine bestimmte Miteinbeziehung/Gewichtung von bestimmten BoxScore-Statistiken beschrieben ähnliche wie bei WP/WS?

Ja, dabei ist aber auch noch die Größe und Erfahrung berücksichtigt. Bei der Größe sollte das intuitiv klar sein, dass ein größerer Spieler mit gleichen Fertigkeiten insgesamt hilfreicher ist. Bei der "Erfahrung" ergibt sich ein Gewinn in der Defensive und ein Verlust in der Offensive (ersteres durch besseres "Stellungsspiel", letzteres durch Verlust an Athletik). Ansonsten ist es WP ähnlicher als WS; auch weil J.E. aus meiner Sicht keine genügend gute Trennung der Variablen vorgenommen hat (ein FT ist beispielsweise 3-mal enthalten, via FT, via FTA und via FT%), und zudem den Rebound-Bias integriert (die Defense wird einfach über den erfolgten Defensivrebound in der Boxscore abgebildet, dadurch bekommt der Rebounder im Prinzip das gutgeschrieben, was eigentlich an andere Spieler gehen sollte).

Außerdem: Weißt du, ob RPM einen negativen Prior für Rookies verwendet? Laut einiger Ergebnisse, die ich gesehen haben scheint das eher nicht de Fall zu sein... durch die Einbeziehung der Alterskurve müsste ein Rook wie Gorgui Dieng dann doch einen großen Vorteil gegenüber jüngeren Rookies wie Giannis haben, oder? Das wäre auf ein Punkt, auf den ESPN eingehen sollte, ob nun mit Rook-Prior oder nicht...

Welche Ergebnisse meinst Du damit? Royce White hat beispielsweise ein RPM von -2.03, was dann schon nah an dem üblichen Rookie-Prior von -2 liegt. Bei DJ Stephens sieht das ähnlich aus. xRAPM hat auf jeden Fall für Rookies den prior gesetzt. Bei RPM weiß ich es nicht zu 100%, aber aus meiner Sicht suggieren die Ergebnisse eben doch, dass der verwendet wird.
Die Alterskurve wird aber nach meinem Verständnis nur bei Spielern angewendet, die im Vorjahr auch spielten. Hiermit sollen ja gerade die Veränderungen über den Sommer simuliert werden (also, Verbesserungen bei jungen Spielern, Verschlechterung bei alten Spielern). Das sollte keinen Einfluss auf die Rookies haben. Ich kann mich zumindest mal an keine Erklärung erinnern, in der gesagt worden wäre, dass die Alterskurve auf Rookies angewandt wird.
 

mystic

Bankspieler
Beiträge
10.114
Punkte
113
Ich hab den höchsten Respekt vor euch, ihr mit eurer Wissenschaft und ihr mögt recht haben und allem voran den besseren GM abgeben, aber ist das nicht in etwa oder sogar noch mehr aufwändiger als das Spiel/die Spiele selber zu verfolgen?

Hast Du Dir mal überlegt, dass die Daten alle Spieler zu jedem Zeitpunkt des Spiels erfassen, und zwar in ALLEN Spielen? Versuche mal allein nur alle Spieler im Blick während einer Spielsequenz zu haben. Viel Spass dabei. ;)

Zudem ist der primäre Sinn, dass hier eine Quantifizierung vorgenommen wird, was eben beim Anschauen der Spiele mal so überhaupt nicht erfolgt. Dann kommen verschiedene kognitive Verzerrungen des Beobachters hinzu, die so in dem Datensatz gar nicht vorhanden sind. Könntest Du beispielsweise wirklich separieren, wer jetzt wie das Ergebnis beeinflusst? Nur durch Anschauen? Wie sieht es damit aus, dass Du Spieler aufgrund ihres Auftretens mehr magst als andere? Wie sieht es damit aus, dass der Fokus primär auf das Scoring gelegt wird? Wie gut kannst Du die Aktionen abseits des Balles in der Offensive und Defensive verfolgen?

Wenn jemand sowas drauf hat, hätte er dann mehr Chancen wirklich mal Trainer zu werden im US-Basketball?

Na ja, das allein macht noch keinen Coach. Die Aufgabe hierbei ist eher den Entscheidungsträgern sinnvolle Informationen zu geben, oder eben selbst auf der Management-Ebene als Entscheidungsträger zu fungieren.

http://www.countthebasket.com/blog/

Diese Webseite stammt vom aktuellen Vice President of Basketball Operations der Houston Rockets. Um mal eine Vorstellung davon zu bekommen, was damit möglich ist.

Nutzen die vielen Assistent Coaches auch sowas, oder seid ihr da in der Vorreiter-Rolle?

Die Mavericks und Cavaliers hatten Leute, die so etwas machten, schon vor über 10 Jahren. Winston/Sagarin (Mavericks) und Rosenbaum (Cavaliers) könnte man da eher als Vorreiter bezeichnen. Joe Sill hat dann vor 4 Jahren Ridge Regression hineingebracht, der arbeitet momentan für die Wizards.
 

schafwolf

Nachwuchsspieler
Beiträge
147
Punkte
0
Ich hab den höchsten Respekt vor euch, ihr mit eurer Wissenschaft und ihr mögt recht haben und allem voran den besseren GM abgeben, aber ist das nicht in etwa oder sogar noch mehr aufwändiger als das Spiel/die Spiele selber zu verfolgen? Was ist der Nutzen davon? Wenn jemand sowas drauf hat, hätte er dann mehr Chancen wirklich mal Trainer zu werden im US-Basketball?

Nutzen die vielen Assistent Coaches auch sowas, oder seid ihr da in der Vorreiter-Rolle?

Soll nicht derespektierlich klingen, wills nur wissen.


Als 'dummer', nicht-wissenschaftlicher Fan von RAPM würde ich Zach Lowes Punkte zu RPM unterschreiben. Wirklich hörenswert für NBA-Fans, die der Nutzung "advanced stats" skeptisch gegenüber stehen - http://grantland.com/the-triangle/the-lowe-post-podcast-kevin-pelton/
Wie realistisch ist es, dass du dir ein objektives Bild über die 360+ Spieler, die in einer NBA-Season in insgesamt 1000+ Spielen zum Einsatz kommen, machen kannst? Als Beobachter haben wir unsere Vorlieben für bestimmte Spieler, ergeben uns zu oft dem 'group think' gegenüber der Leistungsfähigkeit bzw. dem Wert von Spielern und über-/unterschätzen Spieler von Teams, die wir nur selten beobachten schnell mal, weil wir Sie in Phasen von hot streaks, in garbage time oder was auch immer, sehen.
Letzendlich ist das blinde Vertrauen in Ein-Zahlen-Stats (*hust*WP*hust*) genauso falsch wie das Vertrauen in die eigenen Augen. Neben den vielen spezifischen Statistiken wie TS%, USG%, STL%, ..., die IMO jeder nutzen sollte, ist RAPM/RPM ein weiteres Mittel, dass aus einem einen kritischeren NBA-Fan machen kann - zumindest hat es das aus mir gemacht und ich versuche dadurch meine festgefahrenen Annahmen über Spieler immer wieder zu überdenken und das auf mein Beobachten von NBA-Spielen zu übetragen.
 

schafwolf

Nachwuchsspieler
Beiträge
147
Punkte
0
Varianz bei kleinerer Stichprobe ist einfach größer. Ein Spieler kann einfach zufällig dabei auf dem Feld sein, wenn das Ergebnis nicht besonders gut ist. Es ist einfach die Frage, wie zuverlässig die dann ohne prior bestimmten Werte sind. Insgesamt stellt sich dann heraus, dass sie zuverlässiger (also stabiler) werden, wenn ein prior verwendet wird. Der kann eben vielfältig aussehen, beispielsweise nutzt RPM einen prior, der aus der Linearkombination des Vorjahres-xRAPM und dem SPM (boxscore metric) besteht. Jerry hatte das mal mit 0.65*xRAPM+0.35*SPM angegeben. Ob das jetzt noch exakt für RPM stimmt, weiß ich nicht, aber zumindest die xRAPM-Werte auf seiner Webseite basieren darauf.

Die Nutzung von Vorjahres-Prior ist quasi ein Mittel, um die Stichprobengröße über eine Saison hinaus zu vergrößern? Kann man sagen, um diesen "Raum", in den sich der RAPM-Wert eines Spielers einpendeln soll, möglichst genau zu definieren?

Ja, dabei ist aber auch noch die Größe und Erfahrung berücksichtigt. Bei der Größe sollte das intuitiv klar sein, dass ein größerer Spieler mit gleichen Fertigkeiten insgesamt hilfreicher ist. Bei der "Erfahrung" ergibt sich ein Gewinn in der Defensive und ein Verlust in der Offensive (ersteres durch besseres "Stellungsspiel", letzteres durch Verlust an Athletik). Ansonsten ist es WP ähnlicher als WS; auch weil J.E. aus meiner Sicht keine genügend gute Trennung der Variablen vorgenommen hat (ein FT ist beispielsweise 3-mal enthalten, via FT, via FTA und via FT%), und zudem den Rebound-Bias integriert (die Defense wird einfach über den erfolgten Defensivrebound in der Boxscore abgebildet, dadurch bekommt der Rebounder im Prinzip das gutgeschrieben, was eigentlich an andere Spieler gehen sollte).

Obwohl Annahmen für Größe/Erfahrung intuitiv logisch erscheinen, schätze ich, dass die bias für Größe/Erfahrung nicht willkürlich, sondern aus einer Beobachtung folgen, die erforscht wurde?

Wie stehst du generell zum Plug-In von BoxScore Stats? Soweit ich das verstehe, versucht RAPM so "unparteiisch" wie möglich zu sein - es gibt also kaum bis gar keine Elemente, die durch menschliche Abwägung gewichtet werden, sondern misst nur, was auf dem Feld passiert. Ist bei xRAPM die Gefahr größer, dass willkürlich bestimmte Spielertypen aufgrund ihrer Stats in bestimmten Bereichen überschätzt werden. Zum Beispiel Spieler, die eigentlich defensiv unterdurchschnittlich sind, in reboundschwachen Teams jedoch sehr stark rebounden und dadurch in xRAPM als durchschnittliche bis überdurchschnittliche Rebounder herauskommen? Ich schätze, dass der Vorjahres-Prior dies in einer gewissen Balance halten würde?

Und ich glaube das wird meine letzte Frage :laugh2:: Woran misst man ein "stabiles" Ergebnis bzw. woran macht man es fest? Bezieht sich das auf eine Korrelation auf sowas wie Win%, PythagWin%?
 

mystic

Bankspieler
Beiträge
10.114
Punkte
113
Die Nutzung von Vorjahres-Prior ist quasi ein Mittel, um die Stichprobengröße über eine Saison hinaus zu vergrößern?

Nein, der prior vergrößert nicht die Stichprobe, die bleibt gleich. Der prior ist auch nicht unbedingt etwas, was sich auf das Vorjahr beziehen muss, sondern ein Wert, der dem Ergebnis quasi eine Richtigung in Form einer vorgegebenen Verteilung der Werte und Startwerte für die einzelnen Spieler gibt. Man kann auch einfach eine erwartete Verteilung vorgeben (also die Baysian Interpretation der Ridge Regression), da wird da keinem Spieler ein konkreter Wert zugeordnet, sondern einfach dem Satz der Koeffizienten quasi mitgeteilt, wie sie sich gefälligst innerhalb der Grenzen (von Max zu Min) verteilen sollten.

Kann man sagen, um diesen "Raum", in den sich der RAPM-Wert eines Spielers einpendeln soll, möglichst genau zu definieren?

Das passt, ja.

Obwohl Annahmen für Größe/Erfahrung intuitiv logisch erscheinen, schätze ich, dass die bias für Größe/Erfahrung nicht willkürlich, sondern aus einer Beobachtung folgen, die erforscht wurde?

Ja, die Koeffizienten für das Boxscore-Metric wurden auf Basis einer Regressionsanalyse ermittelt. Also, die unabhängigen Variablen waren dann einfach die verschiedenen Boxscore-Einträge innerhalb einer Possession, die abhängige Variable das Ergebnis. Dabei hatte Engelmann witzigerweise die Spieler-Boxscore-Werte der Vorsaison verwendet, um damit dann die Ergebnisse der nächsten Saison quasi vorherzusagen.

Wie stehst du generell zum Plug-In von BoxScore Stats?

Ich verwende das nicht als Prior, aber neben Engelmann gibt es noch andere sehr kompetente Leute, die das ebenso machen (allerdings nicht für die Defensive, was Engelmann aber macht). Ich selbst bevorzuge RAPM ohne den Einfluss der Boxscore, um das dann später mit Hilfe einer Regressionsanalyse mit meinem Boxscore-Metric zusammenzuführen. Aus meiner Sicht ist das der bessere Weg, allerdings ist die Vorhersagequalität in beiden Fällen ähnlich.

Soweit ich das verstehe, versucht RAPM so "unparteiisch" wie möglich zu sein - es gibt also kaum bis gar keine Elemente, die durch menschliche Abwägung gewichtet werden, sondern misst nur, was auf dem Feld passiert.

Bei Engelmann ist bei der Boxscore-Stats auch keine "menschliche Abwägung" wirklich vorhanden, außer natürlich die Wahl der unabhängigen Variablen und mögliche falsche Einträge in der Boxscore durch die ScoreKeeper.
Bei meinem Boxscore-Metric fliessen auch nur Erkenntnisse ein, die verifiziert sind, und ich habe da auch nicht wahllos entschieden, dass ein Rebound jetzt 1.5-mal mehr wert sei als ein Assists (oder so ähnlich). Macht ja keinen Sinn, wenn die Zielstellung dabei ist, möglichst gute Vorhersagen machen zu wollen, hier einfach mal Pi mal Daumen und aus dem Bauch heraus irgendeine Gewichtung festzulegen.

Nebenbei mal angemerkt: Auch PER ist nicht einfach mal Hollingers Fantasie entwachsen, sondern beruht auf den Erkenntnissen, die zu dem Zeitpunkt vorlagen. Da steckt mehr Wahrheit in dem Metric als sich viele Leute wohl bewusst sind. Das zeigt sich übrigens auch in der langfristigeren Vorhersagequalität, da lässt PER dann beispielsweise so etwas wie WP locker hinter sich, und selbst WS/48 schneidet schlechter nach 3 Jahren ab als PER.

Ist bei xRAPM die Gefahr größer, dass willkürlich bestimmte Spielertypen aufgrund ihrer Stats in bestimmten Bereichen überschätzt werden.

Ja.

Zum Beispiel Spieler, die eigentlich defensiv unterdurchschnittlich sind, in reboundschwachen Teams jedoch sehr stark rebounden und dadurch in xRAPM als durchschnittliche bis überdurchschnittliche Rebounder herauskommen?

Die Bewertung als Rebounder ist dabei egal, aber effektiv werden sehr viele erfolgreiche Defensive-Possession durch einen Defensivrebound abgeschlossen, sodass der Rebounder einfach per se in der Defensive als positiv eingeschätzt wird, obwohl die Verantwortung dafür bei einem anderen Verteidiger gelegen haben kann (nicht nur in der Defensive gegen den Wurf, sondern auch bei demjenigen, der Arbeit unterm Korb für das Boxing-Out macht; Beispiel: Nene, der den größten Einfluss auf die DRB% in der Liga hat, vergleiche das mal mit seiner eigenen DRB%)

Ich schätze, dass der Vorjahres-Prior dies in einer gewissen Balance halten würde?

Na ja, der Prior, wenn ein Wert aus dem Vorjahr verwendet wird, gibt nur die Bandbreite für die Entwicklun der Koeffizienten in der Regression vor. Wenn Du Dir dabei einfach eine normale Methode der kleinsten Quadrate überlegst, bei der im ersten Schritt alle unabhängigen Variablen erstmal 0 sind, dann im nächsten werden sie so angepasst, dass erstmal alle Variablen den gleichen Wert erhalten, um das Ergebnis zu erreichen. Dann werden die Ergebnisse im nächsten Schritt eingesetzt, um wiederum dann angepasst zu werden ... etc. pp. (einfach so lange, bis iterativ eben der kleinste Fehler insgesamt entsteht). Der Prior ersetzt jetzt einfach die 0 im ersten Schritt.

(Anmerkung: Matrix-Algebra ersetzt einfach diese extem lange Iteration.)

Woran misst man ein "stabiles" Ergebnis bzw. woran macht man es fest? Bezieht sich das auf eine Korrelation auf sowas wie Win%, PythagWin%?

Je nachdem. Üblicherweise wird der RMSE verwendet (root mean square error) bei der Vorhersage im out-of-sample Test. Will heissen, ich berechne die Werte für eine bestimmte Stichprobe, dann verwende ich diese Werte, um die Ergebnisse einer anderen Stichprobe vorherzusagen. Dabei messe ich einfach die Abweichung (Varianz) vom realen Ergebnis. Je kleiner die Abweichung im Schnitt ist (also kleinerer RMSE), desto besser die Vorhersage. Also, stabiler meint hierbei dann in der Tat, dass etwas eine bessere Vorhersagequalität besitzt.
Das kann man auch in einem so-genannten retrodiction test machen, bei dem einfach die Spielerwerte des Vorjahres genommen werden sowie die Spielminuten (oder Possession) der aktuellen Saison, um dann die theoretische Spielstärke der Teams ausgerechnet wird, um sie dann mit der tatsächlichen Spielstärke zu vergleichen.
 

materia20

Nachwuchsspieler
Beiträge
444
Punkte
0
interessante diskussion.
wäre vielleicht zeit für einen eigenen thread zum thema.
ich habe mir mal die ergebnisse für RPM bei espn angesehen.
DeAndre Jordan an siebter und Ricky Rubio an zwölfter Stelle kommt mir schon ziemlich suspekt vor.
Beide Spieler sind klar limitiert: Rubios miserable Wurfquote bzw. seine Unfähigkeit am Korb effizient abzuschließen...
Man müsste eben die Konstruktionslogik von RPM nachvollziehen, um die RPM-Resultate zu bewerten (Spieler x hat diesen RPM-Werte, weil er ....) und dann solche Abweichungen von anderen Statistiken, im Beispiel die Wurfquote Rubios, erklären zu können.

Edit: Sehe gerade, dass Rubio bei WAR an zwölter und bei RPM an 23, Jordan entsprechend an sieben und 16
 

mystic

Bankspieler
Beiträge
10.114
Punkte
113
DeAndre Jordan an siebter und Ricky Rubio an zwölfter Stelle kommt mir schon ziemlich suspekt vor.
Beide Spieler sind klar limitiert: Rubios miserable Wurfquote bzw. seine Unfähigkeit am Korb effizient abzuschließen...

Aber bei beiden spült der Wert für die Defensive sie nach vorn. Warum versuchst Du dann mit der Offensive zu argumentieren?

Man müsste eben die Konstruktionslogik von RPM nachvollziehen, um die RPM-Resultate zu bewerten (Spieler x hat diesen RPM-Werte, weil er ....) und dann solche Abweichungen von anderen Statistiken, im Beispiel die Wurfquote Rubios, erklären zu können.

Ich hatte beschrieben, wie die Regression aussieht. Was verstehst Du dabei nicht?

Rubio ist in der Tat besser als er von vielen gesehen wird. Er ist einer der besten Perimeter-Defender der Liga, das sollte jetzt nicht so verwundern. Zudem helfen seine Pässe, die Effizienz der Mitspieler zu steigern, und auch wenn er ein paar Turnover produziert, so hat der Fakt, dass er den Ball mehr hält, einen stärkeren Vorteil darin, die Turnover seiner Mitspieler zu limitieren. Er ist da zwar nicht auf dem Niveau eines Steve Nash zu seinen besten Zeiten, aber er macht es auf jeden Fall einfacher für seine Mitspieler.
Die Wurfquoten sehen nicht gut aus, aber er muss auch diese Würfe nehmen, um die Verteidiger sich nicht darauf beschränken zu lassen, dass sie die Passing-Lanes verteidigen. Zudem hat sich sein Wurf auch verbessert; in den letzten 21 Spielen steht er bei 55 TS%. Auch bei einem Metric ohne prior ist Rubio unter den Top25 zu finden.

Bei DeAndre Jordan ist dann aber in der Tat der Einfluss des Boxscore-Metrics zu sehen. Während er beim reinen RAPM-Wert mit +2.2 hinter Griffin (+4.4) liegt, steht er beim Boxscore-Metric mit +3.8 deutlich vor Griffin (+1.3). Hierbei ist es dann auch so, dass der Defensivwert von Jordan durch den prior gepusht wird. Währenddessen Griffin insgesamt dann gegenüber Jordan "verliert". Hier sind Jordans relativ hohen Werte bei den Rebounds mit verantwortlich. Gerade bei den Defensivwerten ist das zu erkennen, was ich zuvor bezüglich des verwendeten boxscore-priors schrieb.

Zwar ergibt sich insgesamt eine Verbesserung der Prognosefähigkeit, aber bei einigen Spielern kommt es dadurch zu Unrecht zu einer Verschiebung. Bei jemanden wie Jordan ergibt sich da in Abgleich mit anderen Metrics kein konsistentes Bild, sondern da steht RPM dann quasi als "outlier". Bei mir steht Griffin beispielsweise vor Jordan, auch genügend weit; das ist dann im Einklang mit dem reinen RAPM (sowohl no prior und prior) als mit anderen Boxscore-Metrics oder +/-basierenden Metrics.
 

materia20

Nachwuchsspieler
Beiträge
444
Punkte
0
Danke für deine Antwort.
Ich habe mir einfach das RPM-Ranking angesehen und verschiedene Spieler deutlich besser oder schlechter bewertet gefunden als ich es intuitiv bzw. aufgrund meiner BBall-Kenntnisse erwarten würde. (Nick Collison an 6, Beverly mit einem ORPM von 3.15, DRPM 1.42 usw.). Und wie sie auch von Kommentatoren und Journalisten bewertet werden.
Und diese Abweichungen würde ich einfach gerne erstmal verstehen.

Zur Konstruktionslogik.
Vielleicht kannst du mir zeigen, wie man die diffuse Größe "Heimvorteil" operationalisiert.
Du hattest ja geschrieben, dass man die RPM-Werte um den Heimvorteil bereiningt.
Aber wie lässt sich der "Heimvorteil" operationalisieren? Ich vermute dahinter ein grundsätzliches Atrributionsproblem, muss man doch verschiedenen Faktoren einen quantitativen Impakt zuweisen.
Und dieser Akt des Zuweisens von Gründen bleibts doch letztlich willkürlich.
Was können wir der Aussage "Bei einem Game7 hat in ..% das Heimteam die Serie für sich entscheiden können" entnehmen?
Damit haben wir den Impakt des Faktors "Heimvorteil" auf den Ausgang des Spiels doch nicht annähernd bestimmt. Wir könnten den Ausgang des Spiels auch anderen Gründen zurechnen: Beispielsweise konnte sich Team A den Heimvorteil nur sichern, weil..., Spieler X war verletzt...
Es gibt schlicht zu viele Variablen, auch wenn man die den Home-Record eines Teams mit den Resultaten in fremder Halle vergleichen würde Und in welchem prozentualen Verhältnis stehen dann die verschiedenen Faktoren, wenn man versucht sie genau zu bestimmen?
 

mystic

Bankspieler
Beiträge
10.114
Punkte
113
Vielleicht kannst du mir zeigen, wie man die diffuse Größe "Heimvorteil" operationalisiert.
Du hattest ja geschrieben, dass man die RPM-Werte um den Heimvorteil bereiningt.
Aber wie lässt sich der "Heimvorteil" operationalisieren? Ich vermute dahinter ein grundsätzliches Atrributionsproblem, muss man doch verschiedenen Faktoren einen quantitativen Impakt zuweisen.
Und dieser Akt des Zuweisens von Gründen bleibts doch letztlich willkürlich.

Nein, das ist nichts willkürlich. Es wird hierbei eine Regressionsanalyse verwendet. Dabei ist der Heimvorteil einfach der intercept. Die Korrektur für den Heimvorteil erfolgt in der Regression automatisch. Man könnte den auch noch individuell für jedes Team über eine Regression zuvor bestimmen und dann jeweils den Eintrag im Ergebnisvektor anpassen, aber das ist letztendlich zu aufwendig. Engelmann hat damit mal experimentiert und auch für verschiedene Teams verschiedene Werte für den Heimvorteil gefunden, eine Anpassung des Resultatvektors brachte aber wohl keine Verbesserung der Prognosefähigkeit.

Es gibt schlicht zu viele Variablen, auch wenn man die den Home-Record eines Teams mit den Resultaten in fremder Halle vergleichen würde Und in welchem prozentualen Verhältnis stehen dann die verschiedenen Faktoren, wenn man versucht sie genau zu bestimmen?

Kommt eben darauf an, wie man die Regressionsanalyse gestaltet. Grundsätzlich ist die Methode ja dazu gedacht, explizit die Einflüsse von verschiedenen unabhängigen Variablen auf die abhängige Variable (Ergebnis) zu quantifizieren. Das ist der Sinn und Zweck dieses Instruments und wozu man das in vielen Bereichen der Wissenschaft auch verwendet. Das hier auf Basketballdaten anzuwenden ist dann allenfalls eine programmiertechnische Herausforderung.
 

Luel

Bankspieler
Beiträge
4.967
Punkte
113
[video=youtube;vnaZBRumpg4]http://www.youtube.com/watch?v=vnaZBRumpg4[/video]
 
Oben