Das Prinzip der +/- Statistik ist ja, den Effekt eines Spielers zu messen, wenn er auf dem Parkett steht. Der relative Unterschied zwischen "on/off the court" ist dabei doch aber maßgeblich vom Ersatzmann abhängig, oder nicht?
Das normale Net+/- (also Punktdifferenz mit dem Spieler minus Punktdifferenz ohne den Spieler) hat exakt das Problem. Allerdings beruht RPM auf Regressionsanalyse, bei dem der Spieler ja nur bewertet werden kann, wenn er auch auf dem Feld steht. Daher sollte das größtenteils unabhängig sein. Natürlich ist das auch abhängig von der Stichprobengröße, denn es müssen auch genügend häufige Events der verschiedenen Permutationen auftreten, um das genügend gut zu separieren.
Zudem haben wir hier zwei größere Probleme: das ill-posed problem zeigt multicollinearity und overfitting auf der einen Seite, zum anderen haben wir ein biased sample (der Coach wählt ja die Spieler nach seinen Maßstäben aus, während es dann insgesamt für die Analyse besser wäre, wenn einfach die Spieler zufällig ausgewählt werden würden).
Das erstere Problem lässt sich mathematisch zumindest mal angehend lösen, in dem man beispielsweise Ridge Regression nutzt, oder Baysian priors oder andere elastischere Regressionsmethoden (Lasso, elastic net), zudem könnten machine-learning algorithm zur Anwendung kommen. Das zweite Problem lässt sich nur durch eine größere Stichprobe in den Griff bekommen. Da kann man entweder für die Regression Daten von vorherigen Jahren nutzen, oder den prior entsprechend anpassen.
Letztendlich wird durch die Regression per se für die Stärke der Mit- und Gegenspieler korrigiert. Zudem erfolgt ein Herausrechnen des Heimvorteils.
Es geht mir gar nicht darum, die Statistik in Frage zu stellen, sondern lediglich die Ebene festzustellen, auf derer sie sich für einen Vergleich anbietet. Kann man damit verschiedenste Spieler innerhalb der Liga (und vielleicht sogar über verschiedene NBA-Epochen hinweg) vergleichen, oder ist die Aussagekraft darauf beschränkt, wie wichtig Spieler X innerhalb seines Teams ist (was impliziert, dass der Wert ein völlig anderer wäre, wenn er in einem anderen Team spielte).
Innerhalb eines Jahres ist ein Vergleich nicht nur möglich, sondern die Resultate sind dafür explizit gedacht. Die Regression wird an allen verfügbaren play-by-play Daten durchgeführt, mit einmal (man nutzt dafür einfach Matrix-Algebra, wobei das pbp vorher in ein Matchupfile konvertiert wird). Dann ergibt die Regression einfach einen Satz von Koeffizienten für die entsprechende Stichprobe; die Einzelwerte der Spieler haben also nur wirklich Relevanz im Verhältnis zu den Werten der anderen Spieler in dem Datensatz.
Prinzipiell wäre es möglich, auch über verschiedene Epochen zu vergleichen, allerdings fehlt es einfach an Rohdaten (sprich play-by-play), um das dann auch umzusetzen. Allerdings muss hier beachtet werden, dass die Daten von unterschiedlichen Jahren nur unter Berücksichtigung einer Normalisierung wirklich sinnvoll verglichen werden können. Zudem sollte klar sein, dass die Werte dann in den speziellen Rollen, die ein Spieler bei einem Team einnimmt, erzielt werden. Eine andere Rolle kann auch zu einer Veränderung des Wertes führen (besser oder schlechter). Also, Collison schneidet jetzt beim RPM besser als Kevin Love ab, was aber nicht bedeutet, dass er jetzt in Loves Rolle bei den Timberwolves zu einem besseren Ergebnis beitragen würde (wobei natürlich Pekovic-Collison vielleicht keine üble Paarung wäre). Der Wert sagt einfach, dass Collison in seiner Rolle das Spielergebnis je 100 Possession in der Art gegenüber einem virtuellen Durchschnittsspieler ändert (der Durchschnittsspieler ist einfach 0, einfach zu verstehen, denke ich). Es ist auch anzunehmen, dass Collison in der gleichen Rolle bei einem anderen ebenso diesen Einfluss nimmt. Zumindest suggeriert die jährliche Konstanz der Werte das.
Zu Short-E:
pure RAPM - reines RAPM (also nur auf play-by-play Daten beruhend), was mehrere Jahre gewichtet (aktuelle Saison ist stärker gewichtet) verwendet, Koeffizienten einer Ridge Regression
pure SPM - reines statistical +/-, basierend ausschliesslich auf den Boxscore-Daten von dieser Saison
xRAPM = RPM bei ESPN, Koeffizienten der Regression bei der ein baysian prior auf Basis von xRAPM des Vorjahres und "pure SPM" verwendet wird.
xRAPM bietet die beste Vorhersagequalität von diesen 3 Werten.
Ich hoffe, das ist irgendwie halbwegs sinnvoll; und ich entschuldige mich für das Denglish, aber mir fallen jetzt einfach auf die Schnelle in der Tat nicht die deutschen Begrifflichkeiten ein, weil ich das insgesamt auf English gelernt und zumeist auch nur innerhalb englisch-sprachiger Arbeitsumgebungen verwendet haben (inklusive Basketball).