Werden solche Schlussfolgerungen nicht suggeriert? Beim APM könnte es vielleicht deutlicher werden. Es soll der Einfluss eines Spielers abgebildet werden.
Ja, der Einfluss eines Spielers in der Rolle, in der er sich befindet und in den Spielminuten, die er absolviert. Dabei kann am Ende ein Rollenspieler vor einem Star-Spieler stehen, schlichtweg weil er in einer Rolle eingesetzt wird, die seinen Stärken entspricht. Ein Beispiel dafür wäre Landry Fields, der ein fast fehlerfreie Saison spielt, aber das natürlich nur in einer limitierten Rolle, die sich daraus ergibt, dass andere Spieler die Hauptlast tragen. Fields sucht sich seine Würfe genau aus und passt ansonsten den Ball in der Offensive eher. Das ist gut, aber ein Team kann man um ihn herum nicht aufbauen.
Mit dem Wissen, was die Statistik aussagen möchte (Abbildung des Einflusses), kann die Interpretation hier doch nicht abgeschlossen sein. Ansonsten müsste ich doch hinnehmen, dass Kobe Bryant und Rodney Stuckey denselben Einfluss haben oder dass Nene einige Top-Big Men hinter sich lässt.
Diese beiden Aussagen sind komplett richtig. Wobei bei Bryant primär der Wert in der Defensive in dieser Saison Schuld trägt und ebenso der hohe Fehler in dieser Saison, da bei Bryant ein oder zwei Lineups extrem schlecht sind, die mit Barnes und/oder Brown deutlich besser funktionierten. Das ist hier also auf jeden Fall ein Problem der Stichprobe.
Ich verwies schon mal darauf, dass ein Wert aus den Daten von 3 Jahren als bester Predictor funktioniert. Da ist Bryant dann deutlich besser als Stuckey.
Nene ist in der Tat ein besserer Big als die meisten annehmen. Das schreibe ich hier im Forum aber schon länger. Es war kein Wunder, dass die Nuggets Camby ohne Gegenwert (außer Gehaltseinsparungen) abgaben und hinterher sogar besser waren. Ebenso ist es auch kein Wunder, dass die Nuggets ohne Anthony weiterhin voll auf Playoffkurs sind. Denn der wichtigste Spieler ist Nene.
Soll der höhere Einfluss nicht eine bessere Leistung suggieren? Und die darausfolgende Gleichung bessere Leistung = besserer Spieler ist dann nicht weit. Wenn es nicht der Fall wäre, würde ich mich fragen, inwiefern mich die Zahl/das Ergebnis des APM voranbringt. Der Entwickler wird mit der Statistik doch eine "Botschaft" vermitteln wollen.
Wayne Winston interpretiert das tatsächlich so, aber ich (und viele andere, wenn nicht gar die meisten) sehen das komplett anders. Die Zahlen ergeben sich durch die Leistung auf dem Feld, aber die nicht jeder Spieler erbringt auch entsprechend Leistung, um seinem Team zu helfen. Die Spieler sind in verschiedenen Rollen auch unterschiedlich stark. Die Coaches wissen das und setzen Spieler meist nach ihren Fähigkeiten ein. Dieser Sampling-Bias müsste aus den APM-Werten herausgefiltert werden. Dan Rosenbaum versucht das, in dem er noch einen Boxscore-Wert für die Spieler einbindet. Wenn dies korrekt gemacht wird, dann kann man bei Spieler mit ähnlicher Minutenanzahl schon die APM-Werte nehmen und sie danach als "besser" oder "schlechter" einteilen.
Wie ich schrieb, intuitiv ist das sicherlich nicht einfach zu verstehen, und selbst Leute, die daran arbeiten, neigen dazu, das zu simplifizieren. Wayne Winston ist ein gutes Beispiel dafür, wobei man ihm zugestehen muss, nach seiner Definition die Sache richtig zu interpretieren. Die Frage ist dann eben, ob seine Definition der Realität entspricht. Am Beispiel Luol Deng kann man aber sehen, dass dem nicht so ist. Deng in der Rolle einer ersten Option funktioniert nun mal überhaupt nicht, da dies nicht seinen Stärken entspricht. Er hatte auch dementsprechend schlechtere APM-Werte 2009 oder 2008, da er da in einer Rolle eingesetzt wurde, die etwas von ihm verlangte, was er nicht kann. Hier also zu behaupten, Luol Deng wäre der bessere Spieler gegenüber Bryant gewesen (der in der letzten Saison ja auch noch zu den absoluten Top-Spielern im APM nach Winston gehörte), ist also reichlich absurd.
Entweder kann man das Sampling-Bias korrigieren, oder aber man teilt die Spieler manuell in Kategorien ein. Hat man diese Kategorien aber, dann lassen sich aus den APM-Zahlen dann tatsächlich direkt die besseren Spieler ablesen. Wobei "besser" hier so zu verstehen ist, dass damit die Fertigkeit des Spielers gemeint ist, seinem Team mehr zu helfen, Spiele zu gewinnen.
Ich habe doch richtig verstanden, dass APM sich zum Ziel gesetzt hat, die Spieler mit dem meisten Impact herauszufiltern? Wenn man diese Zahlen nicht zur All-Star-Selektion nutzen kann (da gehe ich mit dir konform, weil es nicht nur um die Impact-Spieler geht), dann aber doch, um zu sagen, dass diese Spieler zu diesem Zeitpunkt der Saison den positivsten Einfluss auf ihr Team (oder über ihr Team hinaus in der ganzen NBA?) hatten.
Ja, das ist so richtig. Und natürlich auf ihr Team während sie spielten. Ein ligaweiter Vergleich ist nur legitim, wenn ich das auf jeweils Spieler in gleicher Rolle und mit den gleichem Minuten beschränke.
Die besten Werte wiesen hier LaMarcus Aldridge (darüber zu diskutieren, dass er eigentlich ins ASG gehörte, ist absolut legitim), Earl Watson und Roy Hibbert auf. Nehme ich die NBA vollkommen falsch wahr, wenn ich behaupte, dass Watson und Hibbert nicht den zweit- oder drittmeisten Impact der NBA hatten? Oder missverstehe ich die Statistik?
Nein, Du nimmst das nicht falsch wahr, aber was hierbei unterschlagen wird, ist der Fehler, der hier vorhanden ist. Watson und Hibbert spielten deutlich weniger Minuten und hatten zu dem Zeitpunkt auch einen größeren Fehler in den Zahlen. Nimmt man dann zudem ein Stabilisierungsverfahren hinzu (Werte aus der Vorsaison oder Regularisierungs-Techniken, dann landeten Watson und Hibbert eben nicht mehr vorn.
Hier lag eindeutig ein Fall von zu geringer Stichprobengröße vor, was bei der Interpretation berücksichtigt werden muss.
Wenn sie jedoch genau das aussagen will, wieso ist sie hier bei einem kleinen Datensatz so ungenau?
A+B+C+D = 3
B+C+D+E = -2
A+B+D+E = 14
Versuche dieses Gleichungssystem zu lösen. Das Problem, auf das Du stösst, kannst Du Dir in etwa "ähnlich" bei der Ermittlung von APM-Werten vorstellen. (Korrekt mathematisch ist es anders, aber als Beispiel sollte es ausreichen).
Liegt es daran, dass normiert wird? Dass vielleicht doch bedacht werden sollte, dass man von einer Datenbasis, die 10 Spieler zugleich kreieren, es doch nicht möglich ist, die einzelnen Spieler daraus zu isolieren?
Nein, Normierung ist kein Problem. Und der einzelne Spieler wird einfach per se isoliert durch die verwendete Regressionsanalyse.
PER kann die Defensive nur unzureichend darstellen, da bin ich vollkommen auf deiner Argumentationslinie. Trotzdem frage ich nochmals, wieso APM (die zweifelsohne mehr indirekte Daten in der Defensive abgreifen kann) solche Gesamteinschätzungen über einen begrenzten Zeitraum ausgibt? Es gibt auch auf Grundlage der Boxscore-Stats bei der geringen Datenbasis extreme Schwankungen der Spieler. Die Ergebnisse sehen (aus meiner Sicht) besser aus.
Das ist in der Tat so, aber der Grund dafür ist nicht die Stabilität der Boxscore-Stats, sondern das wird durch die Coaches primär getriggert. Einsatzzeit und Rolle im Team sind einfach konstanter, wodurch Scorer eben meisten auch als Scorer aktiv sind, oder aber auch Rebounder sich eben um das kümmern. Das muss sich aber jeweils nicht gleich im Impact widerspiegeln.
Da ist es für mich nicht schlüssig, wieso es bei APM nicht möglich sein soll, wenn die Statistik sich verschrieben hat, genau das zu leisten.
APM macht das auch, aber hier tritt noch ein anderes Problem auf, was sich Overfitting nennt. Dadurch wird zwar die Anpassung an die bisherigen Daten besser, der individuelle Fehler wird aber größer und als Predictor werden die Daten weniger nützlich. Das Phänomen wir d bei geringer Stichprobe größer, deshalb die Schwankungen und "seltsamen" Ergebnisse bei wenigen Spielen oder Spielern mit wenigen Spielminuten. Mathematisch ist das korrekt, was dort ausgerechnet wird, aber das ist hierbei nicht das entscheidene Qualitätsmerkmal.
Nochmals: Ich denke, dass APM sehr viel besser (wenn auch indirekt) sogenannte "Intangibles" erfassen kann. Das ist kein Statement für Boxscore-Stats. Ich habe nur Probleme damit, ob ich es als erwiesen ansehen soll, dass es möglich ist, eine Mannschaftsleistung auf Einzelspieler herunterbrechen zu können (egal, ob das nun mit der einfachen +/--Statistik passiert oder durch Gleichungssysteme gelöst wird).
Mathematisch ist das erwiesen. Und diese Methoden werde ja nicht nur im Basketball eingesetzt, sondern in etlichen anderen Bereichen der Wissenschaft. Das funktioniert schon, und wenn man sich auf Daten mit genügend großer Datenbasis bezieht, dann gibt es den besten Predictor von allen "Advanced Stats". Aus diesem Grund verwenden die Top-Teams das auch. Im Speziellen eignet sich das, um Lineups zu ermitteln, die sich besonders gut gegen die Lineups der Gegner machen. Und gerade bei der Ermittlung vom Einfluss bei 2- oder 3-Spieler-Einheiten gibt diese Methode einen gehörigen Vorteil.