Netter Artikel.
Eine Frage dazu: Was sind in dem Regressionsmodell von Berri abhängige und unabhängige Variablen? (Ich glaube es zu wissen, aber will es nochmal von dir hören...)
EDIT: Da die Antwort bisher nicht von dir kam, mal folgende Darstellung:
Deinen Beitrag habe ich erst jetzt gelesen, weil ich schlicht und ergreifend gestern schon im Bett lag und heute morgen, als Du munter Deinen Beitrag editieren konntest, schon in einer Vorlesung saß.
Deine Frage ist ziemlich daneben, vielleicht fällt es Dir auch selbst irgendwann auf, denn im Paper werden die Variablen nicht umsonst mit dependent und independent bezeichnet. Zudem erkennt man das auch locker, an den aufgeführten Gleichungen. Keine Ahnung, worauf Du hinauswolltest.
Du hast richtig erkannt, dass Berri mit einer Regressionsanalyse arbeitet. Das ist zwar nicht auf seinen Mist gewachsen, sondern er nutzt dafür als Basis Zak et al. (1979), das soll aber nicht weiter stören.
Sein theoretisches Modell basiert nun darauf, dass man die Variable Wins durch 2 Faktoren via fixed effect model ausdrücken kann. Diese beiden Faktoren sind nun aber mitnichten die Team Performance und die Player Performance, da hast Du etwas falsch verstanden. Die beiden Faktoren sind simple das Ergebnis, also die erzielten Punkte und die kassierten Punkte. Durch eine lineare Gleichung (Wins = a*PTS + b*DPTS + fixed effects + Störgröße) soll es also möglich sein, die Team Wins vorherzusagen. Die lineare Regressionsanalyse liefert nun die Parameter a und b. So weit, so gut.
Besser kann man die Siege aber abschätzen durch die Pythagorean expectation, die eine Win% liefert. Das ist der Weg, den ich gehe, weil ich dafür keinen teamabhängigen Term addieren muss und der Fehler kleiner ist.
Win% = PTS^14/(PTS^14+DPTS^14)
Letztendlich nutzt Berri die Regressionsanalyse, um die in Tabelle 5 dargestellten marginal values zu erhalten. Diese benötigt er für die Berechnung der player per minute production (PM) und des Defensivfaktors (TDF). Die Win Produced sind jetzt einfach die Multiplikation der Summe aus PM, TF, TDF, -PA und TA mit den gespielten Minuten, wobei TF ein tempo factor, PA die durchschnittliche production der Position und die TA die durchschnittliche Win production ligaweit ist. Der letzte Wert ist simple 41 geteilt durch 19680, was die durchschnittlichen Anzahl der Siege und die gesamten Teamminuten darstellen soll. Das ist so zwar nicht ganz korrekt, denn die durchschnittlichen Teamminuten je Spiel der letzten 12 Jahre waren 241.875 und nicht 240 Minuten, aber das fällt erst in der fünften Nachkommastelle auf.
Berri ordnet also, wie Du richtig festgestellt hast, der Kombination der statistischen Daten der einzelnen Spieler mit ihrer jeweiligen linearen Gewichtung einen Wert zu, den er Win produced nennt.
Ich hatte vorher schon geschrieben, dass die Pythagorean expectation die etwas genauere Abschätzung der Siege ermöglicht. Also muss ich nun einen Weg finden, die einzelnen Werte so zusammenzufassen, dass ich einmal einen Wert für PTS (ORtg) und einen Wert für DPTS (DRtg) erhalte. Der Vorteil meiner Methode ist, dass ich keine negativen Werte für die Wins erhalte und auch einen Wert für die Niederlagen, die ein Spieler verursacht, ermitteln kann.
Für die Bestimmung der Gewichtung der einzelnen Werte nutze ich nun keine Regressionsanalyse, sondern diese werden durch die Empirie ermittelt.
Am Ende erhalte ich meine gesuchten Werte ORtg und DRtg, die ich dann in die Win% umwandle. Jetzt bestimme ich die Anzahl der Player Games, wodurch ich dann die PlWins ausrechne.
Ich hoffe, Du hast gemerkt, dass ich bis zu diesem Zeitpunkt nicht die Gesamtanzahl der Siege eines Teams mit in die Rechnung genommen habe. Ich kann jetzt auch einen Wert Wins per minute bestimmen, der über die Jahre für die verschiedenen Spieler relativ konstant ist. Die Wins per minute haben also keine Korrelation zum Teamerfolg. Beispielsweise schwankt Tim Duncan seit seiner Rookiesaison immer zwischen 0.0399 und 0.0404. Ebenso sieht das bei Garnett aus, der seit 1998 immer zwischen 0.0388 und 0.0392 schwankt.
Ich habe allerdings ein Problem mit dem Fehler, der zwar etwas kleiner als bei Berri ist, aber insgesamt mir einfach zu hoch erscheint.
Da ich meine Berechnung, im Gegensatz zu Berri, eigentlich nicht für die Prognose von zukünftigem Teamerfolg nutzen möchte, sondern die abgelaufene Saison analysiert werden soll, passe ich die PlWins jetzt insgesamt den Siegen des Teams an. Dazu rechne ich den Anteil der PlWins eines Spielers an der Summe über alle PlWins der Spieler eines Teams aus, das sind dann auch die Prozentwerte, von denen ich sprach, und die Du etwas falsch interpretierst.
Das mache ich genau deshalb, weil die Siege durch irgendetwas zustande oder eben nicht zustande gekommen sind, was nicht in der Statistik auftaucht. Jedem Spieler gebe ich nun Kredit dafür in Abhängigkeit seiner Spielzeit.
Es ist also grundsätzlich falsch, wenn Du annimmst, ich rechne die Leistung über Siegverhältnisse aus, sondern die Siegverhältnisse ergeben sich aus den Leistungen.
Du willst zwar den Eindruck erwecken, dass ich Berri dies unterstellen will, aber wie Du an meinem Zitat Deines Beitrages siehst, hattest Du zuerst etwas anderes geschrieben. Ich hatte diese Aussage so interpretiert, dass Du der Meinung bist, dass Berri nicht über eine Art PlWins über den MVP entscheiden würde. Es kann sein, dass Du etwas anderes meintest, das war für mich aber nicht klar erkennbar.