Ja, und? Das sind auch Werte je Spiel, die sich eben auch dadurch ergeben, dass er mehr Minuten absolvierte. Per se kann man dadurch nicht ablesen, dass er besser als in der RS war. Zudem ist daraus nicht ableitbar, dass dies die "reale" Leistungsstärke eines Spielers wäre. [...] Man spielt auch in der RS gegen Teams der anderen Conference. Zudem ist die Grundgesamtheit hierbei ALLE Spiele (entgegen der Implikation Deines Beitrages wird sowohl in der RS als auch in der PS Basketball mit 5vs5 über 48 Minuten gespielt. Die Regeln sind gleich; wir reden hier also vom gleichen Spiel. Die Finals sind eine Teilmenge davon.
Nein, eben nicht. In den Finals geht es um mehr als bei einem x-beliebigen Spiel im November. Die Gegner sind besser, Spieler zeigen mehr Einsatz (und spielen deshalb oft auch deutlich über 40 minuten). Die Tatsache dass ein Shaq oder LeBron dann 48 minuten durchspielt zeigt dir ja die tatsächlich "Wichtigkeit" für sein Team.
Shaq's 38/16 (diesmal hab ich
nachgeschlagen) in den 2000 NBA Finals sind ganz objektiv
besser als die 29/13 aus der Regular Season. Wenn dein Modell dir da etwas anderes erzählen will, ist es ganz einfach falsch.
Deine Aussage, dass diese Teilmenge aussagekräftiger wäre als das gesamte Sample, ist eine typisches kognitive Verzerrung, und es findet sich dafür wirklich gar kein Hinweis in den Daten. (Mal völlig davon abgesehen, dass eine Regressionsanalyse (in dem Fall via Ridge Regression) ohne sehr gut gewählten Prior allein für ein Sample basierend auf den Finalspielen für alle Spieler quasi 0 als Impact ergeben würde.)
Natürlich verhagelt dir das deine auf +/- basierende Statistik wenn der Spieler gar nicht vom Court geht.
Diese Analogie ist absurd, denn in der Tat müsste gezeigt werden, dass die Vorhersage dadurch verbessert würde, in dem man Spiele aus einem beliebig frühen Zeitpunkt der Saison aus dem Sample entfernt. Das ist aber nicht der Fall, sondern wir sehen das genaue Gegenteil. Ein geringeres Sample ergibt eine schlechtere Vorhersagequalität.
Ganz allgemein, oder nur in diesem Fall? Ich würde eher sagen allgemein nein, und in diesem konkreten Fall wahrscheinlich auch nein.
Allgemein: größeres Sample macht keine bessere Prediction wenn "größer" sich allein auf einen längeren Zeithorizont bezieht. Und das ist ja hier der Fall, denn wir reden ja davon, wie ein Sample von sagen wir März bis Mai um die Spiele von November bis Februar "vergrößert" wird. Sowas verringert vielleicht deine Varianz, verbessert aber die Vorhersage nicht. Das gilt eigentlich überall. Wenn ich den Dollar-Pfund-Wechselkurs vorhersagen will, nützt es praktisch gar nichts wenn ich zum Sample der letzten drei Wochen noch die davorgehenden 100 Jahre anhänge.
Konkret: deiner Theorie nach müsste sich die Performance-Prediction von Spieler sogar noch verbessern lassen, wenn man zum Regular-Season-Sample noch die Preseason und Summer League dazu nimmt. Da stimmt aber natürlich ganz objektiv nicht, denn in Preseason und Summer League geht es um rein gar nichts.
In der Tat wird die Vorhersagequalität noch gesteigert, in dem man die Daten vorheriger Jahre inkludiert (optimal bei Datensatz mit 3+ Jahre (mit Berücksichtigung einer entsprechender Entwicklungskurve, ab 4 Jahre wird das wiederum schlechter, was schlichtweg an der Tatsache liegt, dass Spieler unterschiedliche Ausprägungen der Entwicklungskurven haben und diese auch noch zeitlich gegeneinander verschoben sind, sodass wir positive und negative Interferenz sehen, die die Vorhersagequalität verschlechtern).
Zugespitzte Frage: lässt sich Derrick Roses Performance besser vorhersagen, wenn ich noch alle Daten von
vor seiner Verletzung mit in die Analyse nehme?
Natürlich nicht. Schwere Verletzungen sind (technisch gesprochen) ein "structural break" in dem Prozess der die Statistiken generiert die du analysierst. Ein einzelnes Modell über einen (oder mehrere) structural breaks hinweg zu fitten ist schon im Ansatz zum scheitern verurteilt. Meiner Meinung nach gilt das selbe für Regular Season und Playoffs.
Diese Analogie ist erneut wenig sinnvoll, weil Du ab einer bestimmten Größe des Teil-Samples ja eine repräsentative Gruppe für die Grundgesamtheit finden kannst. Bei max. 7 Spielen findest Du das aber nicht, und schon gar nicht, wenn man nur gegen einen einzigen Gegner spielt.
Der Punkt war: Berlin ist nicht repräsentativ für Deutschland, oder umgekehrt. Finals sind nicht repräsentativ für Regular-Season, oder umgekehrt.