רמת מתאם וקו מתאם בדראפט
בהמשך לפוסט של יריב פולסקי, ברצוני לדבר מעט על הדראפט מבחינה מתמטית. מה הם סכויי ההצלחה בנבואה בדראפט?
אז ככה הייתי מלמד סטטיסטיקה:
קודם הגדרות:
PEARSON PRODUCT CORRELATION – או מתאם פירסון, או בשמו המלא מקדם המתאם של פירסון, הוא מדד למתאם ליניארי (ישר) בין שתי קבוצות של מספרים. כאשר מדובר בעיבוד נתונים סטטיסטי. ההתייחסות בדרך כלל היא לקשר סימטרי בין שני משתנים כשערכי המדד נעים בין (1-) לבין (1+) והם מסומנים באות R או ב-:
- במתאם של 1+ מתקיים קשר מושלם חיובי מלא בין שני המשתנים.
- במתאם של 1- מתקיים קשר מושלם שלילי מלא בין שני המשתנים.
- מתאם של 0 פירושו שבין שני המשתנים אין שום קשר לינארי.
במקרים רבים ימצאו קשרים בערכי ביניים, לדוגמה: מתאם של 0.8+ פירושו שקיים קשר חיובי בעוצמה חזקה.
********************
מה זה דראפט?
דראפט זוהי נבואה על הצלחה בעתיד (משתנה שני) בהתבססות על ידע עכשווי (משתנמה ראשון). הידע העכשווי על השחקן הוא ה-INDEPENDENT VARIABLE כי הוא תלוי רק בעצמו, ו-"הצלחה" הוא ה-DEPENDENT VARIABLE (כי הוא 'תלוי' ב- "הידע העכשווי" על השחקן, או, במילים אחרות, יכולתו היום.)
אפילו אם ישנם מנכ"לים שמוסיפים לידע עכשווי משתנים כגון "חוסר נסיון" או "תוספת קילוגרמים" לשחקן שהוא היום חסר נסיון, או רזה מדי בגלל גילו, עם ידע אנטרופולוגי וגינטי שהוא יגדל ויתעצם, אלה משתנים שמוסיפים לציון שהשחקן בדראפט מקבל על הקו שהשרטוט מכנה GRE SCORE, ואני אכנה "ערך השחקן" או, "X". הבעייה העיקרית של המנכ"לים למיניהם היא לקבוע את "ערך השחקן". למשל, כיצד אפשר לשים באותו קו "X" שחקן בגובה 2.17 מ' או שחקן בגובה 1.85 מ'?.
אז גם לזה ישנו פתרון: אולי כדאי למנכ"לים להשתמש בשני גראפים, או שלושה, או ארבעה. נניח "גראף לפוינט גארדים", או גראף ל-"סנטרים". ההחלטה אם לבחור "פוינט גארד" שהוא בטופ נגד "סנטר" שהוא בטופ היא כבר החלטה שהסטטיסטיקה לא יכולה לקדם.
בקיצור ולעניין, הדראפט הוא רשימת שחקנים שהמנכ"לים קבעו את "יעילותם" מ-1 עד 60, כש-"1" ממוקם קיצוני ביותר מימין בקו "ערך השחקן" ("X") היכן שכתוב 1350, ומספר 60 ממוקם שמאלי ביותר בקו X היכן שכתוב "400". כמובן שמיקום השחקנים מ-1 עד 60 תלוי ב-"ערך" שהמנכ"לים קובעים להם, ועד כמה 'הערך' הוא נכון.
גראף ראשון
זהו קו ה-X – הקו ההוריזונטלי (המאוזן)
בצד שמאל, הקו המאונך שנקרא לו "הצלחה ב-NBA" ונסמנו ב-"Y", רשומה הצלחת השחקן ב-NBA. כיצד בודקים "הצלחה"? כל אחד יבחור את הדרך הנראית לו, אבל בואו נשתמש ב-"PER" של השחקן אחרי עונה, 2 עונות, או כמה שתיבחר למחקר, או ב-"EFF" ('יעילות שלו), זה לא משנה, העיקר שניבחר במתודיקה מסויימת לתת לכל שחקן ציון, במקרה של הגראף ציונים מ-180 עד 300.
אני מעריך שבגראף ישנן בערך 60 נקודות. נניח שיש 60. כל נקודה מציינת את ה-"X" של השחקן בדראפט (מיקומו בדראפט), ואת ה-"Y" שלו (הצלחתו ב-NBA). בעולם שכולו טוב, ה-X של השחקן הוא היכולת שנובאה עבורו בדראפט ולפיה הוא נייבחר שהוא משתנה "עצמאי", ואת ה-"Y" שלו, שבעולם מושלם היה תלוי ב-X ולכן הוא נקרא "משתנה תלוי".
אם העולם היה מושלם וטוב, היינו מקבלים קורלציה בין X ו-Y הנראית כמו בגראף הבא:
גרף שני
מנסיוני, הגראף הראשון היה נותן קורלציה (רמת מתאם) בין X ל-Y של בערך 82. עד 85.
הגרף השני הוא גרף של קורלציה של בערך 95, כשהיכולת לנבא את "Y" מהידע של "X" היא מצויינת.
גראף שלישי
הגראף השלישי הוא תוצאה של קורלציה של 98. או 99. כשהיכולת לנבא את "Y" מ-"X" היא כמעט מושלמת.
גראף רביעי
הגראף הרביעי הוא הגראף בין תוצאות GPA (ציוני גמר בתיכון) לבין קבלת ציוני "A" בקולג' בכרמה גבוהה. לפי צורת הגראף הייתי אומר שכאן הקורלציה היא בסביבות 60.. עד 65. שהיא בערך הקורלציה בין מיקום בדראפט והצלחה ב-NBA.
גראף חמישי
הגראף החמישי הוא קורלציה בין גובה האב וגובה הבן. במקרה הזה אני יודע שהקורלציה של הגראף הזה היא 54.
גראף ששי
במקרה זה ברצוני להתרכז בגראף הימני מלמעלה. כשאנחנו מדברים על היחסים בין מיקון בדראפט והצלחה ב-NBA ההנחה היא שקיים יחס ישר בין השניים. זה לא תמיד ככה. נניח שבגראף הימני למעלה, ה-X הוא גיל וה-Y הוא יכולת גופנית. כמובן שבין השניים אין יחס ישר, ואחרי שמגיעים לגיל אופטימלי, מתחילה הירידה.
לפני שאני מדבר על הגראף הראשון, הנה הנוסחה לחישוב הקורלציה של יחס ליניארי בין שני משתנים:
(כאשר E הוא התוחלת).
זה לא עניין גדול לחשב קורלציה בין שתי קבוצות בני 60 מספרים כל אחת (עשיתי זאת מאות פעמים לפני עולם המחשבים), אבל היום ב-EXCEL לחיצת כפתור אחת תתן לך תוצאה מ-+1.0 עד -1.0 שהיא המתאם בין שתי שורות מספרים.
כשרמת המתאם ידועה, קל מאד לחשב את קו הרגרסיה או 'קו המתאם' (ה-LINE OF REGRESSION) בין שתי קבוצות מספרים. מהו LINE OF REGRESSION הנראה בכל אחד מששת הגראפים כקו "החותך" את הדאטה?
קו הרגרסיה (או קו המתאם) הוא קו תיאורטי המאפשר לנו לבחון ("לנבא" ) את השפעתו של גורם מנבא אחד ("ערך השחקן לפני הדראפט, המיקום לאורך ה-X), על המשתנה השני ("הצלחה ב-NBA, התוצאה לאורך ה-Y). באנגלית קוראים לקו הזה גם "THE LINE OF BEST FIT". גם את הקו הזה ניתן לחשב בקלות, וכמובן שב-EXCEL זוהי לחיצת כפתור הנותנת את הנוסחה לקו ישר, כשאלפה הוא המקום בו הקו חותך את "Y", ו-'בטה' (BETA) הוא שיפוע הקו.
עכשיו בואו נחזור לגראף הראשון:
אתם רואים ארבע קוביות בגראף: לקובייה הימנית הגבוהה (קובייה 1) קוראים HITS ('פגיעות') כמו לקובייה התחתונה משמאל (4). כי בשתיהן קבעת קו מינימלי להצלחה. נניח שה-X הוא תוצאת בחינת ה- SAT ו-Y הוא ציונים ממוצעים באוניברסיטה של אותם סטודנטים שהתקבלו עם SAT'S שונים. לפי תוצאות המחקר (ורבים אחרים), האוניברסיטה קבעה לפי קו המתאם שהיא מקבלת רק כאלה עם SAT מעל 800. בקוביה ה-1 היא פגעה בול בקבלתם לאוניברסיטה, וגם בקוביה 4 (היא לא קיבלה אותם לאוניברסיטה, ואילו היתה מקבלת הם היו ניכשלים). הריבוע הימני התחתון (2) הוא כל ה-FALSE POSITIVE: קבלת אותם לאוניברסיטה כי היה להם SAT, ובכ"ז הם ניכשלו בלימודים הקוביה השמאלית העליונה (3) היא ה-FALSE NEGATIVE. לא קיבלת אותם, אבל אילו כן קבלת הם היו מצליחים באוניברסיטה.
אם לוקחים את רמת המתאם (נניח 80. =r) ומכפילים אותה בעצמה (בריבוע), מקבלים 64. או 64%. ה-64% הוא המספר המראה את יעילות הנבואה אם משתמשים בקו המתאם. במילים פשוטות "הנבואה שלך בשימוש קו המתאם היא טובה ב-64% מהנבואה שלך ללא ידע קו המתאם!
הארווארד יוניברסיטי מזיזה את הקו האנכי מ-800 ל-1,200, ואז יש לה רק HITS. היא יכולה להרשות לעצמה לעשות זאת כי מאות גאונים מגישים בקשות להרווארד עם SAT של מעל 1,200. אוניברסיטאות אטחרות אילו הציבו קו קבלה גבוה מדי, לא מספיק סטודנטים היו מתקבלים.
ה-SAT של 1,200 ומעלה (בהרווארד הדריעשה האמיתית היא SAT של 1,350 או אולי אפילו 1,400). אלה הם הלברונים, הפרקרים, והאנדרו וילקינסים של הכדורסל שהם כה טובים בתיכון (ועתה בשנה הראשונה במכללה) שאתה לא יכול לשגות איתם, אם-כי תיתכננה כמובן שגיאות בבחירת הלוטרי 1 עד 3. השגיאות בדראפט קורות כמעט תמיד באמצע ה-"X", ורק לעתים רחוקות בקצוות של ה-X (אם כי אייזיה תומאס בקינגס מוכיח אחרת…).
דינג דינג דינג…הפעמון מצלצל. תם השעור.
(איך היה השעור? תמיד נחשבתי למרצה מצויין אגב כי אני מאד אוהב ללמד, אלא אם-כן תלמידי הם אוהדי לייקרס עם ראש שלא מסוגל לקלוט דבר!)
הגיון בריא
21 ינו 2014 07:00:45טור אדיר.
יניב
21 ינו 2014 08:26:47פרופסור נשאר פרופסור גם שהוא בפרישה 🙂 השכלתי מאוד,רק הערה קטנה אתה נוהג לשבש את שמי זה יניב ולא יריב 🙂
מנחם לס
21 ינו 2014 16:06:02אני כמובן יודע! טעות של מהירות
צביקה
21 ינו 2014 08:41:48תודה ואחלה שיעור. בכל מקרה למסקנה, אם לא פספסתי במשהו, כל האיזור שבין 700 ל800 GRE, רובו המכריע יוצא false negative…ז"א רוב השחקנים באיזור הזה מצליחים משמעותית יותר ממה שמנבא המקום שלהם בדראפט. מסתבר שההתאמה היא לא לינארית.
דובי
21 ינו 2014 08:56:09אז בעצם מה שנבחן הוא רמת התקפות ויכולת הניבוי של "ערך השחקן"?
הקשר החיובי בין "ערך השחקן" לבין הצלחתו בNBA יוכיח את אמינות הניתוח של הGMים?
כלומר כל מערך הסקאוט והניהול מטרתו הפקצ נתון משוקלל של "ערך שחקן" שינבא את יכולתו להשתלב בליגה….?
בטח התוכנה הזאת אצל אר סי ביופורד נעולה בתשע כספות…
אני חושב על טימופיי מוזגוב, כריס קופלנד, לנדרי פילדס, סטיב נובאק והשנה גם טוריי מורי שהניקס אספו משום מקום והיו אצלם שחקנים ראויים למדיי (קופלנד, נובאק, פילדס ומוריי) או הפכו לכאלה בנסיבות הנכונות (מוזגוב) ונראה מזה שהניקס ידעו לעשות עבודה לא רעה בתחום.
אז למה אנחנו כאלה כושלים??
יניב
21 ינו 2014 09:05:13כי אתם לקחתם קבוצה חביבה מאוד שיכלה רק להשתפר והעברתם כמעט את כולה עבור כרמלו אנטוני אחד
דובי
21 ינו 2014 10:05:07התכוונת קבוצה חביבה + בחירות הדראפט העתידיות שלה…
מומי שאוהב חציל בטחינה
21 ינו 2014 09:30:04מומי הבין שפירסון זה ג'נרל מנג'ר עם תואר בסטיטסטיקה והסתברות ?
אם מומי הבין נכון את השיעור , אייזה תומאס שנבחר 60 בדראפט למעשה מהווה חריגה סטיטסטית
למה לפי מה שמומי הבין במקום ה -60 הוא נכנס בקושי למשבצת של הגרף ברביע על ציר ה X -Y אבל נתן בפיגוז מבחינת הביצועים של ה PER כנגד כל הסיכויים
חבל שלמומי לא היו מורים כמו ד"ר מנחם , אולי מומי היה מגיע לנס"א ולא לדש בורד של המונית
מנחם לס
21 ינו 2014 16:08:18מומו, אתה נהג מונית אתה? אז מאיפה אתה יודע להגיד "חריגה סטטיסטית"? לי יש רושם שאתה פרופסור לפילוסופיה בבר אילן שעובד על כולנו!
עופר
21 ינו 2014 12:14:03Great article, thanks!
I think that in the case of capability vs. age – the best way is to use polynomial or spline for good prediction
המשגיח
21 ינו 2014 13:19:31מנחם, אם יש לך זמן פנוי, אתה צריך לשקול להעביר קורסים ב Coursera.org
דרך אגב, מדובר באחלה אתר למי שרוצה ללמוד מה שבא לו בזמנו החופשי.
דובי
21 ינו 2014 14:25:22תגידו רק אני קראתי שג'בארי פארקר מתכנן להישאר שנה נוספת????
מנחם לס
21 ינו 2014 16:09:51למה שיעשה זאת אם נכון להיום הוא בחירה מס' 2?
דובי
21 ינו 2014 17:24:43נאמר שהוא אומר שהוא רוצה להתבשל שנה נוספת וגם מעוניין לשחק עם איזה אוקאפור שמגיע.
ראיתי את זה בהופסהייפ, אני אחפש את הקיישור בערב
מנחם לס
21 ינו 2014 18:41:41עכשיו גם אני קראתי על זה
דובי
21 ינו 2014 19:10:56ג'הליל אוקאפור משיקגו. . לא מכיר דבר כזה
איל
21 ינו 2014 14:34:34רק לי זה ניראה כמו הודית? בכל מקרה כל הכבוד על ההשקעה דוק
נתן
21 ינו 2014 21:03:56אין דבר כזה הודית, מתוק
איל
21 ינו 2014 22:49:03כן, חשבתי על זה כמה שעות אחרי שרשמתי וקיוויתי שאף אחד לא ישים לב…
אלעד אייל
21 ינו 2014 15:55:59אייל אתה לא היחיד. גם אני רואה כאן אוסף נקודות וקווים. רק מהמראה של כל הנוסחאות האלה קיבלתי סחרחורת. כנראה דזו העונש על שנים של אהדה למג'יק וקארים בימי נעוריי. גם "חזרה בתשובה" ומעבר לסלטיקס של גארנט ושות' לא הצליחה לתקן את המעוות. דוק זה לא מכובד להזכיר לאוויל כמוני את חטאיו
מנחם לס
21 ינו 2014 16:11:05אני עשיתי מסטטיסטיקה את הקורס הכי פופולרי נבמחלקה כי כל הדוגמאות היו מבייסבול וסקס!
ניב
21 ינו 2014 17:12:59מנחם גרמת לבור בסטטיסטיקה ומתמטיקה כמוני להבין משהו שבחיים לא היה לי מושג בו ולכן תודה. אם אפשר מאמר על סטטיסטיקה וסקס אשמח לקרוא למרות שזה לא קשור להופס .
אלעד אייל
21 ינו 2014 17:24:59ג'וקוביץ' הודח מאוסטרליה, איזו סנסציה !
אשך טמיר המקורי
21 ינו 2014 18:27:07עשית לי פלאשבק מהגיהנום מקורס שיטות מחקר כמותיות שנה א'.
איזה תופת.
אני הולך להירגע עם התמונות של מומי…
האווי לאסוף
21 ינו 2014 20:37:29אם אפילו דביל כמוני הצליח להבין משהו מהמאמר, הקרדיט מגיע למרצה… תודה פרופסור
נתן
21 ינו 2014 21:11:22כתבתי תגובה בפוסט של יניב, בעיקרון נראה לי שההטייה הכי גדולה היא בתהליך קבלת ההחלטה של הקבוצה שמושפע או משיקולים לא רציונאליים, או משיקולים שאינם קשורים להצלחה בדראפט. על אלה צריך להוסיף את האיכות הכוללת של הדראפט שבוודאי תשפיע על הסטטיסטיקה הפרטית של כל מקרה.
בקיצור, נראה לי שיש יותר מידי משתנים שצריך לחשב.
מנחם לס
21 ינו 2014 23:10:57גם זה, וגם תהליף ההתפתחות של שחקן ב-NBA הוא משתנה שאין דרך לנחשו. לכמה חיי אן בי אי, טיסות, וכו הם לחם, ולאחרים זוועה.
לבקן
22 ינו 2014 21:15:14אין מאמרים כאלה! מנחם אתה תותח.