רמת מתאם וקו מתאם בדראפט / פרופ' מנחם לס

רמת מתאם וקו מתאם בדראפט

בהמשך לפוסט של יריב פולסקי, ברצוני לדבר מעט על הדראפט מבחינה מתמטית. מה הם סכויי ההצלחה בנבואה בדראפט?

אז ככה הייתי מלמד סטטיסטיקה:

קודם הגדרות:

PEARSON PRODUCT CORRELATION – או מתאם פירסון, או בשמו המלא מקדם המתאם של פירסון, הוא מדד למתאם ליניארי (ישר)  בין שתי קבוצות של מספרים. כאשר מדובר בעיבוד נתונים סטטיסטי. ההתייחסות בדרך כלל היא לקשר סימטרי בין שני משתנים כשערכי המדד נעים בין (1-) לבין (1+) והם מסומנים באות R או ב-\rho:

  • במתאם של 1+ מתקיים קשר מושלם חיובי מלא בין שני המשתנים.
  • במתאם של 1- מתקיים קשר מושלם שלילי מלא בין שני המשתנים.
  • מתאם של 0 פירושו שבין שני המשתנים אין שום קשר לינארי.

במקרים רבים ימצאו קשרים בערכי ביניים, לדוגמה: מתאם של 0.8+ פירושו שקיים קשר חיובי בעוצמה חזקה.

********************

מה זה דראפט?

דראפט זוהי נבואה על הצלחה בעתיד (משתנה שני) בהתבססות על ידע עכשווי (משתנמה ראשון). הידע העכשווי על השחקן הוא ה-INDEPENDENT VARIABLE  כי הוא תלוי רק בעצמו, ו-"הצלחה" הוא ה-DEPENDENT VARIABLE (כי הוא 'תלוי' ב- "הידע העכשווי" על השחקן, או, במילים אחרות, יכולתו היום.)

אפילו אם ישנם מנכ"לים שמוסיפים לידע עכשווי משתנים כגון "חוסר נסיון" או "תוספת קילוגרמים" לשחקן שהוא היום חסר נסיון, או רזה מדי בגלל גילו, עם ידע אנטרופולוגי וגינטי שהוא יגדל ויתעצם, אלה משתנים שמוסיפים לציון שהשחקן בדראפט מקבל על הקו שהשרטוט מכנה GRE SCORE, ואני אכנה "ערך השחקן" או, "X".  הבעייה העיקרית של המנכ"לים למיניהם היא לקבוע את "ערך השחקן". למשל, כיצד אפשר לשים באותו קו "X" שחקן בגובה 2.17 מ' או שחקן בגובה 1.85 מ'?.

אז גם לזה ישנו פתרון: אולי כדאי למנכ"לים להשתמש בשני גראפים, או שלושה, או ארבעה. נניח "גראף לפוינט גארדים", או גראף ל-"סנטרים". ההחלטה אם לבחור "פוינט גארד" שהוא בטופ נגד "סנטר" שהוא בטופ היא כבר החלטה שהסטטיסטיקה לא יכולה לקדם.

בקיצור ולעניין, הדראפט הוא רשימת שחקנים שהמנכ"לים קבעו את "יעילותם" מ-1 עד 60, כש-"1" ממוקם קיצוני ביותר מימין בקו  "ערך השחקן"  ("X")   היכן שכתוב 1350, ומספר 60 ממוקם שמאלי ביותר  בקו X היכן שכתוב "400". כמובן שמיקום השחקנים מ-1 עד 60 תלוי ב-"ערך" שהמנכ"לים קובעים להם, ועד כמה 'הערך' הוא נכון.

 

גראף ראשון

 

 

 

זהו קו ה-X – הקו ההוריזונטלי (המאוזן)

בצד שמאל, הקו המאונך שנקרא לו "הצלחה ב-NBA" ונסמנו ב-"Y", רשומה הצלחת השחקן ב-NBA. כיצד בודקים "הצלחה"? כל אחד יבחור את הדרך הנראית לו, אבל בואו נשתמש ב-"PER" של השחקן אחרי עונה, 2 עונות, או כמה שתיבחר למחקר, או ב-"EFF" ('יעילות שלו), זה לא משנה, העיקר שניבחר במתודיקה מסויימת לתת לכל שחקן ציון, במקרה של הגראף ציונים מ-180 עד 300.

אני מעריך שבגראף ישנן בערך 60 נקודות. נניח שיש 60. כל נקודה מציינת את ה-"X" של השחקן בדראפט (מיקומו בדראפט), ואת ה-"Y" שלו (הצלחתו ב-NBA). בעולם שכולו טוב, ה-X של השחקן הוא היכולת שנובאה עבורו בדראפט ולפיה הוא נייבחר שהוא משתנה "עצמאי", ואת ה-"Y" שלו, שבעולם מושלם היה תלוי ב-X ולכן הוא נקרא "משתנה תלוי".

אם העולם היה מושלם וטוב, היינו מקבלים קורלציה בין X ו-Y הנראית כמו בגראף הבא:

 

גרף שני

 

מנסיוני, הגראף הראשון היה נותן קורלציה (רמת מתאם) בין X ל-Y של בערך 82. עד 85.

הגרף השני הוא גרף של קורלציה של בערך 95, כשהיכולת לנבא את "Y" מהידע של "X" היא מצויינת.

 

גראף שלישי

 

 

 

הגראף השלישי הוא תוצאה של קורלציה של 98. או 99.  כשהיכולת לנבא את "Y" מ-"X" היא כמעט מושלמת.

 

 

גראף רביעי

 

 

הגראף הרביעי הוא הגראף בין תוצאות GPA (ציוני גמר בתיכון) לבין קבלת ציוני "A" בקולג' בכרמה גבוהה. לפי צורת הגראף הייתי אומר שכאן הקורלציה היא בסביבות 60.. עד 65. שהיא בערך הקורלציה בין מיקום בדראפט והצלחה ב-NBA.

גראף חמישי

הגראף החמישי הוא קורלציה בין גובה האב וגובה הבן. במקרה הזה אני יודע שהקורלציה של הגראף הזה היא 54.

גראף ששי

במקרה זה ברצוני להתרכז בגראף הימני מלמעלה. כשאנחנו מדברים על היחסים בין מיקון בדראפט והצלחה ב-NBA ההנחה היא שקיים יחס ישר בין השניים. זה לא תמיד ככה.  נניח שבגראף הימני למעלה, ה-X הוא גיל וה-Y הוא יכולת גופנית. כמובן שבין השניים אין יחס ישר, ואחרי שמגיעים לגיל אופטימלי, מתחילה הירידה.

לפני שאני מדבר על הגראף הראשון, הנה הנוסחה לחישוב הקורלציה של יחס ליניארי בין שני משתנים:

(כאשר E הוא התוחלת).

זה לא עניין גדול לחשב קורלציה בין שתי קבוצות בני 60 מספרים כל אחת (עשיתי זאת מאות פעמים לפני עולם המחשבים), אבל היום ב-EXCEL לחיצת כפתור אחת תתן לך תוצאה מ-+1.0 עד -1.0 שהיא המתאם בין שתי שורות מספרים.

כשרמת המתאם ידועה, קל מאד לחשב את קו הרגרסיה  או 'קו המתאם' (ה-LINE OF REGRESSION) בין שתי קבוצות מספרים. מהו LINE OF REGRESSION הנראה בכל אחד מששת הגראפים כקו "החותך" את הדאטה?

קו הרגרסיה (או קו המתאם) הוא קו תיאורטי המאפשר לנו לבחון ("לנבא" ) את השפעתו של גורם מנבא אחד ("ערך השחקן לפני הדראפט, המיקום לאורך ה-X), על  המשתנה השני ("הצלחה ב-NBA, התוצאה לאורך ה-Y). באנגלית קוראים לקו הזה גם "THE LINE OF BEST FIT". גם את הקו הזה ניתן לחשב בקלות, וכמובן שב-EXCEL זוהי לחיצת כפתור הנותנת את הנוסחה לקו ישר, כשאלפה הוא המקום בו הקו חותך את "Y", ו-'בטה' (BETA) הוא שיפוע הקו.

עכשיו בואו נחזור לגראף הראשון:

אתם רואים ארבע קוביות בגראף: לקובייה הימנית הגבוהה (קובייה 1) קוראים HITS ('פגיעות') כמו לקובייה התחתונה משמאל (4). כי בשתיהן קבעת קו מינימלי להצלחה.  נניח שה-X הוא תוצאת בחינת ה- SAT ו-Y הוא ציונים ממוצעים באוניברסיטה של אותם סטודנטים שהתקבלו עם SAT'S שונים. לפי תוצאות המחקר (ורבים אחרים), האוניברסיטה קבעה לפי קו המתאם שהיא מקבלת רק כאלה עם SAT מעל 800. בקוביה ה-1 היא פגעה בול בקבלתם לאוניברסיטה, וגם בקוביה 4 (היא לא קיבלה אותם לאוניברסיטה, ואילו היתה מקבלת הם היו ניכשלים). הריבוע הימני התחתון (2) הוא כל ה-FALSE POSITIVE: קבלת אותם לאוניברסיטה כי היה להם SAT, ובכ"ז הם ניכשלו בלימודים הקוביה השמאלית העליונה (3) היא  ה-FALSE NEGATIVE. לא קיבלת אותם, אבל אילו כן קבלת הם היו מצליחים באוניברסיטה.

אם לוקחים את רמת המתאם (נניח 80. =r) ומכפילים אותה בעצמה (בריבוע), מקבלים 64. או 64%. ה-64% הוא המספר המראה את יעילות הנבואה אם משתמשים בקו המתאם. במילים פשוטות "הנבואה שלך בשימוש קו המתאם היא טובה ב-64% מהנבואה שלך ללא ידע קו המתאם!

הארווארד יוניברסיטי מזיזה את הקו האנכי מ-800 ל-1,200, ואז יש לה רק HITS. היא יכולה להרשות לעצמה לעשות זאת כי מאות גאונים מגישים בקשות להרווארד עם SAT של מעל 1,200. אוניברסיטאות אטחרות אילו הציבו קו קבלה גבוה מדי, לא מספיק סטודנטים היו מתקבלים.

ה-SAT של 1,200  ומעלה (בהרווארד הדריעשה האמיתית היא SAT של 1,350 או אולי אפילו 1,400). אלה הם הלברונים, הפרקרים, והאנדרו וילקינסים של הכדורסל שהם כה טובים בתיכון (ועתה בשנה הראשונה במכללה) שאתה לא יכול לשגות איתם, אם-כי תיתכננה כמובן שגיאות בבחירת הלוטרי 1 עד 3. השגיאות בדראפט קורות כמעט תמיד באמצע ה-"X", ורק לעתים רחוקות בקצוות של ה-X (אם כי אייזיה תומאס בקינגס מוכיח אחרת…).

דינג דינג דינג…הפעמון מצלצל. תם השעור.

(איך היה השעור? תמיד נחשבתי למרצה מצויין אגב כי אני מאד אוהב ללמד, אלא אם-כן תלמידי הם אוהדי לייקרס עם ראש שלא מסוגל לקלוט דבר!)

מנחם לס

מנהל הופס. הזקן והוותיק מכולם בצוות. מנסה לכתוב יומית - כל זמן שאוכל!

לפוסט הזה יש 28 תגובות

  1. פרופסור נשאר פרופסור גם שהוא בפרישה 🙂 השכלתי מאוד,רק הערה קטנה אתה נוהג לשבש את שמי זה יניב ולא יריב 🙂

  2. תודה ואחלה שיעור. בכל מקרה למסקנה, אם לא פספסתי במשהו, כל האיזור שבין 700 ל800 GRE, רובו המכריע יוצא false negative…ז"א רוב השחקנים באיזור הזה מצליחים משמעותית יותר ממה שמנבא המקום שלהם בדראפט. מסתבר שההתאמה היא לא לינארית.

  3. אז בעצם מה שנבחן הוא רמת התקפות ויכולת הניבוי של "ערך השחקן"?
    הקשר החיובי בין "ערך השחקן" לבין הצלחתו בNBA יוכיח את אמינות הניתוח של הGMים?
    כלומר כל מערך הסקאוט והניהול מטרתו הפקצ נתון משוקלל של "ערך שחקן" שינבא את יכולתו להשתלב בליגה….?
    בטח התוכנה הזאת אצל אר סי ביופורד נעולה בתשע כספות…

    אני חושב על טימופיי מוזגוב, כריס קופלנד, לנדרי פילדס, סטיב נובאק והשנה גם טוריי מורי שהניקס אספו משום מקום והיו אצלם שחקנים ראויים למדיי (קופלנד, נובאק, פילדס ומוריי) או הפכו לכאלה בנסיבות הנכונות (מוזגוב) ונראה מזה שהניקס ידעו לעשות עבודה לא רעה בתחום.

    אז למה אנחנו כאלה כושלים??

  4. מומי הבין שפירסון זה ג'נרל מנג'ר עם תואר בסטיטסטיקה והסתברות ?
    אם מומי הבין נכון את השיעור , אייזה תומאס שנבחר 60 בדראפט למעשה מהווה חריגה סטיטסטית
    למה לפי מה שמומי הבין במקום ה -60 הוא נכנס בקושי למשבצת של הגרף ברביע על ציר ה X -Y אבל נתן בפיגוז מבחינת הביצועים של ה PER כנגד כל הסיכויים

    חבל שלמומי לא היו מורים כמו ד"ר מנחם , אולי מומי היה מגיע לנס"א ולא לדש בורד של המונית

    1. מומו, אתה נהג מונית אתה? אז מאיפה אתה יודע להגיד "חריגה סטטיסטית"? לי יש רושם שאתה פרופסור לפילוסופיה בבר אילן שעובד על כולנו!

  5. מנחם, אם יש לך זמן פנוי, אתה צריך לשקול להעביר קורסים ב Coursera.org

    דרך אגב, מדובר באחלה אתר למי שרוצה ללמוד מה שבא לו בזמנו החופשי.

      1. נאמר שהוא אומר שהוא רוצה להתבשל שנה נוספת וגם מעוניין לשחק עם איזה אוקאפור שמגיע.
        ראיתי את זה בהופסהייפ, אני אחפש את הקיישור בערב

  6. אייל אתה לא היחיד. גם אני רואה כאן אוסף נקודות וקווים. רק מהמראה של כל הנוסחאות האלה קיבלתי סחרחורת. כנראה דזו העונש על שנים של אהדה למג'יק וקארים בימי נעוריי. גם "חזרה בתשובה" ומעבר לסלטיקס של גארנט ושות' לא הצליחה לתקן את המעוות. דוק זה לא מכובד להזכיר לאוויל כמוני את חטאיו

    1. מנחם גרמת לבור בסטטיסטיקה ומתמטיקה כמוני להבין משהו שבחיים לא היה לי מושג בו ולכן תודה. אם אפשר מאמר על סטטיסטיקה וסקס אשמח לקרוא למרות שזה לא קשור להופס .

  7. עשית לי פלאשבק מהגיהנום מקורס שיטות מחקר כמותיות שנה א'.
    איזה תופת.

    אני הולך להירגע עם התמונות של מומי…

  8. כתבתי תגובה בפוסט של יניב, בעיקרון נראה לי שההטייה הכי גדולה היא בתהליך קבלת ההחלטה של הקבוצה שמושפע או משיקולים לא רציונאליים, או משיקולים שאינם קשורים להצלחה בדראפט. על אלה צריך להוסיף את האיכות הכוללת של הדראפט שבוודאי תשפיע על הסטטיסטיקה הפרטית של כל מקרה.
    בקיצור, נראה לי שיש יותר מידי משתנים שצריך לחשב.

    1. גם זה, וגם תהליף ההתפתחות של שחקן ב-NBA הוא משתנה שאין דרך לנחשו. לכמה חיי אן בי אי, טיסות, וכו הם לחם, ולאחרים זוועה.

כתיבת תגובה

סגירת תפריט