שעור קל (ללא נוסחאות!) בסטטיסטיקה כתגובה לסדרת המאמרים של אבי טרכטמן / פרופ' מנחם לס

הגראף מראה את 'קו הרגרסיה' של קורלציה (מתאם) של 0.973 =r

אני אוהב את אבי טרכטמן. אתם בוודאי לא יודעים אבל פה ושם נוצרים יחסי ידידות ביני לבין כמה עורכים ואנשי צוות. קחו את מידן למשל. הפכנו לממש ידידים עוד לפני הפרישה, ואפילו הפרישה לא פגעה בידידותנו. אז אבי הוא אחד מידידי הצעירים באתר,

אם כי הוא לא אחד מהצעירים באמת כאן.

אני מעריך שאבי הוא אחד המבוגרים ביותר בין אנשי הצוות, כשאני כמעט בטוח שרק אני, מולי , ואלכס (רבינו; אין לי מושג בן כמה אלכס דוקורסקי) מבוגרים רוב בסולעורכי הפוטילםממנו . (אגב, אין לי גם מושג בגיל עורכי הפוטבול)

אז ככה:

אבי, אתה אחד החברים הצעירים הטובים שלי באתר, אז המסר הזה שלי לא ייסבר את אוזניך ועיניך, ואין כאן כל ניסיון לפגוע בפרוייקט הענק שלקחת על עצמך, אבל אני מאמין שאני יכול לדרג את 9 המאמנים סתם ממבט ומניסיון הרבה יותר טוב מהדרוג שלך המתבסס על מדד אינטרנטי ואקסטרני.

הנה שעור קצר בסטטיסטיקה:

מדוע בכלל עושים מחקרים בהם הקורלציה (מתאם) הוא הבסיס הסטטיסטי?

בד"כ עושים מחקרים בין משתנה 'עצמאי' (INDEPENDENT) ומשתנה 'תלוי' (DEPENDENT).

המשתנה 'התלוי' הוא לא תלוי למעשה במשתנה העצמאי, אבל מנסים למצוא מה המשותף ביניהם. מה היחס ביניהם.

ברור שמבחינה הגיונית עושים מחקרי קורלציה כדי להבין אם יש איזה שהוא יחס ביניהם. חובה לזכור ש"יחס" לא מציין "תלות" (CAUSATION). לעתים חשוב מאד לדעת יחס בין שני משתנים אפילו אם הם לא 'תלויים' אחד בשני, או במקרים שישנם משתנים אחרים הקובעים בקורלציה (מתאם).

למעשה במחקרים ההיפוטזה הראשונית היא שאין קשר בין שני משתנים, ואז המחקר או שמצדיק את ההפיוטזה, או קובע שהיא שגוייה ושיש יחס בין שני המשתנים.

חשוב לציין שקורלציה נותנת ידע על משתנים שונים הקיימים גם בנתונים העצמאיים וגם בנתונים התלויים. ז"א ניתן לחשב את אחוז המשתנים הקובעים גם במשתנה העצמאי וגם במשתנה התלוי.

לדוגמא: אם נעשה קורלציה בין גיל לכוח, נוכל למצוא מה הוא גודל המשתנה המשותף – לא 'הגורם' אלא המשותף גם לגורם העצמאי (גיל) וגם לגורם התלוי (כוח).

למשל? אין ספק שכמות אימונים בעבר או גם בהווה, ידע (כיצד להשקיע כוח מקסימלי), סוג גוף, משקל, וכו' הם גורמים גם במשתנה העצמאי וגם במשתנה התלוי.

זה ייעשה ע"י חישוב קו הרגרסיה (REGRESSION LINE) שיוכל לנבא מה חוזקך אם גילך ידוע. ככל שהמתאם גבוה יותר – האפשרות לנבא היא גבוהה יותר. תיכף נדבר על זה

יש למחקרי קורלציה עוד חשיבות: אפילו אם הם מראים על קשר קטן, ישנם מקרים בחיים שסיכוי קטן הוא טוב יותר מחוסר סיכוי, וזה נכון במיוחד במחקרים רפואיים

שימוש חשוב אחר בקורלציה הוא היכולת לנבא. ז"א את אתה יודע את הקורליצה בין המשתנה העצמאי והמשתנה התלוי – נניח שהוא 7,, אז אם תכפיל את ה 7. בריבוע, תקבל 49. הווה אומר שאם תנבא את התלוי מהידע של העצמאי, נבואתך תהיה טובה ב-49% מסתם ניחוש. זה חשוב מאד במחקרים רפואיים, כגון חיסון בקורונה. אם אין כל תוצאות לוואי לחיסון, אז כל סיכוי לא להידבק בנגיף אחרי חיסון הוא טוב יותר מלא לקחת חיסון.

הנבואה הטובה ביותר היא ע"י שימוש בקו הרגרסיה. ה-REGRESSION LINE הוא הקו המתאר טוב ביותר את כל מרחק הנקודות בריבוע – נותן את המספר הקטן ביותר של כל מרחקי הנקודות מקו הרגרסיה בריבוע. הנוסחה צורכת את עהקורלציה ואת המשתנים והיא די פשוטה – תתפלאו.

בגראף למעלה המתאם בין הקו המאוזן והקו האנכי הוא r=0.357 שהוא מתאם נמוך מאד. אבל אפילו הוא יכול להיות בר-שימוש. נניח אוניברסיטת דרום קרולינה מקבלת סטודנטים שעשו בבחינה מסויימת (התוצאות של הבחינה מ-0 עד 4) לפחות 3.5 בקו המאוזן. היא תטעה עם הרבה מאד סטודנטים. אבל נניח אותה בחינה היא בחינת כניסה לאוניברסיטת הרווארד אבל היא מקבלת רק את אלה שעשו '4' או מעל. אז היא לא תטעה אפילו בקבלת סטודנט אחד!

או במחקרים רפואיים המסוגלים לנבא אחוז של 'התגברות על מחלה' עם רפואה מסוימת שנמצאה ב-אפס (0) סיכוי לגרום לתופעות לוואי שליליות אפילו קורלציה של 5. היא יעילה, כי היא מציינת 25% סיכוי להיעזר ברפואה החדשה, מעל ומעבר אי לקיחתה.

אבל בעולם הסטטיסטי של רוב המחקרים קורלציה שהיא קטנה מ-7. נחשבת ל-INSIGNIFICANT. תלוי כמובן מה הם שני המשתנים שאתה בוחן, ומה חשיבות (וכן סיכון) בנבואה נכונה או מוטעית מקו הרגרסיה. כי כפי שהסברתי ואם אחד הוא INDEPENDENT ('עצמאי') והשני DEPENDENT וזה לא עניין של CAUSATION כמו בחיסון נגד נגיף הקורונה, אז זה פשוט עניין של 'יחס'. של יידע מעל 'צ'אנס.

אצלך אבי הקרורלציות הן בסביבות 55. – 57., ולצערי עלי לחלוק עד דעתך שהן 'סבירות'. הן כל כך נמוכות (היחסים בין טיב המאמן והמדדים האיטנטרנטים והאקסטרנים שלך) שבמחקר הן תוגדרנה – או תוסברנה – שהן טובות סתם מדרוג המאמנים לפי גובה המאמן למשל, או משקלו, רק ב-25%. זה בד"כ נחשב בסטטיסטיקה כיחס שלא ניתן להשתמש בו (ז"א – הרשימה שלך מ-1 עד 9 היא רק ב-25% טובה מאשר לשים את כל שמות כל המאמנים בפתקאות בכובע, ואז להוציא פתקה מקופלת ולומר "הוא מס' 1".

כפי שהסברתי קודם ישנם מקרים בהם מתאם של 5. נחשב ליותר טוב מכלום. במיוחד ברפואה. אם החיסון של פייזר היה נמצא כיעיל בקורלציה של 5, והוא לא גורם לכל תופעה שלילית , אז אפילו אם הוא נותן לי 25% יותר מצ'אנס להיות מחוסן – אני לוקח אותו.

לפי נוסחת הקורלציה אפשר לחשב את קו הריגרסיה.

למשל בגראף הבא היה מחדר בין גיל ו-UREA. לפי הנקודות אני מעריך שהקורלטציה הייתה בסביבות 5.או 55.

קו אהריגרסיה נותן לך את הצ'אנס הטוב ביותר לנבא "IN UREA של אדם בכל גיל שהוא. כפי שרואים הנבואה משתפרת עם הגיל, אז ישנה שיטה נוספת של MULTIPLE CORRELATION ו=-MULTIPLE REGRESSION שמסוגחל לטפל גם בבעייה הזאת

הייתי אומר שהדרוג שלך על טיב המאמנים לפי המדדים שלך, הייתה נותנת גרף דומה לזה שבצבע הירוק, אז אני מעדיף להחליט על דרוג המאמנים לפי מבט עיני, מוחי, ומחשבתי – שהם גבוהים בהרבה מקורלציה של 0.55 עם המדדים שהצגת.

באהבה,

מנחם

מנחם לס

בעל האתר, הבוס הראשי, וכותב יומית - כל זמן שאוכל!

לפוסט הזה יש 11 תגובות

  1. אחח… מנחם. קודם כל, לכבוד הוא לי שכתבת מאמר שלם כתגובה אליי. באמת אני מסמיק מנחת. במקרה יש לי יום הולדת לועזי שבוע הבא (41, למעשה בתאריך העברי אהיה בן 41 בשבת, כלומר מחר) כך שכן, אני לא מצעירי האתר, אבל לא כ-ז-ה מבוגר.

    אני גם מסכים בגדול שהקורלציות לא גבוהות במיוחד ושקשה להסיק מהן יותר מדי. אבל האמת היא שמה שאני הכי אוהב בכל סדרת המאמרים שכתבתי הוא הריבוע מהמאמר השלישי של coaches by external vs. internal rank, ומה שאני הכי הכי אוהב שם זה את הריבועים הצהובים – אלו שאומרים שאין אפילו מאמן אחד בכל הליגה, שהוא טוב במדד אחד אבל ממש גרוע במדד אחר. אם לא היה קשר, הייתי מצפה למצוא מאמן אחד כזה בשטח שמהווה שמינית מהשטח כולו אבל אין אפילו אחד כזה בנמצא. ויותר מכך – גם אם תרחיב את השמינית הזאת לריבועים שלידם ותגיע כבר ל 18 ריבועים (מתוך 64, כלומר 28%) תמצא רק שני מאמנים שבהם מתקיים קשר שלילי בין הפן האינטרני לפן האקסטרני (ג׳נטרי וקליפורד). בשבילי, הריבוע הזה היה הרגע המכריע של סדרת המאמרים כולה שאמר לי שעשיתי משהו נכון.

    וכמו שכתבתי בתגובות למאמרים – בסופו של דבר, אני מחבב את מבחן העין . הוא אמנם לא מושלם ,אבל הוא שם. אף ג׳ייסון קיד או לוק וולטון לא השתחל לצמרת, וכל השמות בצמרת הם שמות הגיוניים מאד. כשמבחינתי היחידים שקצת מוזרים הם ריק קרלייל במקום ה 15 (אבל לא נראה לי שהוא עשה יותר מדי מאז האליפות שלו לפני עשור) ופרנק ווגל במקום ה 24 (אלוף אלוף, אבל היה ממש גרוע באורלנדו, וזה מוריד אותו).

    אבל כאמור – המון המון תודה גם על ההדבקות וגם על המאמר הזה!

    1. וואווו, אז לדעתי ישנם איזה 15 מבוגרים ממך בצוות. לא תארתי לעצמי שאתה כזה צעיר. משום מה מכמה מהמסרים שלך חשבתי שאתה שמנמן כזה בין 50 ל-55 שמתחיל להתקרח, וכשהוא מתאמן הוא ישר מזיע על הקרחת.

      1. זה בגלל שאם כולם אומרים שהם בגיל x אבל מרגישים צעירים יותר. אני בדרך כלל אומר שאני בגיל x אבל מרגיש מבוגר יותר.
        במקרה שלי, אני בכיף מרגיש בגיל 60 רוב הזמן. ואני בהחלט מתחיל (ואף יותר מכך) להתקרח.

  2. בושה וכלימה לציין את אם בי גיי ולא את מומי, האיש שהביא אותו לאתר
    היום חוגגים 15 שנה ל 81 הנקודות של קובי מול טורנטו
    מומי הגיב בשיר חגיגי:
    ********^^^^*********^^^^^^^^^^^*******
    היה זה ביקור של הראפטורס באל איי
    בתקופה ששיחק שם כריס בוש הגיי
    במחצית עוד פתחו ללייקרס את התחת
    אבל אז מספר 24 שיחק כשד משחת
    קובי השתולל בלי רחמים ושחרר את הממבה
    צבע את טורנטו ראפטורס בצבעי סגול ועמבה
    זה היה קובי מול כולם, ממש סטר עם הזין
    81 נקודות יצר הזדמנויות יש מאיין
    הוא קלע וקלע מכל נקודה על הפארקט
    בוש ירד מושפל, חטף חזק את הבאגט
    כל גדולי הליגה מחאו לקובי כפיים
    והיו מי שעשו קעקוע של קובי על השדיים

    1. מומי, אתה לא נחמן ביאליק וגם לא זאת בת ה-22 שקראה את שירה בהכתרה של ביידן, אבל אני חייב לומר שיש לך סיכוי אם תמשיך לעבוד על כך ותשתמש בגוגל ב"שימוש בחרוזים ומילים נרדפות בעברית"

    2. חחחחח
      גדול מומידן
      המשחק הזה בלתי נשכח אני זוכר שהלכתי אחרי זה לאוניברסיטה ולא הפסקתי לדבר על קובי ועל ההישג המדהים. זה לא גוליבר (צמברלין) מול הננסים של פילי!

  3. The Doc is In! תודה דוק על השיעור, וגם תודה לאבי על הסדרה שלו, קטונתי מלהבין בכל התרשימים והגרפים ששניכם הבאתם, אבל מה שכן אהבתי את הרעיונות שלו להסתכל על מאמנים ובכלל מזווית אחרת. לא תמיד זה תופס, אבל כשזה תופס, לפעמים יש פה מכרה זהב ע״ע הסייברמטריקס.

  4. תודה מנחם
    עוד 7 שעות אני נכנס למים בבת גלים שלנו וגולש לכיוון החוף השקט שם אראה אילו הפתעות זימנה לי הסערה האחרונה. אחרי כן אפגש עם עיתונאי חיפאי חביב מוטי מנדלסון שמו, שמעת עליו?
    לגבי הפרוייקט של אבי, כמו שהוא טוען יש המון משתנים והחשוב שבהם הוא השחקנים שיש למאמן ביד לא ממש נכנסו לשקלול.
    מה שטיבס עושה בניקס מעולה. רואים מיד טביעת יד של של מאמן הגנה מצוין. בכלל לא אתפלא אם ישתחלו לפליאוף למרות שלפני תחילת העונה חשבתי שימשיכו להיות נמושה. זה מקרה ברור שבו מאמן עושה את ההבדל.

  5. קורלציה גבוהה מ 0.6-0.7 נדרשת כאשר אתה מניח ש X הוא הגורם היחיד שמסביר את האפקט על Y.
    כאשר אתה מניח שיש כמה גורמים, צריך לבדוק את המשמעות הסטטיסטית של המקדם הספיצפי של הגורם אותו אתה בודק.
    נניח לדוגמה שיש שלושה גורמים שמשפיעים במידה שווה על הביצועים של הקבוצה, המאמן, הקהל והקונפרנס. נניח בהמשך שהמאמן קובע ב 100% את החלק שלו בביצועים. המאמן בהתאם ישפיע על שליש מהביצועים ולכן הקורלציה תהיה בסביבות 0.33 למרות שהמשמעות הסטטסיטית שלה תהיה גבוהה מאד.
    שורה תחתונה, מהסתכלות בגרף נראה שלמרות שהקורלציה היא בסיבות ה -0.5 המשמעות הסטטיסטית שלה גבוהה והמחקר (המרשים מאד) מביא תוצאות נכונות. עדיין , כמו כל מחקר סטטיסטי יש קודם כל לזכור שקורלציה אינה מוכיחה סיבתיות. גורם נוסף שהייתי בודק באופן יסודי יותר זה עד כמה המחיר בווגאס משקף כבר את היכולת החזויה של המאמן (כמו מחיר של מניה שמשקף את הערך העתידי שלה) . הנפגע העיקרי מכך הוא פופוביץ, סביר להניח שהליין בוגאס מכניס כבר את היכולת החזויה של פופוביץ להערכות סוף השנה כך שעל מנת להכות אותם הוא חייב כל שנה להשתפר ביחס לשנה הקודמת. ניתן לבצע קיזוזים כאלו אבל זה כבר לא עבודה לאקסל.

כתיבת תגובה

סגירת תפריט