פרק 6 : רגרסיה ליניארית

6.1  קשר דטרמיניסטי וקשר סטטיסטי בין שני משתנים
       6.1.1  קשר ליניארי בין משתנים
6.2 התכונות היסודיות של מקדם המתאם הליניארי
      תרגילים
6.3  קו הרגרסיה לחיזוי y  לפי  x  
       תרגילים
6.4 קו הרגרסיה לחיזוי x לפי y
6.5  הקשר בין מקדם המתאם ובין קווי הרגרסיה 
       תרגילים

 6.1  קשר דטרמיניסטי וקשר סטטיסטי בין שני משתנים
רצונו של האדם לחזות את העתיד הוא שאיפה עתיקת-יומין. כל אדם היה רוצה לקבל תשובות מדויקות לשאלות כגון:

         * מה יהיו התוצאות במשחקי הכדורגל בשבת הקרובה? (במיוחד אם האיש נוהג למלא טופס
           טוטו)

         * כיצד תתנהג מניה מסוימת שנסחרת בבורסה במשך החודשיים הקרובים? (בהנחה שהאדם
            השקיע כסף ברכישת המניה)

         *  מה יהיה מזג האוויר בצפון איטליה במחצית השנייה של חודש ספטמבר? (האיש מתכנן   
            לבלות שם את חופשתו בתקופה זו)

 קשה מאוד לתת תשובה מדויקת לשאלות אלה, אך במקרים מסוימים החיזוי אפשרי בהחלט, ולהלן דוגמה שממחישה זאת.

דוגמה: רכבת יוצאת מבאר-שבע לכיוון חיפה במהירות קבועה של 80 קמ"ש. איזה מרחק תעבור הרכבת כעבור שעה, כעבור שעה וחצי, וכעבור שעתיים?

פתרון: במקרה זה  החיזוי מבוסס על הנוסחה הידועה: vt  S =, כלומר בתנועה שוות-מהירות המרחק Sשווה למכפלת המהירות v בזמן t . במילים אחרות, קיים קשר חד-משמעי בין המשתנים t ו- S (בהנחה ש- v  נשאר קבוע).
 

אך הנוסחה הזאת מאפשרת לפתור גם את הבעיה ההפוכה, כלומר לחזות את
t על-סמך S.
דוגמה: רכבת יוצאת מבאר-שבע לכיוון חיפה, במהירות קבועה של 80 קמ"ש. כעבור כמה זמן תימצא הרכבת במרחק של 140 ק"מ מבאר-שבע?



למעלה

גם במסגרת הסטטיסטיקה אפשר לחקור קשר בין משתנים, אך הפעם מדובר בקשר סטטיסטי. משמעות הדבר שקיים קשר מסוים בין שני משתנים, אך הקשר אינו חד-משמעי ולכן אי-אפשר לחזות באופן מדויק את אחד המשתנים על-סמך המשתנה האחר.

להלן מספר דוגמאות של קשר סטטיסטי בין שני משתנים:
         א.         הקשר בין ההכנסה של משפחה ובין צריכת החשמל של המשפחה.
         ב.         הקשר בין הציון במתמטיקה ובין הציון בפיזיקה של תלמיד.
          ג.         הקשר בין הגובה של אדם ובין משקלו.
         ד.         הקשר בין מספר שנות הלימוד של אדם ובין שכרו.
         ה.         הקשר בין זמן ההמתנה בתור בסניף של בנק ובין מספר הכספרים באותו סניף.

 6.1.1  קשר ליניארי בין משתנים
הקשר הפשוט ביותר בין שני משתנים x ו- y הוא הקשר הליניארי. הצורה המתמטית של הקשר הזה היא:
 b+y = ax  כאשר a ו- b קבועים. בהמשך נציג נוסחאות לחישוב המקדמים a ו- b, אך לפני כן עלינו
לבדוק האם אכן יש קשר ליניארי בין המשתנים x ו- y.

כדי להבין יותר טוב במה הדברים אמורים, נציג דוגמה:
דוגמה: רופא (שמתמחה ברפואת ילדים) רצה לחקור את הקשר בין גיל התינוקות ובין משקלם. לשם כך הוא שקל 10 תינוקות שנבחרו באקראי, בגילים שונים,  וקיבל את התוצאות הבאות:

 

על-פי דיאגרמת הפיזור הזאת, אכן יש קשר בין גיל התינוקות ובין משקלם (עקרונית, ככל שגיל התינוק מתקדם יותר, הוא שוקל יותר), אך בוודאי שאין קשר ליניארי מושלם בין המשתנים (אחרת הנקודות בדיאגרמת הפיזור היו "יושבות" על קו ישר).

למעלה

מתעורר אפוא הצורך למדד סטטיסטי לקביעת עוצמת הקשר הליניארי בין שני משתנים. המדד הזה מכונה "מקדם המתאם הליניארי", הוא מסומן ב-
r, ומחושב באמצעות הנוסחה:

 


למעלה

דיאגרמות הפיזור שבתרשים הבא ממחישות את הערכים השונים של מקדם המתאם  r.

נשתמש בנוסחה (6.1.1) כדי לחשב את מקדם המתאם בין המשתנים X ו-Y שבדוגמה הקודמת.

למעלה

 

למעלה

למעלה

תרגילים

                                    
האם קיים קשר בין x   ו- y ? מהו סוג הקשר?   

למעלה

(4) כדי לבדוק את ההשערה שקיים קשר בין צריכת הדלק ובין מהירות הנסיעה במכוניות מדגם מסוים, נבדקו 20 מכוניות מדגם זה. כל המכוניות נסעו באותו מסלול, אך במהירויות שונות. בתום הנסיעה בדקו את צריכת הדלק של כל מכונית, ועל-סמך הנתונים שנתקבלו חישבו את מקדם המתאם בין צריכת הדלק ובין המהירות. נתקבלה התוצאה: 0.68 = r.

לאחר מכן התברר שבגלל טעות בכיוון מד המהירות, כל המכוניות נסעו במהירות הנמוכה ב- 10 קמ"ש מהנדרש. האם הדבר ישפיע על מקדם המתאם? נמק תשובתך. 

(5) מנהל בית-ספר רצה לבדוק אם קיים קשר בין ציוני התלמידים במתמטיקה ובין ציוניהם בסטטיסטיקה. לשם כך הוא בדק את הציונים של תלמידי כיתה מסוימת במבחן המסכם במתמטיקה ובמבחן המסכם בסטטיסטיקה. הוא חישב ומצא שמקדם המתאם הליניארי בין הציונים בשני המקצועות הוא 0.738.

כעבור מספר ימים החליט המורה למתמטיקה להוריד  4%  מציונו של כל תלמיד. המורה לסטטיסטיקה החליט להוריד  3%  מציונו של כל תלמיד. מה יהיה מקדם המתאם בין הציונים במתמטיקה ובין הציונים בסטטיסטיקה לאחר הורדת הציונים? נמק תשובתך 

(6) הוכח כי הנוסחה (6.3.1) אכן מתקיימת.       

(7) סטטיסטיקאי רצה לבדוק אם קיים קשר בין ציוני התלמידים בפיזיקה ובין ציוניהם בכימיה. לשם כך הוא בדק את הציונים של תלמידי כיתה מסוימת במבחן מסכם בפיזיקה ואת הציונים של תלמידי אותה כיתה במבחן מסכם בכימיה. התקבלה התוצאה: 0.613 = r.

מאוחר יותר התברר שהמורה לפיזיקה בחן את הכיתה באמצעות שני מבחנים: מבחן לטור א'  ומבחן לטור ב'. לאחר פרסום הציונים, טענו תלמידי טור ב' שמבחנם היה קשה יותר מזה של טור א' וביקשו "פקטור". המורה נענה לבקשתם והוסיף 4% לכל ציון (של טור ב' בלבד).
האם הדבר ישפיע על מקדם המתאם? נמק תשובתך.  

למעלה

6.3  קו הרגרסיה לחיזוי y  לפי  x    


מכל נקודה שבדיאגרמת הפיזור מורידים אנך לציר ה- x ומתבוננים רק באותו קטע מהאנך שמחבר את הנקודה לקו הרגרסיה.

 

למעלה

הערות:
א.         על-פי-רוב, החיזוי שאנו מקבלים באמצעות משוואת קו הרגרסיה אינו מדויק, ויש לכך שתי סיבות 
          עיקריות: 
                     (1) ברוב המקרים אין קשר ליניארי מושלם בין המשתנים. 
                     (2) משוואת קו הרגרסיה מבוססת על מדגם  בלבד.         

ב.         ככל שמשוואת קו הרגרסיה תתבסס על מדגם גדול יותר, החיזוי יהיה מדויק יותר.

ג.         שיטת הרגרסיה הליניארית נותנת חיזוי מדויק אך ורק כאשר קיים קשר ליניארי מושלם בין שני    המשתנים.

ד.     קו הרגרסיה עובר תמיד דרך הנקודה והנוסחה (6.4.2) מבוססת על העובדה הזאת.  

תרגילים
(1) טכנאי ייצור במפעל למוצרי חלב בדק את ההנחה שגבינה מסוג מסוים מאבדת ממשקלה אם היא מוחזקת בקירור במשך זמן ממושך. לשם כך הוא בחר באקראי 7 חבילות במשקל 1 ק"ג מהגבינה הזאת, החזיק אותן בקירור במשך זמנים שונים, ובדק את איבוד המשקל בכל חבילה. נתקבלו התוצאות הבאות: 
         א.         חשב את מקדם המתאם בין שני המשתנים. מהי מסקנתך? 
ב.         מצא את משוואת קו הרגרסיה של איבוד המשקל כפונקציה של הזמן.
ג.         מהו איבוד המשקל הצפוי של ק"ג גבינה מסוג זה שהוחזק בקירור במשך 28 יום?

(2) הנהלת מפעל מסוים פרסמה את הנתונים הבאים על ההוצאות למחקר (x) ועל הרווחים (y) בארבע השנים האחרונות: 
     

  א.         מצא את משוואת קו הרגרסיה של y כפונקציה של x.
   ב.         תאר במערכת צירים את נתוני השאלה (דיאגרמת פיזור) ואת קו הרגרסיה.
    ג.         מהו הרווח השנתי הצפוי אם ההוצאה השנתית למחקר היא 450,000 ש"ח?                                     ד.         האם אפשר לחשב, על סמך משוואת קו הרגרסיה שמצאת בסעיף א', מהי ההוצאה השנתית
           הצפויה  על המחקר אם המפעל ירוויח 5,500,000 ש"ח בשנה?       

למעלה                                

(3)  על הנדסאי תעשייה וניהול הוטלה המשימה לבדוק את הקשר בין השכר החודשי, הוותק המקצועי, וההספק היומי של העובדים במחלקת ההרכבה של מערכות אלקטרוניות. ההנדסאי בחר באקראי חמישה עובדים, ובדק עבור כל אחד את הפרמטרים האלה. נתקבלו התוצאות הבאות:       

למעלה


למעלה
6.4   קו הרגרסיה לחיזוי X לפי Y

למעלה

 6.5  הקשר בין מקדם המתאם ובין קווי הרגרסיה
בשני הסעיפים הקודמים (6.3 ו- 6.4) למדנו שלפני מציאת משוואת קווי הרגרסיה רצוי לחשב את מקדם המתאם בין שני המשתנים (כי אם אין קשר ליניארי משמעותי בין המשתנים, הרי שאין טעם במציאת קו הרגרסיה).  

משמעות הדבר, שעל-פי-רוב כאשר אנו מפעילים את הנוסחאות למציאת המקדמים בקו הרגרסיה, אנו יודעים כבר מה ערכו של מקדם המתאם r. ניתן לנצל עובדה זו כדי להקל על תהליך החישוב של המקדמים במשוואות קווי הרגרסיה.  

כצעד ראשון בכיוון זה, נוכיח את הנוסחה:

למעלה

תרגילים


למעלה