פרק 3: סטטיסטיקה תיאורית 
           
  

    3.1 תיאור נתונים באמצעות טבלת שכיחויות
     
3.1.1 טבלת השכיחויות של משתנה בדיד

    
  3.1.2 שכיחות מצטברת, שכיחות יחסית ושכיחות יחסית מצטברת

      
3.1.3 טבלת השכיחויות של משתנה רציף

3.2 מדדי המרכז
        3.2.1 הממוצע האריתמטי
        3.2.2 החציון   
        3.2.3 השכיח
        3.2.4 יתרונות וחסרונות של מדדי המרכז

3.3 מדדי הפיזור וחישובם
      3.3.1 התחום
      3.3.2 התחום הבין-רבעוני
      3.3.3 ממוצע הסטיות המוחלטות
      3.3.4 השונות וסטיית התקן  
      3.3.5 יתרונות וחסרונות של מדדי הפיזור

3.4 הצגה גרפית של נתונים סטטיסטיים
      3.4.1 דיאגרמת עוגה (פאי)
      3.4.2 דיאגרמת מקלות
      3.4.3 היסטוגרם 
      3.4.4 מצולע השכיחויות 
      3.4.5 עקומת השכיחויות (או עקומת ההתפלגות) 
      3.4.5.1 מצולע השכיחויות המצטברות  
     3.4.6 תרשימים באקסל
   
לתרגול האינטראקטיבי

 3.1 תיאור נתונים באמצעות טבלת שכיחויות
 3.1.1 טבלת השכיחויות של משתנה בדיד
הסטטיסטיקה התיאורית עוסקת בארגון הנתונים, תיאורם הגרפי, והסקת מסקנות על-סמך חישובים הנעשים על הנתונים האלה. בסעיף זה נעסוק בארגון הנתונים בטבלת שכיחויות.

מדוע צריך את זה? התשובה היא שרוב המחקרים הסטטיסטיים מבוססים על מספר רב של נתונים שהצגתם בסדרה אינה נוחה, ולכן עדיף לסדר ולרכז אותם בטבלה מיוחדת, המכונה טבלת השכיחויות.

בנוסף לסידור שיטתי של הנתונים, טבלת השכיחויות מאפשרת חישוב נוח של מדדים סטטיסטיים שאותם נכיר בהמשך.

הטבלה הבאה מתארת את המבנה הכללי של טבלת השכיחויות עבור משתנה בדיד:  

                          

 

                                         

פעילות באקסל:
בנה טבלת שכיחויות עם הנתונים שבדוגמה, על-פי ההנחיות הבאות:
א. בעמודה
A הקלד את נתוני המשתנה הנמדד.
ב. בעמודה B הקלד את נתוני השכיחויות.
ג. הוסף שורת כותרת לנתונים (בתאים A1, B1 בהתאמה).
ד. חשב את סך התצפיות בתא B8 (השתמשו בפונקצית SUM , וודא שקיבלת את הסכום 16).
ה. שמור את הקובץ בשם "פרק 3". לגיליון עצמו קרא בשם "תעודות הצטיינות".

למעלה

 3.1.2 שכיחות מצטברת, שכיחות יחסית ושכיחות יחסית מצטברת
לעתים קרובות לצורך ניתוחים סטטיסטיים דרוש מידע  נוסף בטבלת השכיחויות.
לדוגמה: כמה תלמידים (מבין התלמידים שמצטיינים בספורט) השיגו עד (וכולל) 5 תעודות הצטיינות במשך שנת הלימודים?

התשובה היא: 12 תלמידים=2+4+1+5  


לפני שנציג את טבלת השכיחויות מהדוגמא הקודמת, הכוללת גם את השכיחות המצטברת, השכיחות היחסית המצטברת, היעזרו באקסל כדי לחשב את הערכים הדרושים.  

פעילות באקסל:
א. היכנס לטבלת השכיחויות שבנית בסעיף הקודם.
ב. הוסף עמודה C – שכיחות מצטברת, וחשב את הערכים בעזרת פונקצית SUM.
ג. הוסף עמודה D – שכיחות יחסית. חשב את הערך הראשון בעזרת פונקציה שתגדיר בשורת הנוסחאות.
ד. הוסף עמודה E – שכיחות יחסית מצטברת, וחשב את הערכים בעזרת פונקצית SUM.
ה. ודא שהתוצאות שקיבלת זהות לערכים הרשומים בטבלה הבאה.

                           

למעלה

3.1.3 טבלת השכיחויות של משתנה רציף
כדי לבנות טבלת שכיחויות עבור סדרת נתונים המייצגים ערכים של משתנה רציף, נחלק את תחום הערכים  של המשתנה למספר מרווחים המכונים "מחלקות" (או "קבוצות").

למשל, בדוגמה  2 שבסעיף 1.3 ניתן לבחור את המחלקות באופן הבא:
                                                            60-65 (המחלקה הראשונה)
                                                            65-70 (המחלקה השנייה)
                                                            70-75 (המחלקה השלישית)
                                                            75-80 (המחלקה הרביעית)
                                                            80-85 (המחלקה החמישית)

(הערות:  א. ברוב המקרים המחלקות הן בעלות רוחב שווה, אם כי הדבר אינו הכרחי.
               ב.  אין כללים מוגדרים וחד-משמעיים לבחירת מספר המחלקות, אך אל דאגה! במסגרת הקורס 
                   
הזה, בכל בעיה מסוג זה המחלקות תהיינה נתונות ומוגדרות מראש).

המספרים 60 ו-65 מהווים את הגבולות האמיתיים של המחלקה הראשונה (60 הוא הגבול האמיתי התחתון, 65 הוא הגבול האמיתי העליון). המספרים 65 ו-70 מהווים את הגבולות האמיתיים של המחלקה השנייה, וכך הלאה.

ההפרש בין הגבול האמיתי העליון והגבול האמיתי התחתון של המחלקה מכונה רוחב המחלקה.
בדוגמה זו, כל המחלקות הן ברוחב 5 .

כל אחד מנתוני הסדרה שייך למחלקה אחת בלבד !
בהתאם לכך, שלושת האיברים הראשונים של הסדרה שייכים למחלקה הראשונה, ולכן שכיחות המחלקה הזאת היא 3; חמשת האיברים הבאים שייכים למחלקה השנייה, ולכן שכיחות המחלקה היא 5 , וכך הלאה.

אבל יש גם מקרים מיוחדים. למשל הערך 80 שבסדרה: האם הוא שייך למחלקה הרביעית או החמישית?
כדי לפתור בעיות  מסוג  זה, החליטו הסטטיסטיקאים שעבור כל מחלקה הגבול התחתון האמיתי שייך למחלקה, אך הגבול העליון האמיתי אינו שייך למחלקה (הוא שייך למחלקה הבאה, משום שהוא מהווה בו-זמנית גם גבול תחתון אמיתי למחלקה זו).
בהתאם לכלל  זה, הערך 80 של הסדרה שייך למחלקה החמישית.

על-סמך העובדות האלה נבנה את טבלת השכיחויות של נתוני הסדרה:

                     

הערה: לטבלה זו צירפנו גם את השכיחות המצטברת, השכיחות היחסית, והשכיחות היחסית המצטברת.
           פרמטרים אלה מוגדרים ומחושבים בדיוק כמו בסעיף הקודם.

למעלה

תרגילים
1. בקופסה 45 ברגים. להלן שתי טבלאות הכוללות נתונים על אורך הברגים ומשקלם:

                           

 עבור כל אחת מהטבלאות מצא:
א.  את הגבולות האמיתיים של המחלקה השנייה.
ב.  את הגבולות האמיתיים של המחלקה הרביעית.
ג. הרוחב של כל מחלקה.
ד. השכיחות של המחלקה הראשונה.
ה. השכיחות היחסית של המחלקה הרביעית.
ו. המחלקה ששכיחותה הגבוהה ביותר.
ז. השכיחות המצטברת של המחלקה השלישית.
ח. השכיחות היחסית המצטברת של המחלקה שלפני האחרונה.

למעלה

2. מפעל מייצר ומשווק קפה בקופסאות שמשקלו הנומינלי 200 גרם. נציג של ארגון הצרכנים בחר
    באקראי 40 קופסאות, שקל אותן וקיבל את התוצאות הבאות:

170,192,177,197,184,180,180,160,201,194,187,208,204,195,218,200,200,191,173,203
195,225,174,190,185,180,201,221,190,225,226,210,200,229,197,191,205,218,217,200     
         :סדר את הנתונים בטבלת השכיחויות הבאה והשלם את החסר

 

3. במפעל למוצרי חשמל ביתיים מייצרים מכונות כביסה. כושר הייצור של המפעל הוא 120 מכונות   
ביום.השלב האחרון בתהליך הייצור הוא בדיקת האיכות של המוצר. מנהל המפעל ביקש מראש הצוות
לבדיקת האיכות דוח ממוחשב על התפלגות מספר הפגמים שנתגלו במכונות הכביסה, ביום מסוים. האיש התבלבל, ובמקום הדוח המבוקש הגיש למנהל את הטבלה הבאה:  


 
עקב תקלה במדפסת, השכיחות היחסית המתאימה לערך 4 של X לא הודפסה.
   א. השלם את הנתון החסר.
   ב. בנה טבלת שכיחויות חדשה הכוללת גם את השכיחות הרגילה (f) , השכיחות המצטברת (F) , 
       והשכיחות היחסית המצטברת (P).

3.2  מדדי המרכז
3.2.1 הממוצע האריתמטי
בפרק 1 למדנו שנתונים סטטיסטיים משמשים כבסיס לקבלת החלטות.
לעתים קרובות מקבלי ההחלטות אינם יכולים להתחשב בכל נתון בנפרד, ולכן רצוי לתמצת את אופי הנתונים באמצעות מספר מצומצם של מדדים.  

מדד מרכזי של סדרת נתונים סטטיסטיים הוא פרמטר מספרי המשקף את הנטייה הכללית של איברי הסדרה.
מדדי המרכז העיקריים הם: הממוצע האריתמטי, החציון והשכיח. בתת-סעיף זה נעסוק בממוצע האריתמטי בלבד.

הגדרה: הממוצע האריתמטי של סדרת מספרים הוא היחס שבין סכום המספרים ובין מספר המספרים.
דוגמה: בפקולטה להנדסה של אוניברסיטה יוקרתית מתקבלים מדי שנה 80 תלמידים בלבד. המועמדים מתקבלים על-סמך הציון הממוצע של מבחני הבגרות. מתקבלים 80 המועמדים שממוצעי ציוניהם בבחינות הבגרות הם הגבוהים ביותר מקרב כלל המועמדים.

על-סמך נתוני המועמדים ידוע שסף הקבלה השנה הוא 90 . לפניכם ציוני בחינות הבגרות של מועמד פלוני: 92,87,95,88,100,90,90,94 . האם הוא יתקבל ללימודים?

פתרון: על-סמך הגדרת הממוצע האריתמטי:

                                            
 
לכן ממוצע ציוני הבגרות של המועמד יהיה:          
                                           

למעלה

פעילות באקסל:
א. קרא את ההסבר על הפונקציה Average.
ב. פתח גיליון חדש בקובץ האקסל.
ג. הזן בעמודה A את הנתונים הרשומים בדוגמה של הפקולטה להנדסה.
ד. חשב את ממוצע הציונים של המועמד. האם התקבלה אותה תוצאה?

  (לחץ לעבור לאקסל)

בדוגמה נבחרו באמצעות העכבר שתי סדרות מספרים: A1:A3 ו- D6:D8. הפונקציה חישבה את ממוצע כל הערכים בתאים אלו. שינוי באחד התאים ישפיע מיידית ובצורה שוטפת על תוצאת החישוב.

הפונקציה שנוצרת בתוך שורת הנוסחאות היא: =AVERAGE(A1:A3,D6:D8).

הערות:
·        הארגומנטים יכולים להיות מספרים, טווחים או הפניות לתאים המכילים  מספרים.
·        ערכים לוגיים וטקסט המייצג מספרים שיוקלדו ישירות אל תוך רשימת הארגומנטים  ייכללו בספירה.
·        אם ארגומנט של טווח או הפניה לתא מכיל טקסט, ערכים לוגיים או תאים ריקים,  המערכת תתעלם מערכים אלה;
        עם זאת, תאים עם הערך אפס ייכללו.
·        ארגומנטים שהם ערכי שגיאה או טקסט שאינו ניתן לתרגום למספרים גורמים לשגיאות.      

לינק לסרטון המדגים את השימוש בפונקציה זו

  למעלה  

פעילות באקסל:
א. חזור לדוגמה שבגיליון "תעודות הצטיינות".
ב. הוסף את העמודה שתחשב את המכפלה של כל אחד מערכי X בשכיחות שלו.
ג. חשב את ממוצע הנתונים. שים לב שהפעם אינך יכול להשתמש בפונקצית 
       לחישוב הממוצע של מספר תעודות ההצטיינות. מדוע? Average   

  (לחץ לעבור לאקסל)

למעלה

3.2.2  החציון  
הממוצע האריתמטי הוא המדד המרכזי הנפוץ ביותר, אך במצבים מסוימים המדד הזה אינו משקף את המציאות בצורה נאמנה.
דוגמה: במחלקה לסטטיסטיקה של חברת ביטוח מעסיקים חמישה סטטיסטיקאים. הנתונים הבאים מתארים את השכר לשעה (בש"ח) של כל אחד מהם: 62,68,75,80,87 (השכר תלוי ברמת ההשכלה ובוותק).

השכר הממוצע של הסטטיסטיקאים הוא 74.4 ש"ח לשעה (בדוק!). מספר זה משקף היטב את הנטייה הכללית של  הנתונים. כעבור שנה, קודם הסטטיסטיקאי הבכיר (ששכרו לשעה היה 87 ש"ח) לתפקיד ראש המחלקה, ושכרו הועלה ל-250 ש"ח לשעה. לכן סדרת נתוני השכר תהיה עכשיו: 62,68,75,80,250 והשכר הממוצע יהיה 107 ש"ח לשעה (בדוק!).

מספר זה אינו משקף בצורה טובה את הנטייה הכללית של הנתונים (אף אחד מהתוכניתנים לא מרוויח לשעה סכום קרוב לזה!), ולכן יש צורך במדד מרכזי אחר, המסוגל לתאר את המציאות החדשה בצורה נאמנה.
המדד המתאים ביותר לתיאור הנטייה הכללית של הנתונים במצב הנוכחי הוא החציון (המסומן ב- Me ,קיצור המונח הלועזי Median).

הגדרה: החציון של סדרת נתונים הוא ערך המשתנה אשר מספר הנתונים הקטנים ממנו (או שווים לו) שווה למספר הנתונים הגדולים ממנו (או שווים לו).

הערה חשובה: לצורך חישוב החציון חובה לסדר את איברי הסדרה בסדר עולה.

כדי לחשב את החציון של סדרת נתונים נבחין בין שני מקרים: N אי-זוגי, ו-N זוגי (N מסמן את מספר איברי הסדרה).

א.  N אי-זוגי
במקרה זה, החציון הוא האיבר האמצעי של הסדרה. בדוגמה הנ"ל למשל 75= Me (בשני המקרים!) כי שניים מאיברי הסדרה, הנמצאים לפניו, קטנים ממנו, והשניים הנמצאים אחריו גדולים ממנו.

הנוסחה הכללית לחישוב החציון של סדרת נתונים שבה מספר האיברים אי-זוגי היא:

                                                          

ב. N זוגי
נמחיש גם הפעם את אופן החישוב של החציון באמצעות דוגמה: קבוצה של שישה תלמידים השיגו את  הציונים הבאים במבחן באנגלית: 58,63,67,74,82,90. מאחר שמספר איברי הסדרה הוא זוגי, אי-אפשר למצוא איבר אחד בסדרה שמספר האיברים הנמצאים לפניו יהיה שווה למספר האיברים שאחריו.
לעומת זאת, אפשר להצביע על שני איברים שביחד נהנים מהתכונה הזאת: 67 ו-74.
ואומנם, יש שני איברים בסדרה שהם קטנים מ-67 ושני איברים גדולים מ-74 .

לכן, כשמספר איברי הסדרה הוא זוגי, החציון מוגדר כממוצע של שני האיברים המרכזיים:

                                                                   

הנוסחה הכללית לחישוב החציון של סדרת נתונים שבה מספר האיברים זוגי היא אפוא:

                                           

למעלה

פעילות באקסל:
א. קרא את ההסבר על הפונקציה Median.
ב. עבור לגיליון "הפקולטה להנדסה".
ג. חשב את חציון הציונים של המועמד.

        

 (לחץ לעבור לאקסל)


בדוגמה כאן, נבחרה באמצעות העכבר סדרת מספרים B2:B21 . הפונקציה החזירה את הערך המצוי באמצע קבוצת נתונים זו. שינוי באחד התאים יכול להשפיע מיידית על תוצאת החישוב. הפונקציה שנוצרת בתוך שורת הנוסחאות היא: =MEDIAN (B2:B21).

הערות

·        אם יש מספר זוגי של מספרים בקבוצה, תחשב הפונקציה MEDIAN את ממוצע שני המספרים האמצעיים. ·        הארגומנטים יכולים להיות מספרים, טווחים או הפניות לתאים המכילים מספרים.       
·        ערכים לוגיים וטקסט המייצג מספרים המוקלדים ישירות אל תוך רשימת הארגומנטים ייכללו בספירה.                
·        אם ארגומנט מערך או ארגומנט הפניה מכיל טקסט, ערכים לוגיים או תאים ריקים, המערכת תתעלם מערכים אלה;
        עם זאת, תאים עם הערך אפס ייכללו.    
·        ארגומנטים שהם ערכי שגיאה או טקסט שאינו ניתן לתרגום למספרים גורמים לשגיאות.

השיטה שהצגנו כאן למציאת החציון תקפה גם כאשר המשתנה הוא בדיד והנתונים מסודרים בטבלת שכיחויות.

דוגמה: מצא את החציון של ההתפלגות:

                                                  

 

הערה: עמודת השכיחויות המצטברת (F) אינה הכרחית, אך הדבר מועיל לפתרון הבעיה)

למעלה

 

פעילות באקסל:
א. חזרו לדוגמא המופיעה בגיליון "תעודות הצטיינות"
ב. שימו לב שאין באפשרותכם להשתמש בפונקציית Median לחישוב החציון. מדוע?

 (לחץ לעבור לאקסל)

     למעלה

3.2.3  השכיח 
  

   (לחץ לעבור לאקסל)

למעלה

  (לחץ לעבור לאקסל)

קל למצוא את השכיח גם כאשר הנתונים בדידים ומסודרים בטבלת שכיחויות.
דוגמה: מצא את השכיח של ההתפלגות:

                                                   
השכיח  הוא  Mo = 7 , כי לערך זה של   X  יש שכיחות מרבית.

 פעילות באקסל:
א. חזור לדוגמה שבגיליון "תעודות הצטיינות".
ג. שים לב שאינך יכול להשתמש בפונקצית Mode לחישוב השכיח. מדוע?

 (לחץ לעבור לאקסל)

למעלה


למעלה

 3.2.4 יתרונות וחסרונות של מדדי המרכז
להלן רשימת היתרונות והחסרונות של שלושת מדדי המרכז. הם יעזרו להחליט באיזה מדד מרכזי כדאי להשתמש בכל מצב נתון.  א.  הממוצע האריתמטי
         יתרונות :  * קל לחישוב. 
                           * ניתן לחשב אותו תמיד. 
                           * חישוב הממוצע מבוסס על כל הנתונים. 
                           * מועיל גם למטרות אחרות (כגון חישוב סטיית התקן). 
 ב. החציון  
          יתרונות :  * קל לחישוב.  
                            * ניתן לחשב אותו תמיד.
                            * אינו מושפע מערכים קיצוניים של המשתנה.

         חסרונות:   * אינו מבוסס על כל הנתונים. 
                            * אינו שימושי למטרות אחרות.   

  ג. השכיח
          יתרונות :  *  קל לחישוב.
                            *  אינו מושפע מערכים קיצוניים של המשתנה.

         חסרונות :  *  לא תמיד אפשר לחשב אותו.   
                            *  לא תמיד מצביע על הנטייה הכללית של הנתונים (למשל כאשר יש שני שכיחים).
                            *  אינו שימושי למטרות אחרות.

למעלה

תרגילים

 3.3 מדדי הפיזור וחישובם
    3.3.1 התחום
בסעיף 3.2 נוכחנו לדעת שעל-פי-רוב מדדי המרכז מתארים בצורה די טובה את אופי הנתונים הסטטיסטיים, אך לא תמיד.
להמחשת הטענה, נתבונן בציוניהם של שני תלמידים במשך הסמסטר:

                                                         תלמיד א: 77, 75, 75, 73

                                                          תלמיד ב: 90, 80, 70, 60

ממוצע הציונים של כל אחד מהם הוא 75 (בדוק!). בכל זאת, פיזור הציונים של תלמיד א שונה לחלוטין מזה של תלמיד ב.
מכאן המסקנה, שכדי לקבל תמונה שלמה יותר על אופי הנתונים הסטטיסטיים יש צורך גם במדדי הפיזור.  
מדד הפיזור הפשוט ביותר הוא התחום (מסומן ב-R , קיצור המונח הלועזי  Range) .

הגדרה: התחום של סדרת נתונים סטטיסטיים הוא ההפרש בין האיבר הגדול ביותר והאיבר הקטן ביותר מקרב איברי הסדרה. ובצורת נוסחה:

                                            

  בהתאם לנוסחה זו, תחום הציונים של תלמיד א יהיה: 77-73 = 4 ותחום הציונים של תלמיד ב יהיה: 90-60 = 30.

למעלה


     3.3.2 התחום הבין-רבעוני
לעתים קרובות התחום אינו נותן תמונה נאמנה על מידת הפיזור של הנתונים.
לדוגמה: סטטיסטיקאי מעוניין לחקור את פיזור ההכנסות בקרב 270 משפחות ביישוב קהילתי.     
ביישוב זה יש מספר מצומצם של משפחות שמרוויחות מעל  60,000  ש"ח לחודש, ומספר מצומצם של משפחות מרוויחות פחות מ-4,000 ש"ח לחודש.

רוב המשפחות מרוויחות בין 7,000 ל-12,000 ש"ח לחודש. אם הסטטיסטיקאי יחשב את תחום ההכנסות על סמך כל הנתונים, הוא יקבל תמונה מעוותת של פיזור ההכנסות.

לכן החליטו הסטטיסטיקאים שבמצבים כאלה לא רצוי להתחשב בערכים הקיצוניים של המשתנה.
מדד הפיזור המתאים לבעיה זו הוא התחום הבין-רבעוני. כדי להגדירו באופן מדויק, נגדיר תחילה את המונחים הבאים:

 

  למעלה

 

 

  למעלה

3.3.3 ממוצע הסטיות המוחלטות

למעלה

3.3.4 השונות וסטיית התקן

למעלה

              

 (לחץ לעבור לאקסל)

למעלה

 

למעלה

 

3.3.5  יתרונות וחסרונות של מדדי הפיזור
     א.  התחום
                       יתרונות: * קל לחישוב.
                                       * ניתן לחשב אותו תמיד.

                      חסרונות: * אינו מבוסס על כל הנתונים.
                                       * מושפע מערכים קיצוניים של המשתנה.

     ב.  התחום הבין-רבעוני      
                      יתרונות:  * לעתים קרובות עדיף על התחום.
                                       * אינו מושפע מערכים קיצוניים של המשתנה.

                     חסרונות:  * לא תמיד אפשר לחשב אותו (למשל כאשר יש מספר מצומצם של נתונים).
                                       * אינו מבוסס על כל הנתונים.

   ג.  השונות וסטיית התקן           
                      יתרונות:  * אפשר לחשב אותן תמיד.
                                       * חישובן מבוסס על כל הנתונים.

                     חסרונות:  * לא תמיד קל לחשב אותן.
                                       * מושפעות מערכים קיצוניים של המשתנה.

למעלה

תרגילים

*4. הוכח שהנוסחה (2.3.8) שקולה לנוסחה (2.3.6).  
*שאלת רשות

5.  בסוף שנת 2004 התפרסמו הנתונים הבאים על המשכורות החודשיות בקרב עובדי המפעל  Alpha: המשכורת הממוצעת: 7,500 ש"ח; המשכורת החציונית: 7,400 ש"ח; המשכורת השכיחה: 7,300 ש"ח; תחום המשכורות: 35,000 ש"ח; סטיית התקן של המשכורות: 2,000 ש"ח. החל מתאריך 1.1.2005 מקבל כל עובד תוספת של 100 ש"ח למשכורתו החודשית.
חשב את ערכי המדדים הנ"ל לאחר עדכון המשכורות. נמק תשובתך.

6.  בסוף שנת 2004 התפרסמו גם הנתונים המאפיינים את המשכורות החודשיות בקרב עובדי המפעל Beta . מתברר שהמאפיינים (כלומר המשכורת הממוצעת, המשכורת החציונית, וכו') זהים לאלה של המפעל Alpha שבשאלה הקודמת. החל מתאריך 1.1.2005 מקבל כל עובד תוספת של % 5 למשכורתו החודשית. חשב את ערכי המדדים לאחר עדכון המשכורות. נמק תשובתך.

*7.  כיתה בת N  תלמידים ניגשה למבחן בפיזיקה. אחד התלמידים חלה ביום המבחן, כך שבפועל נבחנו רק  1 - N  תלמידים. לאחר בדיקת המבחנים הגיש המורה למזכירות את רשימת הציונים, גם את הציון הממוצע ואת סטיית התקן של הציונים.
לאחר שהתלמיד החלים ממחלתו, המורה בחן אותו, וציונו צורף לרשימת הציונים הכיתתית. התברר שהציון הזה היה שווה לציון הממוצע של יתר התלמידים.

הוכח כי:
     א.  הציון הממוצע הכיתתי לא ישתנה.
     ב.  סטיית התקן של הציונים תקטן.

*שאלת רשות

8.  "האגודה למען הילד" אוספת תרומות למען ילדים נזקקים. הטבלה הבאה מתארת את הסכומים
      שתרמו 200 משפחות שמתגוררות ביישוב קהילתי קטן במבצע ההתרמה האחרון:

 למעלה

3.4  הצגה גרפית של נתונים סטטיסטיים
3.4.1  דיאגראמת עוגה (פאי)
בפרק 1 למדנו שמטרה נוספת של הסטטיסטיקה התיאורית היא תיאור גרפי של הנתונים. בסעיף זה נכיר את דיאגראמת העוגה (המכונה גם דיאגראמת פאי), שהיא אמצעי פשוט ונוח לתיאור נתונים איכותיים.

דוגמה: ביישוב קטן יש 2,000 בעלי זכות בחירה. בבחירות למועצה המקומית הצביעו 1,000 אזרחים בעד מפלגת האדומים, 400 בעד מפלגת הכתומים, 300 בעד מפלגת הירוקים, ו-300 נמנעו מלהצביע.

תאר את הנתונים באמצעות דיאגראמת עוגה.

פתרון: נרכז את הנתונים בטבלת שכיחויות, ונחשב את השכיחות היחסית של כל ערך:

 

למעלה

 3.4.2 דיאגראמת מקלות
דיאגראמת מקלות היא אמצעי גרפי לתיאור התפלגות של משתנה כמותי בדיד. נמחיש את הדבר באמצעות  דוגמה.

דוגמה: בתחרויות אתלטיקה השתתפו 105 ספורטאים. הטבלה הבאה מסכמת את התפלגות תעודות ההצטיינות בקרב הספורטאים:        

תאר את התפלגות  הנתונים באמצעות דיאגרמת מקלות.
פתרון: כדי לבנות דיאגרמת מקלות, תחילה יש לסרטט מערכת של שני צירים מאונכים זה לזה.
הציר האופקי (ציר ה-X ) מתאר את הערכים של המשתנה הבדיד X. הציר האנכי (ציר ה-f) מתאר את השכיחות של הערכים של X.

הערה: בניגוד למערכת הצירים המקובלת במתמטיקה, כאן אין צורך שראשית הציר האופקי תתלכד בראשית הציר האנכי.

על-פי טבלת הנתונים, השכיחות של הערך  X=0 היא 10, ולכן אורך ה"מקל" המתאים הוא 10 יחידות; השכיחות של הערך X=1 היא 15, ולכן אורך ה"מקל" המתאים הוא 15 יחידות, וכך הלאה.

 3.4.3  היסטוגרם
ההיסטוגרם הוא אמצעי גרפי לתיאור התפלגות של משתנה כמותי רציף. קיים הבדל משמעותי בין דיאגרמת מקלות והיסטוגרם: בדיאגרמת מקלות השכיחות של ערך מסוים של המשתנה מתוארת על-ידי אורך  ה"מקל", ואילו בהיסטוגרם השכיחות של מחלקה מתוארת באמצעות שטח של מלבן.

מספר המלבנים בהיסטוגרם שווה למספר המחלקות שבטבלת השכיחויות. הבסיס של כל מלבן שווה לרוחב המחלקה המתאימה; גובה המלבן שווה לצפיפות המחלקה (נזכיר שהצפיפות של המחלקה מוגדרת כיחס בין שכיחות המחלקה ורוחב המחלקה).

דוגמה: טבלת השכיחויות הבאה מתארת את השכר לשעת עבודה בקרב 100 עובדים של מפעל מסוים:

    

תאר את הנתונים באמצעות היסטוגרם.
פתרון: כדי לבנות את ההיסטוגרם, נצרף לטבלת השכיחויות את עמודת הצפיפות (המסומנת ב-f ' ).

                                       
למעלה

בדומה לדיאגרמת מקלות, גם ההיסטוגרם מתואר באמצעות מערכת של שני צירים מאונכים זה לזה,
אך הציר האופקי (ציר ה-X ) מתאר את המחלקות של ההתפלגות, והציר האנכי מתאר את הצפיפות של המחלקה (לכן יסומן ב-f ' ).

נציין שגם הפעם אין צורך שראשית הציר האופקי תתלכד בראשית הציר האנכי.להלן ההיסטוגרם המתאר את ההתפלגות:       

3.4.4  מצולע השכיחויות
אם נתבונן פעם נוספת בהיסטוגרם הזה, מתקבל הרושם שהפיזור של שכיחות הנתונים בתוך כל מחלקה הוא אחיד, ולכן גובה המלבנים משתנה ב"קפיצות". על-פי-רוב הדבר אינו נכון, ומצולע השכיחויות מתקן את הרושם הזה.

מצולע השכיחויות המתאים להיסטוגרם הזה מתקבל באופן הבא:

א.  סמן את הנקודה האמצעית של הבסיס העליון של כל אחד ממלבני ההיסטוגרם. כך תקבל
     את 
הנקודות  E,D,C,B,A  בציור שלהלן.
ב.  סמן את הנקודות F ו-G שעל הציר האופקי של ההיסטוגרם (כך שהקטע FH  יהיה שווה  
    
למחצית הבסיס של המלבן הראשון, והקטע GK יהיה שווה למחצית הבסיס של המלבן
    האחרון).
ג.  חבר בקטע ישר כל זוג של נקודות עוקבות  שקיבלת בדרך זו. כך מתקבל מצולע השכיחויות:
    FABCDEG.         

למעלה

3.4.5 עקומת השכיחויות (או עקומת ההתפלגות)
נניח שבמחקר סטטיסטי על התפלגות המשכורות  החודשיות במגזר הציבורי הצטברו הרבה מאוד נתונים, ולכן אפשר לבנות טבלת שכיחויות בעלת מספר גדול מאוד של מחלקות "צרות" (כלומר, בעלות רוחב קטן).

אם נבנה היסטוגרם ומצולע שכיחויות עבור ההתפלגות הזאת, הרי שהמצולע יהיה מורכב ממספר רב של צלעות קצרות. במקרה זה אפשר "להחליק" את המצולע, כלומר להפוך אותו לעקומה "חלקה", המכונה עקומת השכיחויות (או עקומת ההתפלגות).

להלן דוגמא של עקומה כזו:

 

לעתים קרובות נהוג לסמן בציור העקומות האלה גם את המיקום של מדדי המרכז של ההתפלגות.
ראוי לציין כי:
   א.  המיקום של השכיח (Mo) הוא נקודה על ציר ה-X, התואמת את הנקודה הגבוהה ביותר 
       של
העקומה.
   ב.  המיקום של החציון (Me) הוא נקודה על הציר האופקי (ציר ה-X), כך שהאנך העולה ממנו
        מחלק 
את השטח הכלוא בין העקומה וציר ה-X לשני חלקים שווים בשטחם.

להלן עקומות ההתפלגות הנפוצות ביותר: 

   (1)  עקומת ההתפלגות הנורמאלית


זאת עקומה שמתארת התפלגות סימטרית חד-שיאית, שבה שלושת המדדים המרכזיים שווים זה לזה. לכן הם מתלכדים לנקודה אחת על הציר האופקי.

למעלה

(2) עקומת ההתפלגות U

          

גם העקומה הזאת מתארת התפלגות סימטרית, אך הפעם היא דו-שיאית, כלומר יש לה שני שכיחים. לעומת זאת, הממוצע והחציון שווים זה לזה, ונמצאים במרכז ההתפלגות.

(3)  עקומת ההתפלגות האחידה


עקומה זו (שהיא בעצם קטע ישר, מקביל לציר האופקי) מתארת התפלגות שצפיפותה אחידה. להתפלגות זו אין שכיח. לעומת זאת, הממוצע והחציון שווים זה לזה, ומתלכדים לנקודה אחת על הציר האופקי, במרכז ההתפלגות.

למעלה

(4)  עקומת ההתפלגות האסימטרית ימנית (חיובית)

 

 

(6) עקומת ההתפלגות הבי-מודלית

עקומה זו מתארת התפלגות בעלת שני שיאים (על פי רוב בעלי גובה שונה).
הערה: יש גם התפלגויות בעלות מספר גדול יותר של שיאים.

למעלה

הפונקציה Skew

 (לחץ לעבור לאקסל)

3.4.5.6   מצולע השכיחויות המצטברות
מצולע השכיחויות המצטברות הוא עוד אמצעי לתיאור גרפי של נתונים סטטיסטיים המשקפים התפלגות של משתנה כמותי רציף. נמחיש את הדבר באמצעות דוגמה.

   דוגמה: להלן התפלגות השכר החודשי של 80 עובדים:


 המצולע מתחיל מנקודה (0 ; 4,000), המתאימה למשכורת הנמוכה ביותר ושכיחות מצטברת אפס. נקודה נוספת של המצולע היא (5 ; 5,000), המתאימה לגבול האמיתי העליון של המחלקה הראשונה והשכיחות המצטברת המתאימה. נקודה נוספת של המצולע היא (15 ; 6,000), המתאימה לגבול האמיתי העליון של  המחלקה השנייה והשכיחות המצטברת המתאימה וכך הלאה.

בהמשך, מחברים כל זוג של נקודות עוקבות בקטע ישר, וכך מקבלים את מצולע השכיחויות המצטברות.

למעלה

  3.4.6 תרשימים באקסל
התרשים הוא הצגה גראפית של נתוני הגיליון - כולם או חלקם. במקרים רבים התרשימים הופכים את טבלאות הנתונים למידע חזותי, הברור יותר להבנה. מיקום התרשים יכול להיות בגיליון עצמו או מחוצה לו. התרשים מתעדכן בכל פעם שמשתנים נתוני הגיליון שמהם הוא מורכב.

 (לחץ לעבור לאקסל)

הוספת תרשים חדש

שלב 2 מתוך 4:
בשלב זה מגדירים או מעדכנים את טווח הנתונים אותם רוצים להציג גרפית. קיימת אפשרות להתוות סידרת נתונים אחת או יותר בתרשים אחד (לתרשימי עוגה, למשל, יש סדרה אחת בלבד). לכל סידרת נתונים בתרשים יש צבע או תבנית והיא מיוצגת במקרא התרשים.

קיימות שתי לשוניות בחלון זה "טווח נתונים" ו-"סדרה":

     
 (לחץ לעבור לאקסל)

למעלה

שלב 3 מתוך 4:
בשלב זה מוגדרות אפשרויות התרשים השונות כמו כותרות צירים, תוויות נתונים ועוד. בעת שינוי ההגדרות ניתן לצפות בתצוגה מקדימה של התרשים על מנת לוודא שמתקבל המראה שרצוי לנו.
חלון זו מכיל בתוכו שש לשוניות:

          1.   בלשונית כותרות  ניתן להגדיר כותרת לתרשים כולו ולצירים:

 (לחץ לעבור לאקסל)


 (לחץ לעבור לאקסל)

 (לחץ לעבור לאקסל)

למעלה

 (לחץ לעבור לאקסל)

סרטון המחשת יצירת תרשים חדש

(מתוך אתר officefun)

 

עריכת התרשים ועיצובו

 (לחץ לעבור לאקסל)

למעלה

הוספת כותרת לתרשים ולצירים
כדי להוסיף כותרת לתרשים או לצירי X ו-Y יש ללחוץ על "אפשרויות תרשים" בתפריט המופיע למעלה.
נפתח חלון 'אפשרויות תרשים  - שלב 3 מתוך 4'. בלשונית כותרות ניתן להקליד את הכותרות הרצויות. 

 סרטון המחשת הוספת כותרות

(מתוך אתר officefun)

 

 הוספת תווית נתונים
כדי לזהות במהירות סדרת נתונים בתרשים, אפשר להוסיף תוויות נתונים לנקודות הנתונים של התרשים. כברירת מחדל, תוויות הנתונים מקושרות לערכים בגיליון העבודה, והן מתעדכנות באופן אוטומטי כאשר נעשים שינויים בערכים אלה.
יש ללחוץ על "אפשרויות תרשים" בתפריט המופיע למעלה, לבחור בלשונית "תוויות נתונים", ולבחור את האפשרות הרצויה.

סרטון המחשת הוספת תוויות נתונים

(מתוך אתר officefun)

 

עיצוב התרשים


 (לחץ לעבור לאקסל)
למעלה

סרטון המחשת עיצוב תרשים

(מתוך אתר officefun)

 

עיצוב אזור הצירים X ו-Y
בעיצוב איזור ציר ה-Y ניתן להכנס ללשונית 'סרגל' שם ניתן  לשנות את צורת הצגת הערכים בציר Y. בין השאר ניתן גם לשנות את גודל המרווחים בין הערכים המופיעים על הציר ואת הערך המזערי והמרבי.

 (לחץ לעבור לאקסל)

סרטון המחשת שינוי אופן הצגת ערכי הצירים

(מתוך אתר officefun)

עיצוב כיוון התרשים – שינוי מיקום ציר Y

 

למעלה

סרטון המחשת שינוי מיקום ציר ה - Y

(מתוך אתר officefun)

 

 

 (לחץ לעבור לאקסל)

למעלה 

תרגילים


למעלה



 לתרגול האינטראקטיבי

למעלה