4.2.2015

לא סופרים אותם

עדכון נוסף (21 בפברואר): מאז איחוד המפלגות הערביות לפני חודש בדיוק, הרשימה המשותפת קיבלה 12 מנדטים בכל 36 הסקרים (מלבד שלושה סקרים בודדים: אחד של רפי סמית, אחד של פאנלס ואחד של קמיל פוקס, בהם קיבלה 13). הצעת עדכון לשם: "הרשימה המשותפת לסוקרים".

עדכון (8 בפברואר): אחרי 19(!) סקרים רצופים מאז איחוד המפלגות הערביות ב-22 בינואר בהם קיבלה הרשימה המשותפת 12 מנדטים, הגיע הערב סקר ערוץ 10 בפיקוח קמיל פוקס ועמו התוצאה המפתיעה: 13! נותר לראות אם בשלב כלשהו מישהו בתקשורת ירים את הכפפה ויעלה את הנושא לדיון.

רבות דובר על האיחוד בין המפלגות הערביות תחת הרשימה המשותפת, בעקבות העלאת אחוז החסימה בבחירות הקרובות ל3.25% (שפירושו כ-4 מנדטים בקירוב). סיבה נוספת לאיחוד היתה ניסיון למשוך יותר מצביעים ערבים לקלפי. לעת עתה, לפחות ממה שעולה בסקרים, נראה שהדבר היחיד שמאחד את בוחרי הרשימה המשותפת הוא שלא סופרים אותם.

התבוננו בטבלה הבאה. האם אתם מזהים משהו חריג?

תוצאות 12 הסקרים האחרונים עבור מספר מפלגות, כולל הממוצע וסטיית התקן
אם זה לא היה עצוב, זה היה מצחיק. בהנחה שהסקרים הם מדגמים בלתי-תלויים, ההסתברות שיתקבל רצף כזה של תוצאות בשניים-עשר סקרים עוקבים מאז איחוד המפלגות הערביות תחת רשימה משותפת ב-22 בינואר, היא 0.000005%(*) בקירוב. אפילו אם היינו סופרים כל סוקר רק פעם אחת, ההסתברות לתוצאה שכזו היא כ-0.02%, עדיין זניחה. המסקנה החד-משמעית מן הטבלה הזו היא שהסיכוי שכל מכוני הסקרים השונים בישראל סוקרים את הציבור הערבי שואף לאפס (מבלי להתערב בנתונים באופן לא שקוף בעליל). 

אחת ולתמיד - מה פירושה של "טעות הדגימה" בסקרים? איך הגענו לתוצאה שלעיל? האם זה נכון רק לגבי אזרחי ישראל הערבים? האם זה ייחודי לבחירות 2015? ומה זה אומר על היכולת שלנו לנבא את תוצאות הבחירות? בואו ונראה...

כשמנסים להבין תוצאה כל-כך חריגה, מוטב לחזור לנקודת המוצא. מהו, אם כן, "סקר מנדטים", ומהי "טעות הדגימה"?

בישראל רשומים 5,881,696 אזרחים בעלי זכות בחירה בבחירות הקרובות לכנסת ה-20. הסקרים השונים מנסים לאמוד את תוצאות האמת באמצעות תשאול מדגם של האוכלוסיה, בדרך-כלל כ-500 איש. במקרה כזה, עם פרסום התוצאות באמצעי התקשורת נהוג לציין כי לסקר ישנה "טעות דגימה מקסימלית" של 4.38%. אבל מה זה אומר, בעצם? התשובה היא שזה פשוט עניין של מוסכמה, לפרסם רק את המספר הזה, 4.38%, שמבטא את טעות הדיוק הגדולה ביותר האפשרית עבור הסקר, כשמעוניינים במרווח ביטחון (או "רווח בר-סמך", בשפת הסטטיסטיקאים) של 95% (או שתי סטיות-תקן עבור התפלגות נורמלית). 

במילים אחרות, זה אומר שבמקרה שבו שאלת הסקר היא בינארית - למשל שאלת "כן"/"לא"? או "נתניהו"/"הרצוג"? - אם תוצאת סקר כזה היא 50% עבור נתניהו, אז אנחנו יכולים להיות בטוחים במידה של 95% שתוצאת האמת היא בין 54.38% ל45.62%. טווח הביטחון כאן הוא רחב מפני שהתוצאה מאוד לא חד משמעית (כל מועמד קיבל 50%). אם תוצאת הסקר היתה קיצונית יותר, נניח 99% להרצוג, אז מידת הביטחון שלנו בתוצאה גדולה בהרבה מאשר במקרה של 50% וטעות הדגימה היא לא הטעות המקסימלית. במקרה כזה, עם אותו גודל אוכלוסיה ואותו גודל מדגם, במידת ביטחון של 95% תוצאת האמת תהיה בין 99.87 ל98.13. 

במקרה של סקר מנדטים, טעות הדגימה המקסימלית מתייחסת למפלגה שהיתה מקבלת 60 מנדטים בסקר. עבור מפלגה כזו, טווח הביטחון במידה של 95% הוא בין 65.25 ל54.75 מנדטים. אולם עבור מפלגות שקיבלו תוצאה קטנה יותר בסקר, אי-הודאות שלנו לא כל-כך גדולה. זה גם אינטואטיבי, מפני שאחרת לא היתה הרבה משמעות לתוצאה של 5 מנדטים למרצ, למשל.

אז מהי טעות הדגימה עבור מפלגה שקיבלה 12 מנדטים בסקר, או 10% מהקולות, כמו הרשימה הערבית המשותפת? עם אוכלוסיית בוחרים כמו זו בישראל ומדגם של כ-500 איש, הטעות היא 2.63% בלבד (ניתן למצוא מחשבוני טעות דגימה רבים ברחבי האינטרנט), או מעט יותר מ-3 מנדטים, שפירושה שבביטחון של 95%, תוצאת האמת היא בין 9 ל-15 מנדטים. זהו מרווח לא קטן בכלל! לחילופין, אם סטיית-התקן (מחצית מ"טעות הדגימה") היא של 1.5 מנדטים, ותוצאת האמת עבור הרשימה הערבית היא 12 מנדטים, היינו מצפים שהתוצאה בסקרים "תרקוד" הרבה יותר סביב ממוצע של כ-12 מנדטים. 


בטבלה למעלה בחרנו להתמקד בשניים-עשר הסקרים האחרונים בלבד. זה לא מספר גדול במיוחד ולכן אם נמדוד את סטיית-התקן רק עפ"י סקרים אלו, ניתן אולי לצפות שתהיה מעט קטנה יותר (כפי שניתן לראות עבור חמש המפלגות האחרות בטבלה, עבורם סטיית-התקן היא סביב 1-1.5 מנדטים). כלומר, אם הסקרים היו מבוצעים כהלכה, והרשימה הערבית היתה נסקרת ככל שאר המפלגות, היינו מצפים לתוצאה כגון זו:

תוצאה אפשרית של רצף סקרים כזה, לו אכן נעשו כולם בקרב מדגם מייצג של הציבור בישראל

מתברר, כנראה, שבעולמם של הסוקרים, ערבים (לא!) רוקדים.

נשאלת השאלה: למה? מדוע לא לסקור את האזרחים הערבים כאילו היו ישראלים מן המניין? יש לכך מספר תשובות אפשריות, ולא בכל עניין ברצוננו להתנבא, אולם נציין כי דרושה לכל הפחות העסקה של טלפנים דוברי ערבית, בנוסף להתמודדות עם חוסר עניין או רצון לשתף פעולה עם הסוקרים. בטור של טל שניידר ב"הארץ" מ-2012, ניתן למצוא התייחסות של סוקרים שונים לקושי בהתמודדות עם הציבור הערבי בישראל. נרמז שם כי לעיתים בוחרים הסוקרים לערוך סקר תקופתי נפרד ונרחב בקרב הציבור הערבי על-מנת לאמוד אותו יותר במדויק, ולעיתים גם מצליבים מידע בין סקרים עוקבים. בכל אופן, המשפט הלקוני: "הסקר נערך בתאריך ... בקרב X נשאלים שהם מדגם מייצג של הציבור בישראל" אינו מספק תשובה ראויה לשאלה זו.

נשאלת גם שאלה יותר חשובה: מה לגבי ציבורים אחרים? הרי גם את הציבור החרדי-אשכנזי, למשל, קשה לסקור (דרושים טלפנים דוברי יידיש, וכו'). אז מניין לנו, כצרכני סקרים, שגם עבור הציבור החרדי לא מבוצעות מניפולציות נסתרות בנתונים? לצערנו, מהתבוננות בתוצאות הסקרים של 2013, נראה שהתשובה היא: רוב הסיכויים שגם את החרדים האשכנזים לא סוקרים באופן נייטרלי. מתוך 120(!) הסקרים שנמצאים במאגר בטל בשישים ממערכת הבחירות הקודמת, ממוצע המנדטים של יהדות התורה היה 5.78, ואילו התוצאה "4" לא התקבלה אפילו פעם אחת בכל 120 הסקרים! (היינו מצפים לקבל "4" בכ-15 סקרים מתוך 120). למעשה, סטיית-התקן עבור יהדות התורה עמדה על 0.52, פחות מחצי מזו שאמורה להתקבל במדגמים של כ-500 נשאלים, כפי שניתן לראות בטבלה הבאה:


ממוצע וסטיית-התקן (החזויה ובפועל) עבור מספר מפלגות בסקרי בחירות 2013
הטבלה משווה בין סטיית-התקן החזויה עפ"י טעות הדגימה האופיינית למדגם מייצג של כ-500 איש עבור אוכלוסית הבוחרים של 2013 (שמנתה כ-5,659,722 בעלי זכות בחירה), לבין סטיית-התקן בפועל, עבור מפלגות מייצגות שונות. לא כללנו את המפלגות הערביות בטבלה מפני שהן נסקרו לסירוגין בנפרד וביחד לאורך מערכת הבחירות הקודמת. (את ההבדל בין סטיות התקן החזויה ובפועל עבור הליכוד ניתן להסביר בכך שבעוד ממוצע הסקרים הכולל עמד על כ-37.29 מנדטים, לאורך מערכת הבחירות המפלגה הלכה ודיממה מנדטים והממוצע השבועי שלה ירד מ-44 ל33 לאורך המערכה, מה שהגדיל מאוד את סטיית-התקן בפועל). אם כן, בעוד רוב אזרחי ישראל נשאלים לדעתם, ישנם ציבורים שלמים שהסוקרים אינם מצליחים לפצח.

לבסוף, כיצד מושפעת יכולת הניבוי של ניתוח-על כגון זה של בטל בשישים מתופעות כאלו בסקרים? נרחיב על כך בפוסט קרוב שידון בקשיים הטמונים בניבוי תוצאות בחירות 2015, אך ניתן לסכם בכך שניתוח-על פשוט למעשה הופך מיותר במקרה כזה. אם כל הסקרים זהים, אין שום ערך מוסף בניתוח-על שאינו משתמש במשתנים חיצוניים. במקרה שלנו, המודל הסטטיסטי הוא מודל בייסיאני שכולל מספר הנחות חיצוניות, ועל כן אינו בטל בשישים גם במקרה שעיל. המודל כולל פיצוי עבור אוכלוסיות עם אחוזי הצבעה אופייניים שונים, למשל, או עבור נטייה לטעויות שיטתיות בסקרים למפלגות מסוימות (על מורכבויות המודל נרחיב בקרוב בפוסט נפרד). לכן, תחזית בטל בשישים עשויה להיות שונה מממוצע הסקרים, גם אם כל הסקרים זהים בתוצאתם למפלגה כלשהי. למרות זאת, אם הפרקטיקה הזו תשלוט עד לסוף המערכה, יהיה קשה עד בלתי-אפשרי לזהות מגמות של הרגע האחרון, אם תהיינה, בקרב המצביעים לרשימה המשותפת.

ומה עם בסקר הבא שיתפרסם היום או מחר תקבל הרשימה המשותפת 11 מנדטים, או אולי 13? על זה נאמר "יָד לְיָד לֹא יִנָּקֶה רָּע, וְזֶרַע צַדִּיקִים נִמְלָט" (משלי, י"א 21).


************


מספר הבהרות:

1. בניתוח שלעיל נשענו על מספר הנחות על-מנת לפשט את החישובים. לדוגמא, הנחנו גודל מדגם זהה עבור כל הסוקרים. בנוסף, הנחנו שהתפלגות התוצאות בסקרים השונים היא נורמלית (ואת הסיכוי לקבלת רצף של תוצאות זהות חישבנו על סמך ההסתברות לתוצאה של בין 11.5 ל12.5 מנדטים בכל אחד מהסקרים; נזכיר כי הרשימה המשותפת אינה חתומה על הסכם עודפים). לסיכום, ההשפעה של הנחות כגון אלו אינה בטלה בשישים, אולם לטעמנו גם ניתוח מדויק יותר לא ישנה את המסקנה הסופית. בכל זאת, נשמח לקרוא את תגובות הקוראים בנושא.

2. מאז תחילת מערכת הבחירות נערכו סקרים רבים (למעלה מ-60 בחמישים הימים האחרונים) ופורסמו תוצאות לגבי כ-10 מפלגות שונות. במקרה כזה, הסיכוי למצוא רצף של 12 תוצאות זהות רצופות עבור מפלגה כלשהי במועד אקראי כלשהו הוא גדול יותר מכפי שנכתב למעלה. אנחנו לא בצענו שום חיפוש, אלא פשוט הבטנו ב-12 הסקרים האחרונים שפורסמו באמצעי התקשורת מאז איחוד הרשימות הערביות ב-22 בינואר; אולם כדי לקבל פרספקטיבה כוללת, מומלץ להעיף מבט במאגר הסקרים של פרוייקט 61, ולהיווכח בעצמכם עד כמה רצף זה חריג. (פרוייקט 61 הינו מיזם מרשים ושקוף שנועד גם הוא לנבא את תוצאות הבחירות בישראל. נשוב אליו בפוסטים הבאים).

3. האם ייתכן שהסוקרים השונים כלל אינם מתיימרים לבצע אומדן שווה של כלל האוכלוסיה בישראל? אולי גודל המדגם וטעות הדגימה שונים בהרבה ממה שהנחנו לעיל?
עפ"י אתר הסקרים של עיתון "הארץ", זה לא המצב. הנה מקבץ של הערות שוליים מתוכו, עבור 6 מתוך הסקרים בטבלה בה התמקדנו:

- מכון פאנלס פוליטיקס בראשות מנחם לזר | הסקר נערך ב-2.2.2015 בקרב 511 נשאלים שהם מדגם מייצג של הציבור בישראל. טעות הדגימה המרבית: 4.5% 
- מכון דיאלוג בפיקוח פרופ' קמיל פוקס | הסקר נערך ב-2.2.2015 בקרב 513 נשאלים שהם מדגם מייצג של הציבור בישראל. טעות הדגימה המרבית: 4.2%
- מכון TNS טלסקר | הסקר נערך ב-29.1.2015 בקרב 500 נשאלים שהם מדגם מייצג של הציבור בישראל. טעות הדגימה המרבית: שני מנדטים
- פרויקט המדגם בניהול ד"ר אריאל אילון ובפיקוח פרופ' קמיל פוקס | הסקר נערך ב-27.1.2015 בקרב 869 נשאלים שהם מדגם מייצג של הציבור בישראל. טעות הדגימה המרבית: 3.3%
- מכון פאנלס פוליטיקס בראשות מנחם לזר | הסקר נערך ב-26.1.2015 בקרב 536 נשאלים שהם מדגם מייצג של הציבור בישראל. טעות הדגימה המרבית: 4.5%
- מכון מדגם בפיקוח ד"ר מינה צמח ומנו גבע | הסקר נערך ב-25-26.1.15 בקרב 575 נשאלים שהם מדגם מייצג של הציבור בישראל. טעות הדגימה המרבית: 4.5%

4. האם פירושו של דבר שכל הסוקרים הפועלים בישראל אינם מדווחים באופן שקוף על התערבותם בנתונים טרם פרסומם? כלל וכלל לא. אנחנו מסתמכים על ניתוח-על של הסקרים השונים ואין ביכולתנו לקבוע מי מבין הסוקרים מבצע מניפולציות בנתונים ומה הן כוללות.

10 תגובות:

  1. אנונימי4/2/15 21:21

    ניתוח מעניין מאוד! התכוונתי לבדוק משהו דומה אבל הקדמתם אותי ועשיתם את זה יותר.

    במקום, הסתכלתי על ההתפלגות על טעות הדגימה כפי שהיינו מצפים לה באופן תיאורטי, והשוותי להתפלגות שעולה מהשוואה בין הסקרים עצמם, נראה שיש הבדל:

    https://navisheker.wordpress.com/2015/02/04/%D7%98%D7%A2%D7%95%D7%AA-%D7%9C%D7%A2%D7%99%D7%AA%D7%99%D7%9D-%D7%97%D7%95%D7%96%D7%A8%D7%AA/

    השבמחק
    תשובות
    1. יפה מאוד, יופי של ניתוח! היינו צריכים לצרף גרף דומה גם כן.

      עיקר הביקורת הוא לא על כך שיש לסוקרים priors בייסיאניים - במקרים מסויימים באמת אין ברירה, והרי כך גם אנחנו פועלים. היא גם לא בהכרח על כך שהם לא חושפים אותם (למרות שהציבור היה ודאי מעוניין לדעת מהם). הבעיה היא היעדר הצהרה ברורה על כך שישנם כאלה, על ההתחבאות מאחורי משפטים כלליים וציון "טעות הדגימה המקסימלית" כידי חובה בלבד.

      יהיה נחמד אם סוקרים יישאלו על המתודולוגיה שלהם כשהם מתראיינים באמצעי התקשורת ולא רק יתבקשו לדקלם 10 מספרים שהם כעלה נידף ברוח.

      מחק
    2. אנונימי4/2/15 22:00

      הו, גם לי אין ביקורת על זה שלסוקרים יש הנחות מוקדמות, priors הם לאו דווקא דבר רע. אני פשוט בעד חשיפה יותר רצינית של המידע הגולמי ואופן העיבוד שלו. נראה שאנחנו על אותו גל בנושא.

      מחק
  2. אנונימי4/2/15 23:15

    http://www.whoknows.co.il/

    השבמחק
    תשובות
    1. https://www.youtube.com/watch?v=9B1iX33N89w

      מחק
  3. ניתוח מאלף, תודה.
    שאלה קשורה שנראה לי כדאי להתעכב עליה: האם סוקרים מפרסים מידע אמין ביחס למפלגות שמגרדות את אחוז החסימה או מבצעים סטיית תקן לא סימטרית מסביב לממוצע (לטובת החיובי) כך שמפלגות מגרדות לא יפלו אל מתחת לאחוז החסימה - שכן הטענה בתקשורת שמפלגה מסויימת קיבלה בסקר 0 מנדטים תהיה חזקה מידי תקשורתית ועשויה להיות נבואה שמגשימה את עצמה.

    השבמחק
    תשובות
    1. רז-ש,

      שאלה טובה. זה סוג השאלות שהיה נחמד מאוד אם היו נשאלים הסוקרים כאשר הם מתארחים באולפני הטלוויזיה.

      בכל אופן, זו סוגיה שהופכת את ניבוי התוצאות למפלגות אלה לאתגר לא פשוט. נרחיב על כך בפוסטים הבאים.

      מחק
  4. מדוע לא מכניסים לסקרים את המפלגות הקטנות?

    השבמחק
    תשובות
    1. נח נח,
      זה כי הן בטלות בשישים.

      מחק
  5. הארץ פרסמו תוצאות של סקר שמתמקד שניתוח של קולות הערבים
    http://www.haaretz.co.il/news/elections/.premium-1.2570340
    (לא מצאתי שם יותר מדי פרטים מספריים - כמו גודל המדגם ואיך הוא נערך, אבל אולי מישהו שמכיר את המכון שערך אותו יוכל להוציא אותם.

    השבמחק