לפעמים תרשים עוגה מתאים יותר

בלוג

לפעמים תרשים עוגה מתאים יותר מתרשים עמודות

דעה מאוד פופולרית בין ״מומחים״ להדמיית נותנים שתרשים עוגה הוא תרשים נחות ולא רציני ושאם באמת חשוב לבנות תרשים מובן ומדוייק, יש להשתמש באלטרנטיבות, למשל – תרשים עמודות. אבל זה לא תמיד נכון. נזכרתי בזה היום, כאשר ראיתי את הפוסט של שחר איתן ארדי בו הוא מראה את התוצאות של סקר חדש לפיו ניתן להרכיב קואליציה ציונית-חילונית עם רוב של 63 ח״כים. את התוצאות הציג שחר בעזרת גרף עמודות.

אז דבר ראשון, אותו הגרף היה הרבה יותר טוב בלי הצבעים (כתבתי על זה בעברית [לינק] ובאנגלית [כאן] ).

אבל הבעיה הגדולה ביותר שלי עם הגרף הזה היא שהוא לא מראה את הדבר החשוב ביותר – את העובדה שיש קבוצת מפלגות שביחד חוצות את הרף החשוב ביותר של 60 ח״כים.

ואת זה בדיוק אפשר להשיג בעזרת תרשים עוגה, אם בונים אותו נכון. בעבר עשיתי סדנא בה הדגמתי את הייתרונות של תרשימי עוגות והשתמשתי, תאמינו או לא, בכנסת ישראל לצורך ההדגמה. הנה הגרף ההוא

הנתונים כאן נכונים לכנסת ה־20, אבל העיקרון נכון לכל כנסת אחרת: הפלחים מייצגים מפלגות ומחולקים לשתי קבוצות: הקואליציה והאופוזיציה. בתוך כל קבוצה הפלחים ממויינים לפי גודל, כדי לעזור בהשוואה בין פלחים דומים בגודלם וצבועים באותו צבע בסיסי כדי שיהיה ברור לאיזו קבוצה משתייכת המפלגה. רף הקסם – אותו הרף הנחשק של 60 ח״כים מסומן בקו מקוקו להמחשה והדגשה. נכון שזה יותר טוב עכשיו?

מי שרוצה לקבל את קוד הפייתון ליצירת הגרף הזה מוזמן לכאן.

ואם כבר מדברים על סדנאות, אז מחר ב־21 באוקטובר, בשעה 20:00 אני מקיים וובינר המוקדש להדמיית נתונים. הפרטים כאן.

חשדות טובות. חרא של גרפים

בלוג, הדמיית נתונים

אני מתנצל על השפה הבוטה, אני פשוט נסער (טוב, לא באמת, סתם עושה את עצמי). 

יש אתר שנקרה information is beautiful שמוקדש ל־ (איך לא) הדמיית נתונים. הרבה אנשים הולכים לשם כדי לקבל השראה לגרפים טובים ולכן זה מרתיח את דמי (טוב, לא באמת, סתם עושה את עצמי) כשאני רואה גרפים כל כך גרועים. על מה אנחנו מדברים?

הנה גרף שראיתי בקבוצת הפייסבוק https://www.facebook.com/groups/DataVisualizationIsrael

(אני לא נותן לינק לגרף המקורי בכוונה, כדי לא לעודד את גוגל לשלוח לשם מבקרים)

הגרפים אמורים להציג תמונה יפה של כמה החיים שלנו היום טובים יותר מהחיים פעם. מטרה נעלה. אז מה עשו הגאונים? אספו קצת סטטיסטיקות של ״לא מזמן״ ו־״פעם״, בחרו צבעים מגניבים וציירו ציורים מאירי עיניים. כמה נחמד! בואו נתלה את זה על מקרר כדי שכולם יראו!

מה רע בגרפים האלה?

מה רע בגרפים האלה? מה לא טוב בהם? שום דבר לא טוב!

קודם כל, מה משותף בין כל המדדים האלה? שום דבר. ניחוש שלי, שהחברים באתר בחרו מדדים באקראי ומתוכם בחרו כאלה שיראו תמונה טובה יותר. יותר חשוב מזה, שימו לב שהשנים לשוואה משתנים בין גרף לגרף. למה? אני מנחש שמי שיצר את יצירת המופת הזאת התעצל לחפש שנים בהתאמה או, שוב, בחר בפינצטה שנים שיציגו משהו דרמטי. 

ועכשיו בואו נחזור להדמיית נתונים. תראו את הגרף הזה

איזה גרף יפה! אילו קווים חלקים ונעימים. אלא מה? 

הפעם היחידש שאנחנו משתמשים בקווים האלה היא כאשר אנחנו רוצים להציג חוסר וודאות. במקרים האלה, המדד אותו אנחנו מציגים נמצא על ציר ה־x וציר ה־y מראה את רמת הבטחון שלנו בערך הספציפי. במקרים האלה, המרחק בין ה־״פעמונים״, כמו גם העובי שלהם, וגם השטח שמשוטף לשתי העקומות – כולם בעלי משמעות. הנה דוגמה לשימוש נכון בעקומות מסוג זה. כאן הציר האופקי מראה את הסיכוי של אתר אינטרנט מסויים למכור מוצר, שלוש העקומות השונות מייצגים שלוש גרסאות של אותו האתר, וכך ניתן לקבל החלטה מושכלת איזו גרסה עדיפה ומה הסיכוי שההחלטה תתברר כנכונה

(מקור התמונה – כאן)

ובחזרה לגועל הנפש שלנו (באמת, אני לא מגזים). בגרף ה־״חמוד״ הזה, אין למיקום הפעמון, העובי שלו ומידת החפיפה שום משמעות! כל מה מעניין זה הגובה של הצורה. אז למה לא קיבלנו גרף עמודות? באמת שאין לי מושג. הנה, הפכתי את הגרף המקורי לעמודות. עכשיו, כל נהיה בסדר.

למה זה חשוב?

כשאני מלמד הדמיית נתונים, אנשים אומרים לי שהערות מסוג זה מעצבנות ושמדובר בטהרנות לשמה. אז ככה, הדמיית נתוים זאת שפה. וכמו בכל שפה, גם בשפה הזאת יש כללי דיקדוק. ואם יש כללים חייבים להקפיד עליהם. לעתים רחוקות, חירות הסופרים מאפשרת הפרת כללים, אבל זה בתנאי שמי שמפר את הכלל מודע אליו, מכיר אותו, עושה זאת במכוון ולכולם ברור שזה נעשה במכוןן. גם בשפה העברית יש כללים. גם בעברית, אם אגיד לכם ״שלוש גרפים עם שני טעויות״ אתם תבינו למה אני מתכוון, אבל מיד תשפטו אותי על העברית העילגת שלי. כמו בשפה המדוברת, גם בשפה הגרפית צריך להקפיד על הכללים. זה חשוב.

ביקורת ספר. תבשילים חריפים מהמטבח הטטארי

בלוג

אמ;לק: ספר נחמד. 4.5/5. מומלץ

תבשילים חריפים מהמטבח הטטארי מאת אלינה ברונסקי הוא ספר נחמד מאוד.

כל מי שגדל עם אמא או סבתא סובייטית יתחבר מאוד. כל מי שחווה את שלהי תקופת ברית המועצות יתחבר גם כן.

הדבר היחיד שהציק לי בספר, זאת כמות גדולה מדי של אידישיזמים (ז״א השפעות של השפה היידית) בפי גיבורת הספר הטטארית. לא קראתי את המקור הגרמני של הספר, אבל אני מנחש שהמתרגמת נועה קול חושבת בטעות ש־״רוזלה״ זאת צורה רוסית של השם רוזה למרות ששום דובר רוסי שאינו יהודי בחיים לא היה קורה לאשתו רוזלה׳ אלא רוזצ׳קה. נועה, אם את קוראית את זה, לידיעתך.

אני רוצה לבקש טובה.

בלוג

אני מקליט שיעורים בהדמיית נתונים עבור בתי הספר התיכוניים, כחלק ממערך השידורים הלאומי של משרד החינוך. בשיעורים, אני מבקש מהלומדים להכנס לעמוד הפייסבוק ״לפני ואחרי בהדמיית נתונים״  ולשתף שם דוגמאות של גרפים אותם הם שיפרו בעקבות הדברים הנלמדים בשיעור. השיעורים עולים לאוויר עוד כמה שבועות ולא הייתי רוצה שהתלמידים יראו דף ריק. לכן אשמח אם תוכלו למצוא דוגמה אחת או שתים משלכם ולהעלות אותם לעמוד. אני לא מחפש דברים מורכבים אלא להיפך, שינויים פשוטים כמו הורדת קווי רשת, הזזת המקרא וטיפול טוב בצבע יכולים להיות יותר מועילים ממשהו מאוד fancy.

וגם: מי שרוצה מוזמן לעקוב אחרי העמוד ולעזור לתת משוב (בונה וברוח טובה) לכל מי שמעלה לשם את הדוגמאות.

לפעמים, צבע זה דבר טוב. רק לפעמים

בלוג

כל מי שמתחיל ללמוד הדמיית נתונים יודע שברוב המקרים שימוש בצבע מיותר. אני כבר כתבתי בבלוג שלי באנגלית בנושא [לינק] ואני, כמובן, לא היחיד.

אבל לפעמים, צבע שנראה מיותר בהתחלה יכול להיות מועיל, אם רואים תמונה גדולה יותר. 

תסתכלו על הגרף הזה, למשל. כשהוא עומד בפני עצמו, הצבעים של המודות מיותרות לחלוטין – כל צבע מייצג קבוצה נפרדת, אך גם כל שורה. זוהי כפילות מזיקה.

הגרסה של אותו הגרף בשחור-לבן עובדת הרבה יותר טוב, כי היא מקטינה את כמות ה״רעש״ החזותי שנשפח על הצופה

אבל, וכאן יש אבל גדול. הגרף הזה מופיע בדשבור (לא מוצלח במיוחד) של משרד הבריאות שמפלח את סיבות המוות בישראל בשנת 2016 [לינק]. והדשבורד הזה מראה פילוח של סיבות המוות לפי מגדרים. את הפילוח הזה מראים לנו בצורה הבאה

עכשיו, כששני הגרפים עומדים אחד ליד השני, פתאום לצבע יש משמעות! הצבע מקל מאוד על איתור קבוצה מגרף מסויים בתוך גרף אחר, מה שמכניס עניין, דינמיקה ועוזר לעשות השוואות. וכאשר הצבעים האלה שמורים בין כל הגרפים באותו המסמך, הצופה מקבל כלי יעיל לנווט בתוך הנתונים.

זה מה הייתם רוצים לחשוב, נכון? אז זהו, רוב הבעים בגרפים העליונים מתאימים לרוב הצבעים בגרפים התחתונים. אבל חלק מהצבעים – לא. ואז, במקום כלי יעיל לניווט קיבלנו כלי יעיל לבילבול. עבודה יפה!

עמודות שגיאה. שגיאה גדולה

בלוג, הדמיית נתונים

עמודות שגיאה (error bars) הם אמצעי מאוד בעייתי בהעברת חוסר וודאות. במיוחד, במיוחד, במיוחד בשילוב עם גרף עמודות. ובמיוחד עם השגיאה כל כך גדולה שהיא לא נכנסת לתוך גרף. הגרף הזה בעייתי בהמון רמות, אבל אפשר היה להוריד רמת בעיתיות אחת אם במקום העמודה היו משתמשים בנקודה פשוטה.

לפעמים, קשת מבשרת טובות.

בלוג


כולנו אוהבים לצקצק בלשון כשאנחנו רואים הדמיה נתונים שמשתמשת במניפת הצבעים ״קשת״. ה־״קשת״, כך אנחנו אומרים, לא אחידה ומעוותת את המציאות. מסתבר שאם שמים את הפוריטניזם בצד, ומכניסים מספר שיפורים לתוך הנוסחאות, למניפת ה־״קשת״ (או בשמה המחודש – Turbo) יש זכות קיום בעולמנו.את עבודת השיפור והשיכנוע עשו במעבדות של גוגל. קראתי את הפוסט המקורי והשתכנעתי. את המחשבות על הפוסט סיכמתי בפוסט משלי (באנגלית).

גל שני, או לא גל שני, מצבנו לא רע בכלל

בלוג

בעיניי, המדד הטוב ביותר לחומרת המגיפה זה מקרי המוות העודפים. מה זה ולמה זה טוב (או לא טוב)? כידוע, בני אדם היו מתים גם לפני הקורונה. פה ושם אני שומע גיכוחים מהעובדה שכל אדם שנפטר עם הקורונה נספר כאילו נפטר מ־הקורונה. גם אם מדובר באדם בן 98 שסבל מסרטן גרורתי, נדרס במעבר חציה וטבע בים. אבל, למעשה, אין מה לעשות. אם בכל פעם בה הייתי צריך להסביר לאנשים, בתור איש נתונים ואלגוריתמים, ש־״לספור דברים זה קשה״ הייתי מקבל שקל, הייתי יכול לקנות מנה יפה של שווארמה עם צ׳יפס בצד ושתיה.

אה, איפה היינו. לספור מקרי מוות ממחלה מסויימת זה קשה. לספור מקרי מוות באופן כללי זה יותר קל. ולכן, אם מנהלים את הספירה נכון, ומשתמשים במודלים מתמטיים סבירים, אפשר להעריך כמה אנשים ״אמורים״ ללכת לעולמם בכל שבוע נתון. ואז, אם משווים את צפוי למצוי, אפשר לקבל תמונה מעניינת.
הנה הגרף של האתר Financial Times שעשה בדיוק את זה. (בתור מרצה לגרפים אין לי מספיק תשבוחות לגרף הזה).
אתם רואים את האזורים האדומים בין הקו האדום לשחור? אלה הם מקרי המוות העודפים – התוצאה ה״אמיתית״ של המגיפה. שישים וחמישה אלף איש בבריטניה, חמישים וארבע אלף בברזיל, וכך הלאה. באמת נורא.
אבל פה ושם יש מדינות בלי מקרי מוות עודפים בכלל. בגרף הזה רק שלוש מדינות כאלה: איסלנד, נורווגיה, וישראל. מה שלא יכול שלא לשמח.

עכשיו, למה זה קורה? האם בגלל ההנהגה הנבונה של ממשלתנו הדגולה? או בגלל ההענות המופתית של הציבור? או בזכות התפילות של בחורי ישיבות בבני ברק, ירושלים ואשדוד? אני לא יודע. מה שאני כן יודע זה. מצבנו לא רע.

ולפני שאתם ממהרים להחליט שהסגר והמגבלות היו לחינם. לפנינו מקרה קלסי של פרדוקס ההענות. בלי ניסוי מבוקר ולא מוסרי בעליל, אי אפשר לדעת אם העדר מקרי המוות העודפים הוא בזכות המגבלות למרות.

אז יאללה, תפסיקו להיות חמוצים. יש סיבה לאופטימיות