• ההשקות שבדרך

    טוב, אז רובכם כבר יודע שאני מוציא הסכת חדש.

    כן, כן, כולם היום עושים פודקאסטים, והשוק כבר רווי, וחבל שלא עשיתי את זה קודם. ידוע. לכן, אני לא מתחיל הסכת חדש אחד אלא שניים!

    הראשון כבר עלה לאוויר עם הפרק הראשון. מדובר בהסכת ראיונות שמדבר על ניהול שווק וקריירה. בכוונה לא פירסמתי את הפרק הראשון באופן נרחב: אני מחכה לעוד שני פרקים כדי שיהיה קצת ״בשר״. יש לי עוד ארבעה פרקים נוספים בשלבים של הפקה: פרופ׳ מאונ׳ תל אביב שידבר על ניהול אלגוריתמי; נציג של ממשלת איחוד האמירויות על עסקים בין ישראל לאיחוד; פרופ׳ מבר אילן על פיזיקה, רשתות חברתיות ושווק; מאמן ריצה שמדבר על הייתרונות הלא טריוויליים של פעילות גופנית על פעילות מוחית והקריירה. אה, וכבר יש לי נותן חסות לפרקים בהאים! מחר אקליט שני פרקים מתוך התור ואז אעשה השקה חגיגית.

    ההסכת השני יופק בשיתוף פעולה עם מזרחן מאחת האוניברסיטאות בארץ והוא יעסוק בחדשות המזרח התיכון. שם אני אהיה על תקן המפיק וההדיוט ששואל שאלות הבהרה.

    היכונו להשקות הגדולות!

    2020-12-15
    בלוג
  • מה זה לעזאזל אינטרנציונליזצה ולמה זה יותר חשוב ממה שחשבתם?
    2020-12-14
    רעיון-עבודה
  • למה חשוב שכולם יתחסנו

    רואה המון דמגוגיה לגבי חובת החיסון.

    למה חשוב לחייב את כולם להתחסן (בהנחה שהחיסון יעיל ובטוח)?אז אחת הטענות של ה״ספקנים״ היא שאם אני לא מתחסן, אני לא מסכן אף אחד חוץ מעצמי. זאת טענה מוטעית מכמה סיבות

    אחד: אדם לא מחוסן מסכן גם אנשים שקיבלו חיסון אבל לא פיתחו תגובה חיסונית (יש גם כאלא).

    שתים: אדם לא מחוסן מסכן גם אנשים שלא יכולים לקבל חיסון בגלל אלרגיה לאחד הרכיבים שלו 0יש גם כאלה)

    שלוש: אדם לא מחוסן מעלה את העומס על מע׳ הבריאות וזה מסכן את כל החברה.

    אפשר לחשוב על עוד, אבל זה מספיק לבינתיים.

    אז לסיכום: אם יש לך עקרונות חזקים נגד קבלת חיסון, אני מכבד אותך ואת העקרונות שלך ואתנגד נחרצות לחיסון בכפיה.

    מצד שני, אני גם מצפה שתעמוד מאחורי העקרונות האלה ותשא, לפחות חלקית בנטל. איך? דמי ביטוח מוגדלים, הגבלות על עלייה למטוסים, שלילת זכות להכנס למקומות עבודה, מוסדות חינוך…

    נשמע דרסטי?

    טוב, בשביל העקרונות אפשר לסבול, לא?

    למה הדבר דומה? נניח, אני לא מוכן ללבוש בגדים מתוך עקרון. מותר לי? מותר לי! האם אני יכול להכנס ערום לכל מקום אליו אחפוץ? לא, וזה די טבעי. אני יכול להסתובב ערום בביתי או למצוא פינה במדבר ולעשות שם מה בראש שלי, אבל אם אני חי בחברה, מצופה ממני שאכבד לא רק את העקרונות שלי אלא גם את העקרונות של ייתר החברה.

    רוצים להיות ספקנים? תשאלו מה עושים עם כספי המיסים שלנו, למה מדפיסים כסף על ימין ועל שמאל, איך זה שאין תקציב, למה הפרוטוקולים סודיים. תשאלו! אבל כשיקראו לכם, לכו להתחסן!

    2020-12-14
    חיסון קורונה בלוג
  • המיזם החדש שלי

    פרטים בהמשך

    2020-12-07
    פודקאסט רעיון-עבודה
  • לפני ואחרי - גרף עמודות מוערמות
    לפני ואחרי - גרף עמודות מוערמות

    נשאלתי שאלה על ידי קולגה איך לבחור נכון צבעים לגרף עמודות שנראה בערך כך:

    מה שרואים כאן זה תרשים עמודות מוערמות stacked bar plot שמכיל המון (המון!) קטגוריות. ובגלל הקטגוריות הרבות, קשה מאוד לקרוא אצת הגרף.

    ** **איך בוחרים צבעים בצורה נכונה?

    התשובה הנכונה מאוד מורכבת. כדי לבחור צבעים בצורה נאותה, לא מספיק לבחור צבעים אקראייים, אלא יש להתחשב בדרך בה העין האנושית מנתח תמונה חזותית. יש אתר שנקראה I Want Hue שמבוסס על מחקרים מעמיקים (ראו דף זה שמסביר את התיאוריה). אבל, וזה אבל גדול, הבעיה היא לא עם הצבעים

    זאת לא השאלה הנכונה

    האמת היא ששאלת בחירת הצבעים היא לא השאלה הנכונה במקרה הזה. כדי להבדיל בין שמונה קטגוריות על סמך שמונה צבעים, המוח שלנו צריך לעבוד מאוד מאוד קשה. בחירה נכונה של צבעים עשוייה לעזור, אבל לא לפתור את הבעיה לגמרי. ייתרה מכך, גרף עמודות מעורמות stacked bar chart בעייתי בפני עצמו. הסיבה לכך היא שהעין האנושית טובה מאוד בהשוואת מיקום של עצמים (למשל: מה יותר מנוך ממה) ולא כל כך טובה בהשוואת גדלים של עצמים (מה יותר גדול ממה).

    לכן, בגרף עמודות, קל יחסית להשוות את גודל העמודה המלאה ואת גודל הרכיב הנמוך ביותר בכל עמודה. הסיבה לכך היא כיוון שהעמודות האלה מתחילות על אותו הקו, בהשוואה הזאת אנחנו משווים את מיקום קצה העמודה ולא את הגודל. אם נרצה להשוות גדלים של רכיבים אמצעיים בגרף של עמודות מוערמות, מיקום העמודה לא עוזר, כי הן לא מתחילות באותו גובה, ואז נאלצים להשוות גדלים. וזה, כמו שאמרנו, יותר קשה. מה עושים?

    כדי לענות לשאלה הזאת, המציג חייב להחליט מה בדיוק הוא רוצה להציג. אני מפציר הלוך והפצור, תוסיפו כותרות לגרף שמסבירות את המסקנה שלו! כך, תוכלו להנחות את עצמכם לכוון ההדמיה הנכונה.

    אין לי כאן את המסקנה של מחבר הגרף המקורי, לכן אני מגושש קצת באפלה.

    אני מציע שתי חלופות. אחת, להקטין את כמות הקטגוריות, ושניה, להפריד בין הגרפים. בואו נראה

    אפשרות ראשונה: להקטין את כמות הקטגוריות

    זה לא משנה מה אתם חושבים על הנתונים שלכם, לרוב אין בהם כל כך הרבה קטגוריות. באמת שלא. בחלק גדול מהמקרים, רוב הקטגוריות מדומות. למשל, אם המטרה של הגרף שלנו להשוות חוות מחשבים בארצות הברית ומחוצה לה, אז למעשה יש לנו רק שתי קטגוריות. וזה מה שיוצא:

    נכון שזה הרבה יותר קריא? אם נשפר קצת את הקריוּת (readability) של הגרף, נקבל את הדבר היפה הזה:

    פשוט וקל! אני יודע שלפעמים להקטין את מספר הקטגוריות זה משימה קשה מאוד, אחרי שעבדתם קשה כדי לאסוף את הנתונים, לוותר על המגוון מרגיש כמו לכחתוך בבשר חי (טוב, נו הגזמתי קצת), אבל תמיד כדאי לנסות ולפשט. אם זאת לא אפשרות מעשית, בוא נוראה עוד חלופה

    אפשרות שניה: להפריד בין הגרפיםה

    שמתם לב שציר ה־X בגרף המקורי מייצג את הזמן? זה אומר שאנחנו יכולים לשנות את גרף העמודות הזה לגרף אבולוציה evolution graph שזה שם קצת יותר מתחכם לגרף של נקודה קו. שוב, אני לא בטוח מה מחבר הגרף המקורי רצה להגיד, אבל אם היה למחבר חשוב מאוד להראות את הדינמיקה האינדיווידואלית של כל קטגוריה, אז אפשר להראות בדיוק את זה:

    ראיתם איזה יופי? שימו לב ששמרתי על קנה מידה זהה בין כל הגרפים. ככה, אפשר לראות בצורה מאוד קלה באיזו קטגוריה יש ערכים ממוצעים גבוהים ובאיזו יש ערכים ממוצעים נמוכים. מצד שני, הבחירה הזאת עלולה לטשטש דינמיקה בתוך כל קטגוריה נפרדת. אם הדינמיקה האינדיווידואלית יותר מעניינת מההשווואה בין הקבוצות, אפשר להתאים קנה מידה ״אישי״ לכל קטגוריה. וזה בדיוק מה שעשיתי בדוגמה האחרונה של הפוסט הזה. בדוגמה הזאת, אני הנחתי שהערך המעניין ביותר הוא המספר הכללי, והערכים של הקטגוריות מהוות מידע משני. לכן, אני מציג את המספר הכללי בקו עבה ובולט ומספק את הדינמיקות של כל קטגוריה בתרשימי משנה למטה בצורה פחות בולטת

    מסקנה

    כאשר אתם שואלים או נשאלים שאלה טכנית לגבי שיפור גרף, תשאלו ״למה?״ למה הבעיה הטכנית חשובה ולמה היא תפתור לכם את הבעיה? פתאום תגלו שכדי לענות על ה־״למה״ תצטרכו קודם לענות על ה־״מה?״ מה אתם רוצים להגיד בגרף הזה? ואז אולי תבינו שהבעיה לא טכנית אלה תיסתית - שבמקום לבחור שמונה צבעים שונים כדאי לשנות את הגרף שיסתפק בשני צבעים בלבד.זאת הסיבה שאני חוזר ואומר: תכתבו את המסקנה של הגרף בכותרת שלו! זה כלי כל כך משמעותי ומועיל! אתם מוזמנים לקרוא את הפוסט שלי [כאן] שמדבר בדיוק על זה, או לראות את הוובינר שערכתי בנושא [כאן].

    2020-12-01
    גרף-עמודות הדמית-נתונים לפני-ואחרי בלוג הדמיית-נתונים
  • לפני ואחרי בהדמיית נתונים. תרשים רדאר (תרשים עכביש)

    תרשים רדאר, או תרשים עכביש הוא סוג התרשימים שנראים, אל פניו, מגניבים, אך למעשה כמעט תמיד הם בחירה ממש גרועה. בואו נבחן את הסיבות לכך ונחשוב על אלטרנטיבה טובה יותר.

    לפני: הבעיות של תרשים עכביש

    הנה השחזור שלי של תרשים רדאר שראיתי באחת הקבוצות בפייסבוק.

    מה הבעיות שלו?

    הבעיה הראשונה היא הקריאוּת (readability באנגלית): הגרף הזה לא קריא. האם אתם יכולים להזות בצורה מהירה את הערך של הסדרה האדומה עבור ״substance abuse״? לדעתי, לא.

    אבל בעיה גדולה יותר נעוצה בכך שמאחר ואין סדר מובנה לקטגוריות, כל אחד חופשי למיין את הקטגוריות של הגרף איך שבא לו. התוצאה של זה היא אסופה של גרפים שנראים ממש ממש שונה אחד מהשני, למרות שהם מכילים את אותם הנתונים

    אחרי: בחירת גרף מבוססת מסקנה

    מה האלטרנטיבה?

    קודם כל, צריך להחליט מה המסקנה של הגרף. לא רק לחשוב, אלא לכתובת את המסקנה ככותרת של הגרף. זה יאלץ אותך להחליט מה המסקנה וידריך אותך במאמצים לשיפור. (אני מאוד ממליץ לקרוא את הפוסט הזה https://gorelik.net/.../how-to-suck-less-in-data.../ או לראות את ההקלטה של ההרצאה שלי כאן: https://youtu.be/xGfaFdoQVHM

    חזרה לדוגמה שלנו. אם המטרה את הקורלציה בין שתי קבוצות, אז אפשר ליצור גרף עמודות, כאשר אחד התת־גרפים ממויין. וזאת התוצאה

    ומה אם המסקנה שלנו נוגעת לתובנה מעניינת לגבי ההפרשים בין הסדרות? במקרה כזה, צריך לחשב את ההפרשים ולהראות אותם, בנוסף לערכים עצמם, או במקומם.

    (שימו לב שגם כאן מיינתי את העמודות. הדרך הקלה ביותר לשפר את הקריאוּת של גרף עמודות זה למיין אותם לפי הערך.

    קוד פייתון שהשתמשתי בו כדי ליצור את הגרפים כאן נמצא כאן: https://gist.github.com/bgbg/db833db723998cd244b5049bfe01f5ac

    2020-11-10
    לפני-ואחרי עכביש רדאר בלוג הדמיית-נתונים
  • ההזדמנות המפוספסת ביותר בהצגה גרפית של נתוניםאפשר להשתפר את האימפקט של המצגת שלכם ב-94% תוך דקה?

    ההקלטה של ההרצאה שלי.

    מי שאין לו סבלנות לראות הרצאה של שלושת רביעי שעה מוזמן לראות את הפוסט שלי באנגלית שמסכם את הכל
    How to suck less in data visualization and professional communication

    2020-11-10
    בלוג
  • שכירים שחושבים להיות עצמאיים? הפרק הזה בשבילכם.
    שכירים שחושבים להיות עצמאיים? הפרק הזה בשבילכם.

    שואלים אותי לאילו פודקאסטים כדאי להאזין. ההמלצה שלי היא לבחור פודקאסט לפי המרואיינים שמתארחים בו. קחו למשל את פודקאסט פופקורן. איך יודעים שהוא פודקאסט טוב? כי הוא אירח אותי לראיון. ולא סתם - בפעם השניה

    https://soundcloud.com/hamutsi/177-boris-gorelik

    כאמור, זאת הפעם השניה בה אני מתארח אצל ליאור. הפעם הקודמת הייתה לפני כשנה

    https://soundcloud.com/hamutsi/142-boris-gorelik

    2020-11-04
    פודקאסט ראיון בלוג
  • סקירה מקיפה של קווים מנחים בעיצוב ממשק שמערב טקסט שנכתב משמאל לימין וטקסט מימין לשמאל

    אני חבר בוועדת מומחים של מכון התקנים הישראלי שמטרתו לעדכן את התקנים שמכתיבים איך שפות כמו עברית וערבית חיים ביחד עם שפות ״לועזיות״

    בינתיים, גלעד אלמוזנינו, ראש הוועדה שיתף אוסף של הנחיות שמתבסס על הנסיון שלו כיועץ לוקליזציה

    https://www.linkedin.com/pulse/ux-best-practices-bi-directional-languages-gilad-almosnino/

    2020-11-02
    בלוג
  • למה כדאי לדבר עם עורך דין.

    עו״ד יגאל רם בדק את חוזה העבודה הראשון שקיבלתי בחיי. היה מדובר בחברה ישראלית, אז באופן טבעי, החוזה היה באנגלית :-) המידע שקיבלתי באותה הפגישה עם יגאל בשנת 2007 הרחוקה ליווה אותי בכל פעם שבה חתמתי על חוזה עבודה חדש.

    אני לא אומר שכל חוזה צריך לקחת לעורך דין, אבל נראה לי שפעם אחת כדאי לעשות זאת, לפחות כדי להבין איך חוזים עובדים, על מה כדאי להתעקש, על מה לא, ומתי חייבים לדבר עם עורך דין

    הקליקו על התמונה למעבר לפוסט המקורי

    https://www.linkedin.com/feed/update/urn:li:activity:6727152836074868736/

    2020-10-28
    בלוג
  • קורס מצולם בהדמיית נתונים

    הקלטתי קורס מבוא בסיסי להדמיית נתונים עבור מערכת השידורים הלאומית. הקורס מיועד לתלמידי תיכון ולא מתבסס על ידע מוקדם כלשהו. הוא יהיה מועיל במיוחד עבור אנשים שלא מתעסקים בניתוח הנתונים בחיי היום־יום המקצועיים שלהם. לצערי, המערכת של משרד החינוך לא תומכת ברשימות playlist. הטבלה הבאה מסדרת את כל הסרטונים בסדר הנכון

    כותרת מספר יחידה
    מבוא 1-1 מבוא
    שלוש טעויות נפוצות. טעות ראשונה 1-2
    שלוש טעויות נפוצות. טעות שניה חלק א 1-3
    שלוש טעויות נפוצות. טעות שניה חלק ב 1-4
    טעות שלוש טעויות נפוצות. שלישית 1-5
    אבני בניין של תרשים. סוגי נתונים 2-1 אבני הבניין
    אבני בניין של תרשים. צירים 2-3
    אבני בניין של תרשים. אלמנטים גרפיים 2-4
    גרפים בסיסיים. מבוא 3-1 גרפים בסיסיים
    גרפים בסיסיים. גרף נקודה וקו 3-2
    גרפים בסיסיים. גרף עמודות 3-3
    גרפים בסיסיים. תרשים עוגה 3-4

    2020-10-26
    הדמיית-נתונים קורס בלוג
  • לפעמים תרשים עוגה מתאים יותר
    לפעמים תרשים עוגה מתאים יותר

    לפעמים תרשים עוגה מתאים יותר מתרשים עמודות

    דעה מאוד פופולרית בין ״מומחים״ להדמיית נותנים שתרשים עוגה הוא תרשים נחות ולא רציני ושאם באמת חשוב לבנות תרשים מובן ומדוייק, יש להשתמש באלטרנטיבות, למשל - תרשים עמודות. אבל זה לא תמיד נכון. נזכרתי בזה היום, כאשר ראיתי את הפוסט של שחר איתן ארדי בו הוא מראה את התוצאות של סקר חדש לפיו ניתן להרכיב קואליציה ציונית-חילונית עם רוב של 63 ח״כים. את התוצאות הציג שחר בעזרת גרף עמודות.

    אז דבר ראשון, אותו הגרף היה הרבה יותר טוב בלי הצבעים (כתבתי על זה בעברית [לינק] ובאנגלית [כאן] ).

    אבל הבעיה הגדולה ביותר שלי עם הגרף הזה היא שהוא לא מראה את הדבר החשוב ביותר - את העובדה שיש קבוצת מפלגות שביחד חוצות את הרף החשוב ביותר של 60 ח״כים.

    ואת זה בדיוק אפשר להשיג בעזרת תרשים עוגה, אם בונים אותו נכון. בעבר עשיתי סדנא בה הדגמתי את הייתרונות של תרשימי עוגות והשתמשתי, תאמינו או לא, בכנסת ישראל לצורך ההדגמה. הנה הגרף ההוא

    הנתונים כאן נכונים לכנסת ה־20, אבל העיקרון נכון לכל כנסת אחרת: הפלחים מייצגים מפלגות ומחולקים לשתי קבוצות: הקואליציה והאופוזיציה. בתוך כל קבוצה הפלחים ממויינים לפי גודל, כדי לעזור בהשוואה בין פלחים דומים בגודלם וצבועים באותו צבע בסיסי כדי שיהיה ברור לאיזו קבוצה משתייכת המפלגה. רף הקסם - אותו הרף הנחשק של 60 ח״כים מסומן בקו מקוקו להמחשה והדגשה. נכון שזה יותר טוב עכשיו?

    מי שרוצה לקבל את קוד הפייתון ליצירת הגרף הזה מוזמן לכאן.

    ואם כבר מדברים על סדנאות, אז מחר ב־21 באוקטובר, בשעה 20:00 אני מקיים וובינר המוקדש להדמיית נתונים. הפרטים כאן.

    2020-10-20
    הדניית-נתונים לפני-ואחרי תרשים-עוגה תרשים-עמודות בלוג
  • מהי ההזדמנות המפוספסת ביותר בהצגה גרפית של נתונים ואיך אפשר להשתפר את האימפקט של המצגת שלכם ב-94% תוך דקה?
    מהי ההזדמנות המפוספסת ביותר בהצגה גרפית של נתונים ואיך אפשר להשתפר את האימפקט של המצגת שלכם ב-94% תוך דקה?

    בתקשורת מקצועית בכלל ובהדמיית נתונים בפרט הדבר החשוב ביותר הוא שהדבר החשוב ביותר יהיה הדבר החשוב ביותר. ישנן דרכים רבות להבטית את העקרון הזה. שיפורים וליטושים של תרשימים, בחירה קפדנית של צבעים, סוגי קו וגודל הנקודה יכולים להבטיח את קיום עקרון זה, אך דורשים ניסיון ומיומנות ולוקחים המון זמן.

    בהרצאה זו אציג דרך נוספת לשיפור כמעט כל תרשים תוך פחות מדקה. איך? באמצעות כותרות. תוכלו לראות איך ועד כמה כותרת התרשים יכולה לשפר יעילות של כל גרף ולשמש כלי עבודה עוצמתי במהלך יצירת ההדמיה.

    מתי: יום רביעי, ה־21 באוקטובר בשעה 20:00

    איפה: בזום, כמובן

    בעלי חשבון פייסבוק יכולים להרשם כאן.

    אפשר להגיע ישירות דרך הקישור לזום.

    (הקישור לזום יהיה פעיל רבע שעה לפנית תחילת הוובינר)

    https://jce-ac-il.zoom.us/j/92147623684

    בואו, יהיה כיף. גם אם אתם לא בתחום הדאטה. בעיקר אם אתם לא

    2020-10-12
    הרצאה וובינר הדמיית-נתונים
  • פותח דף חדש

    על אירגון העבודה שלי אפשר לקרוא כאן.

    2020-10-08
    דחיינות יעילות בלוג
  • חשדות טובות. חרא של גרפים

    אני מתנצל על השפה הבוטה, אני פשוט נסער (טוב, לא באמת, סתם עושה את עצמי).

    יש אתר שנקרה information is beautiful שמוקדש ל־ (איך לא) הדמיית נתונים. הרבה אנשים הולכים לשם כדי לקבל השראה לגרפים טובים ולכן זה מרתיח את דמי (טוב, לא באמת, סתם עושה את עצמי) כשאני רואה גרפים כל כך גרועים. על מה אנחנו מדברים?

    הנה גרף שראיתי בקבוצת הפייסבוק https://www.facebook.com/groups/DataVisualizationIsrael

    (אני לא נותן לינק לגרף המקורי בכוונה, כדי לא לעודד את גוגל לשלוח לשם מבקרים)

    הגרפים אמורים להציג תמונה יפה של כמה החיים שלנו היום טובים יותר מהחיים פעם. מטרה נעלה. אז מה עשו הגאונים? אספו קצת סטטיסטיקות של ״לא מזמן״ ו־״פעם״, בחרו צבעים מגניבים וציירו ציורים מאירי עיניים. כמה נחמד! בואו נתלה את זה על מקרר כדי שכולם יראו!

    מה רע בגרפים האלה?

    מה רע בגרפים האלה? מה לא טוב בהם? שום דבר לא טוב!

    קודם כל, מה משותף בין כל המדדים האלה? שום דבר. ניחוש שלי, שהחברים באתר בחרו מדדים באקראי ומתוכם בחרו כאלה שיראו תמונה טובה יותר. יותר חשוב מזה, שימו לב שהשנים לשוואה משתנים בין גרף לגרף. למה? אני מנחש שמי שיצר את יצירת המופת הזאת התעצל לחפש שנים בהתאמה או, שוב, בחר בפינצטה שנים שיציגו משהו דרמטי.

    ועכשיו בואו נחזור להדמיית נתונים. תראו את הגרף הזה

    איזה גרף יפה! אילו קווים חלקים ונעימים. אלא מה?

    הפעם היחידש שאנחנו משתמשים בקווים האלה היא כאשר אנחנו רוצים להציג חוסר וודאות. במקרים האלה, המדד אותו אנחנו מציגים נמצא על ציר ה־x וציר ה־y מראה את רמת הבטחון שלנו בערך הספציפי. במקרים האלה, המרחק בין ה־״פעמונים״, כמו גם העובי שלהם, וגם השטח שמשוטף לשתי העקומות - כולם בעלי משמעות. הנה דוגמה לשימוש נכון בעקומות מסוג זה. כאן הציר האופקי מראה את הסיכוי של אתר אינטרנט מסויים למכור מוצר, שלוש העקומות השונות מייצגים שלוש גרסאות של אותו האתר, וכך ניתן לקבל החלטה מושכלת איזו גרסה עדיפה ומה הסיכוי שההחלטה תתברר כנכונה

    (מקור התמונה - כאן)

    ובחזרה לגועל הנפש שלנו (באמת, אני לא מגזים). בגרף ה־״חמוד״ הזה, אין למיקום הפעמון, העובי שלו ומידת החפיפה שום משמעות! כל מה מעניין זה הגובה של הצורה. אז למה לא קיבלנו גרף עמודות? באמת שאין לי מושג. הנה, הפכתי את הגרף המקורי לעמודות. עכשיו, כל נהיה בסדר.

    למה זה חשוב?

    כשאני מלמד הדמיית נתונים, אנשים אומרים לי שהערות מסוג זה מעצבנות ושמדובר בטהרנות לשמה. אז ככה, הדמיית נתוים זאת שפה. וכמו בכל שפה, גם בשפה הזאת יש כללי דיקדוק. ואם יש כללים חייבים להקפיד עליהם. לעתים רחוקות, חירות הסופרים מאפשרת הפרת כללים, אבל זה בתנאי שמי שמפר את הכלל מודע אליו, מכיר אותו, עושה זאת במכוון ולכולם ברור שזה נעשה במכוןן. גם בשפה העברית יש כללים. גם בעברית, אם אגיד לכם ״שלוש גרפים עם שני טעויות״ אתם תבינו למה אני מתכוון, אבל מיד תשפטו אותי על העברית העילגת שלי. כמו בשפה המדוברת, גם בשפה הגרפית צריך להקפיד על הכללים. זה חשוב.

    2020-10-07
    בלוג הדמיית-נתונים
  • ביקורת ספר. תבשילים חריפים מהמטבח הטטארי
    ביקורת ספר. תבשילים חריפים מהמטבח הטטארי

    אמ;לק: ספר נחמד. 4.5/5. מומלץ

    תבשילים חריפים מהמטבח הטטארי מאת אלינה ברונסקי הוא ספר נחמד מאוד.

    כל מי שגדל עם אמא או סבתא סובייטית יתחבר מאוד. כל מי שחווה את שלהי תקופת ברית המועצות יתחבר גם כן.

    הדבר היחיד שהציק לי בספר, זאת כמות גדולה מדי של אידישיזמים (ז״א השפעות של השפה היידית) בפי גיבורת הספר הטטארית. לא קראתי את המקור הגרמני של הספר, אבל אני מנחש שהמתרגמת נועה קול חושבת בטעות ש־״רוזלה״ זאת צורה רוסית של השם רוזה למרות ששום דובר רוסי שאינו יהודי בחיים לא היה קורה לאשתו רוזלה׳ אלא רוזצ׳קה. נועה, אם את קוראית את זה, לידיעתך.

    2020-10-01
    ביקורת-ספר בלוג
  • אני רוצה לבקש טובה.

    אני מקליט שיעורים בהדמיית נתונים עבור בתי הספר התיכוניים, כחלק ממערך השידורים הלאומי של משרד החינוך. בשיעורים, אני מבקש מהלומדים להכנס לעמוד הפייסבוק ״לפני ואחרי בהדמיית נתונים״ ולשתף שם דוגמאות של גרפים אותם הם שיפרו בעקבות הדברים הנלמדים בשיעור. השיעורים עולים לאוויר עוד כמה שבועות ולא הייתי רוצה שהתלמידים יראו דף ריק. לכן אשמח אם תוכלו למצוא דוגמה אחת או שתים משלכם ולהעלות אותם לעמוד. אני לא מחפש דברים מורכבים אלא להיפך, שינויים פשוטים כמו הורדת קווי רשת, הזזת המקרא וטיפול טוב בצבע יכולים להיות יותר מועילים ממשהו מאוד fancy.

    וגם: מי שרוצה מוזמן לעקוב אחרי העמוד ולעזור לתת משוב (בונה וברוח טובה) לכל מי שמעלה לשם את הדוגמאות.

    2020-10-01
    בלוג
  • למידה מרחוק

    מקליט שיעור למערכת השידורים הלאומית עבור תוכנית למידה מרחוק לבתי הספר התיכוניים. תרומתי הצנועה למאמץ המלחמתי

    2020-09-30
    בלוג
  • לפעמים, צבע זה דבר טוב. רק לפעמים
    לפעמים, צבע זה דבר טוב. רק לפעמים

    כל מי שמתחיל ללמוד הדמיית נתונים יודע שברוב המקרים שימוש בצבע מיותר. אני כבר כתבתי בבלוג שלי באנגלית בנושא [לינק] ואני, כמובן, לא היחיד.

    אבל לפעמים, צבע שנראה מיותר בהתחלה יכול להיות מועיל, אם רואים תמונה גדולה יותר.

    תסתכלו על הגרף הזה, למשל. כשהוא עומד בפני עצמו, הצבעים של המודות מיותרות לחלוטין - כל צבע מייצג קבוצה נפרדת, אך גם כל שורה. זוהי כפילות מזיקה.

    הגרסה של אותו הגרף בשחור-לבן עובדת הרבה יותר טוב, כי היא מקטינה את כמות ה״רעש״ החזותי שנשפח על הצופה

    אבל, וכאן יש אבל גדול. הגרף הזה מופיע בדשבור (לא מוצלח במיוחד) של משרד הבריאות שמפלח את סיבות המוות בישראל בשנת 2016 [לינק]. והדשבורד הזה מראה פילוח של סיבות המוות לפי מגדרים. את הפילוח הזה מראים לנו בצורה הבאה

    עכשיו, כששני הגרפים עומדים אחד ליד השני, פתאום לצבע יש משמעות! הצבע מקל מאוד על איתור קבוצה מגרף מסויים בתוך גרף אחר, מה שמכניס עניין, דינמיקה ועוזר לעשות השוואות. וכאשר הצבעים האלה שמורים בין כל הגרפים באותו המסמך, הצופה מקבל כלי יעיל לנווט בתוך הנתונים.

    זה מה הייתם רוצים לחשוב, נכון? אז זהו, רוב הבעים בגרפים העליונים מתאימים לרוב הצבעים בגרפים התחתונים. אבל חלק מהצבעים - לא. ואז, במקום כלי יעיל לניווט קיבלנו כלי יעיל לבילבול. עבודה יפה!

    2020-09-07
    הדמיית-נתונים צבעים בלוג
  • עמודות שגיאה. שגיאה גדולה

    עמודות שגיאה (error bars) הם אמצעי מאוד בעייתי בהעברת חוסר וודאות. במיוחד, במיוחד, במיוחד בשילוב עם גרף עמודות. ובמיוחד עם השגיאה כל כך גדולה שהיא לא נכנסת לתוך גרף. הגרף הזה בעייתי בהמון רמות, אבל אפשר היה להוריד רמת בעיתיות אחת אם במקום העמודה היו משתמשים בנקודה פשוטה.

    2020-08-25
    בלוג הדמיית-נתונים
  • לפעמים, קשת מבשרת טובות.
    לפעמים, קשת מבשרת טובות.

    כולנו אוהבים לצקצק בלשון כשאנחנו רואים הדמיה נתונים שמשתמשת במניפת הצבעים ״קשת״. ה־״קשת״, כך אנחנו אומרים, לא אחידה ומעוותת את המציאות. מסתבר שאם שמים את הפוריטניזם בצד, ומכניסים מספר שיפורים לתוך הנוסחאות, למניפת ה־״קשת״ (או בשמה המחודש - Turbo) יש זכות קיום בעולמנו.את עבודת השיפור והשיכנוע עשו במעבדות של גוגל. קראתי את הפוסט המקורי והשתכנעתי. את המחשבות על הפוסט סיכמתי בפוסט משלי (באנגלית).

    2020-08-17
    בלוג
  • גל שני, או לא גל שני, מצבנו לא רע בכלל
    גל שני, או לא גל שני, מצבנו לא רע בכלל

    בעיניי, המדד הטוב ביותר לחומרת המגיפה זה מקרי המוות העודפים. מה זה ולמה זה טוב (או לא טוב)? כידוע, בני אדם היו מתים גם לפני הקורונה. פה ושם אני שומע גיכוחים מהעובדה שכל אדם שנפטר עם הקורונה נספר כאילו נפטר מ־הקורונה. גם אם מדובר באדם בן 98 שסבל מסרטן גרורתי, נדרס במעבר חציה וטבע בים. אבל, למעשה, אין מה לעשות. אם בכל פעם בה הייתי צריך להסביר לאנשים, בתור איש נתונים ואלגוריתמים, ש־״לספור דברים זה קשה״ הייתי מקבל שקל, הייתי יכול לקנות מנה יפה של שווארמה עם צ׳יפס בצד ושתיה.

    אה, איפה היינו. לספור מקרי מוות ממחלה מסויימת זה קשה. לספור מקרי מוות באופן כללי זה יותר קל. ולכן, אם מנהלים את הספירה נכון, ומשתמשים במודלים מתמטיים סבירים, אפשר להעריך כמה אנשים ״אמורים״ ללכת לעולמם בכל שבוע נתון. ואז, אם משווים את צפוי למצוי, אפשר לקבל תמונה מעניינת. הנה הגרף של האתר Financial Times שעשה בדיוק את זה. (בתור מרצה לגרפים אין לי מספיק תשבוחות לגרף הזה). אתם רואים את האזורים האדומים בין הקו האדום לשחור? אלה הם מקרי המוות העודפים - התוצאה ה״אמיתית״ של המגיפה. שישים וחמישה אלף איש בבריטניה, חמישים וארבע אלף בברזיל, וכך הלאה. באמת נורא. אבל פה ושם יש מדינות בלי מקרי מוות עודפים בכלל. בגרף הזה רק שלוש מדינות כאלה: איסלנד, נורווגיה, וישראל. מה שלא יכול שלא לשמח.

    עכשיו, למה זה קורה? האם בגלל ההנהגה הנבונה של ממשלתנו הדגולה? או בגלל ההענות המופתית של הציבור? או בזכות התפילות של בחורי ישיבות בבני ברק, ירושלים ואשדוד? אני לא יודע. מה שאני כן יודע זה. מצבנו לא רע.

    ולפני שאתם ממהרים להחליט שהסגר והמגבלות היו לחינם. לפנינו מקרה קלסי של פרדוקס ההענות. בלי ניסוי מבוקר ולא מוסרי בעליל, אי אפשר לדעת אם העדר מקרי המוות העודפים הוא בזכות המגבלות למרות.

    אז יאללה, תפסיקו להיות חמוצים. יש סיבה לאופטימיות

    2020-08-14
    קורונה בלוג
  • במה עדיף להתמחות כמהנדס תוכנה – פיתוח ווב וענן, סייבר או IoT – במידה ושלושתם מעניינים אותך באותה המידה?
    במה עדיף להתמחות כמהנדס תוכנה – פיתוח ווב וענן, סייבר או IoT – במידה ושלושתם מעניינים אותך באותה המידה?

    עוד תשובה שכתבתי לשאלה בקוורה

    במה עדיף להתמחות כמהנדס תוכנה – פיתוח ווב וענן, סייבר או IoT – במידה ושלושתם מעניינים אותך באותה המידה?

    שאלה מעניינית. אני מניח ששואל השאלה מנסה לנחש איזה מהתחומים האלה יהיה יותר מצליח לאורך זמן. הטענה שלי שאי אפשר לדעת. ולכן, במקום להשקיע מאמץ כדי לזהות מגמות בשוק הנדסת התוכנה, תשקיע את הזמן בדברים חשובים יותר ותנסה להנות כמה שיותר.

    אם כל התחומים האלה מעניינים באותה מידע, לך למקום עם תנאים יותר טובים. אם אתה מחפש יציבות לך לחברה שנראית יותר יציבה, אם אתה מחפש אקשן לך לחברה קטנה ודינמית. מה בדיוק תעשה שם - פחות משנה, העיקר שנתהנה ותרויח כסף.

    למה זה לא משנה? כי אין לך מושג מה השוק יירצה בעוד חמש שנים, וודאי לא עוד עשר שנים. קו אותי לדוגמה. בשנת 2007 סיימתי דוקטורט בכימיה חישובית. באותה שנה רק חברה אחת בארץ עסקה בכימיה חישובית. האם הייתי יכול לנחש שתוך עשר שנים אהיה בעל נסיון בcyber security, machine learning, social network analysis? ממש ממש לא. אפילו לא הכרתי את המונחים האלה. בעוד עשר שנים מהיום תחומים חדשים יקומו, תחומים ישנים יעלמו, תחומים ישנים אחרים שכבר נעלמו יוולדו מחדש בכובע אחר.

    מה כן משנה? תשמור על המקצועיות, תלמד דברים חדשים, תשקיע בכישורי תקשורת (מצגות, דוחות, בלוגים) ותקווה לכך שהעולם לא יחזור לתקופת האבן.

    פה ושם אני כותב על קריירה באנגלית Career advice – Boris Gorelik או בעברית יעוץ קריירה – בוריס גורליק תעבור, אולי תמצא שם עוד עצות רלוונטיות

    2020-07-23
    בלוג יעוץ-קריירה
  • האם יש דברים שהמדע עדיין לא יכול להסביר?
    האם יש דברים שהמדע עדיין לא יכול להסביר?

    תשובה שלי לשאלה שנשאלה בקוורה בעברית

    “המדע״ לא יכול לתת תשובה לשאלה ״למה?״ זאת אומרת, לפעמים כן, אבל לכל תשובה כזאת תהיה שאלת המשך ״למה״. ומתישהו נגיע למבוי סתום. ואז נכנת הדת ומספרת לנו שזה חלק מהתוכנית האלוהית ושאלוהים הוא התשובה ל״למה״. שהוא-הוא הroot cause. את ההסבר האחרון אני לא מקבל ובסוף אני מעדיף לענות ״ככה!״.

    לדוגמה: למה אנשים חולים? בגלל וירוס קורונה. למה הוא גורם למחלה? כי הוא מדביק תאים? למה הוא מדביק תאים? כי זה מה שהוא עושה (הסבר מולקולרי מפורט)? למה זה מה שהוא עושה? כי זה מה שמידע הגנטי שלו מכתיב (הסבר עוד יותר מפורט)? למה זה קורה? זאת ההתפתחות (הסבר אבולוציונלי מפורט)? למה ההתפתחות קרתה כמו שהיא קרתה…?

    ואז כשמגיעים לסוף ולא יודעים מה לענות, באים אחינו הדתיים ואומרים: אה-הא! הקדוש ברוך הוא גרם לזה. ואז אני שואל ״למה״ והתשובה בסוף תגיע בצורת ״כי נסתרות דרכי האל״. ובעיניי זאת דרך ארוכה יותר להגיד ״ככה״. אז בעיניי ה״ככה״ הזה לא מצדיק את האימוץ של האמונה הדתית.

    2020-07-20
    בלוג
  • כנס דאטה מעניין מאוד (אונליין). אני מרצה.

    כל הכנסים בית היוצר של NDR מעולים. מקווה שגם הכנס הזה לא יאכזב. בתור אחד המרצים, מקווה לספק את הסחורה.

    2020-07-16
    public-speaking כנס בלוג
  • Newer posts Older posts