קוד הסדנה זמין להורדה

בלוג, הדמיית נתונים

העברתי היום סדנה מקוונת להדמיית נתונים למתקדים. אני מאוד נהניתי וקיבלתי פידבק חיובי. אם נוכחתם בסדנה, אשמח לשמוע מהם הצעות לשיפור. אם אתם רוצים סדנה דומה, אתם יודעים איך למצוא אותי.

קוד לסדנה זמין בלינק הבא

https://github.com/bgbg/datascience_dataviz_workshop/

לא זאת השאלה

בלוג, הדמיית נתונים

לא זאת השאלה. על גרף קורלציה והאלטרנטיבות

מכירים את זה שמראיין שואל פוליטיקאי שאלה קשה והפוליטיקאי עונה ״לא זאת השאלה״ וממשיך לדקלם מדף מסרים? בתור יועץ ללקוחות חיצוניים או פנימיים, אני מוצא את עצמי לא מעט בסיטואציה בה אני אומר ״לא זאת השאלה״. אבל לא כדי לדקלם את דף מסרים אלא כדי לעזור ללקוח להבין את הבעיה שלו. הנה דוגמה שמצאתי בארכיון שלי שתדגים היטב את הכוונה שלי.

יום אחד קיבלתי רשימה של עסקאות בחנות האינטרנט של חברת אוטומאטיק Automattic בה עבדתי במשך יותר מחמש שנים. החברה מפעילה את אתר wordpress.com במודל פרימיום ובאותם ימים החברה מכרה מספר רב של שירותים בתשלום. מאחר והצעת המכירה מתבצעת לפני שהלקוח נרשם לשירות, קשה להתאים את ההצעות ללקוח. במילים אחרות: אין פרסונליזציה. אני חשבתי לגשת לבעיה מזווית קצת אחרת והעליתי השארה שלקוחות שנכנסים לחנות באמצע שבוע יהיו שונים מהלקוחות של סוף השבוע כי אלה נכנסים בענייני עבודה ואלה נכנסים בענייני תחביבים. אם זה נכון, אפשר להתאים את החנות לשני סוגי האוכלוסיה ולשפר את הביצועים.

מיד נשאלה השאלה ״האם יש קורלציה בין פילוח המוצרים שנקנים בסוף השבוע לעומת אמצע השבוע. הקורלציה הזאת אכן התקיימה

לא רק שהיא התקיימה, היא הייתה כמעט מושלמת. אבל לא זאת השאלה. בורור שיש קורלציה. זהו הטבע של המוצרים האלה: כמות האנשים שרוצים שם דומיין שעולה בסביבות 10 דולר יותר גדולה מכמות האנשים שרוצים מנוי עסקי שעולה כמה מאות דולרים. גם באמצע השבוע וגם בסוף. השאלה היא מה ההבדל.

מה כן השאלה?מה הפתרון? עוד רגע נגלה, בוא נראה עוד דוגמא.

נניח שאתם צריכים להחליט אם בית חולים מסויים יכול להחליף מד שיא נשיפה (מכשיר המעריך את תפקוד הראיות) גדול בדגם קטן יותר. מה עושים? אפשר למדוד את את שיא הנשיפה בשני המכשירים ולבנות גרף קורלציה.

יש קורלציה. יופי? לא, לא יופי. אתם זוכרים את המושג השארת האפס? השארת האפס היא ההשארה הכי תמימה לגבי התצפיות אבל שלא מגיע לתחום הטמטום. גרף קורלציה עוזר לנו לבחון את השארת האפס שאין קשר בין שני מדדים. אבל זאל לא השארת אפס קבילה. ברור שיש כאן קשר בין המדדים. לא היינו צריכים לעשות את המדידות כדי לדעת שיש קשר! ככה בנו את המכשירים! גם בדוגמה של הקניות בחנות האינטרנט השארת האפס של ״לא קיים קשר״ לא השארה קבילה.

בעיה נוספת עם גרף הקורלציה היא שהוא מניח הנחה נסתרת כאילו המדד בציר ה־X הוא הגורם המשפיע או המדדת ה״אמיתי״ ואילו המדד בציר ה־Y המושפע, או ה״טוען לכתר״. כאן זה לגמרי לא נכון. בשתי הדוגמאות, אין מדד ״אמיתי״ ו־״לא אמיתי״ ואין מדד אחד ש־״משפיה״ ואחד ״מושפע״. אז מה יש לנו?

מה השאלה?

השאלה האמיתית היא מה מידת ההסכמה בין שני המספרים או מידת ההבדל בינהם. לכן נציג את ההבדל בין שני המדדים. אבל הבדל כפונקציה של מה? איזה מדד נצייר על ציר ה־X? האם הבדל המכירות הוא פונקציה של המכירות באמצע השבוע או בסוף השבוע? האם ההבדל במדידות שי הנשיפה הוא פונקציה של המדד הזה הנמדד במכשיר הגדול או במכשיר הקטן? אם נבחר מדד אחד נייחס לו חשיבות רבה יותר. אז הפתרון הוא פשרה מפאיניקית: נקח את הממוצע. זה בדיוק מה שהציעו רבותינו Altman ו־Bland במאמרם שהתפרסם בשנת 1986 "Statistical methods for assessing agreement between two methods of clinical measurement". המאמר היה כל כך חשוב שהוא התפרסם שוב, כמעט בלי שינויים ב־1999 תחת השם "Measuring agreement in method comparison studies". הכותרת מבטאית את הרעיון: במקום לצייר קורלציה, אנחנו מציירים ומנתחים את מידת ההסכמה בין שני מדדים. על מנת לבצע את המשימה הזאת, אנחנו מציירים את ממוצע המדידות בציר ה־X ואת ההבדל בציר ה־Y.

הנה התוצאה של אלטמן ובלנד

תראו איזה עושר של נתונים יש לנו כאן: הנקודות, ההבדל, מדדי סיכום. אפשר גם להעריך האם קיימת מגמה כלשהיא בחוסר ההכמה. תענוג.

נעבור לדוגמה שלי. מאחר מידת הפופולריות של הרבה דברים ותופעות מתפלגת התפלגות אקספוננציאלית, עברתי לסקלה לוגריתמית. אחרי הטרנספורמציה הזאת הנה התוצאה של הנתונים שלי:

(יצרתי את הגרף הזה לפני שש שנים, הוא מלא בשגיאות כמו טקסט מסובב, רקעים, וכד׳. אל תשפטו אותי קשה.)

אפשר לראות יפה מאוד שבמקרה של החנות האינטרנטית יש מוצרים עם העדפה מסויימת לסופי שבוע ומוצרים עם העדפה מסויימת לאמצע השבוע. לא זו אף זו, אם מוסיפים תוויות למוצרים השונים אפשר לראות הגיון בריא שמחזק את הטענה שלנו: לקוחות אמצ״ש שונים מלקוחות סופ״ש

אז מה היה לנו כאן?

גרף קורלציה בודק השארה תמימה של העדר קשר. תמימה, לא מטומטמת. אם קיום הקשר ברור מאילו, אם שני המדדים אמורים למדוד את אותו הערך, אם מדד אחד לא משפיע על השני, אזי עדיף לאמוד את מידת ההסכמה בין המדדים, לא את מידת הקשר.

אני ממליץ מאוד לקרוא את המאמר השני של אלטמן ובלנד. המאמר זמין כאן

סדנה בהדמיית נתונים

בלוג, הדמיית נתונים

אני מעביר סדנה בהדמיית נתונים. בואו בהמוניכם. נעשה כמה זוגות של ״לפני ואחרי״. אם אתם רוצים, צרפו כאן את הגרף שלכם במצבו ה־״לפני״ , יחד עם הנתונים שלו, ואולי נעשה ממנו ״אחרי״

לפרטים והרשמה הקליקו על התמונה למטה

הדבר החשוב ביותר במפגשי עבודה מרוחקים (סקייפ/זום וכד׳)

בלוג

יצא לי לדבר עם שלושה מנהלים שעברו בזמן האחרון לעבודה מבוזרת (יעני ״עבודה מהבית״) עקב המצב. שלושתם סיפרו לי בנימה קלה של הפתעה שישיבות העבודה הפכו יעילות יותר. הנה מה שאחד מהם אמר לי אתמול: ״אני מכין אג׳נדה מראש, באים, טאק, טאק, טאק, גומרים הכול וחוזרים לעבודה״. זה מעולה. עבודה מבוזרת באמת מאפשרת יעילות טובה יותר אם היא נעשית טוב. אז איפה הבעיה? 

הבעיה היא שאנחנו יצורים חברתיים. אנחנו צריכים יחס אנושי והריחוק הפיזי מקטין אותו מאוד. לכן, מאוד חשוב לטפח את היחס האישי במיוחד בעבודה מבוזרת כי בעבודה מבוזרת לא נפגשים ליד הקולר, לא יוצאים להפסקת סיגריה ביחד ואוכלים ארוחות צהריים לבד. לכן, אל תתחילו את הישיבות מיד. תשקיעו בסמול טוק, זה חשוב, זה מעלה את רמת הסרוטונין בשני צדי הקו. וגם: אם רוחב הפס מאפשר את זה, תשתדלו לנהל חלק מהשיחה בווידאו, מקמו את תמונת בן השיח שלכם מתחת למצלמה כדי שזה ייראה כאילו אתם מסתכלים לו או לה בעייניים. ואשכרה תסתכלו, אל תכתבו מיילים, אל תגלשו בפייסבוק, אל תקראו את הבלוג שלי. אתם ממילא אונליין כל הזמן – עוד תספיקו.

אני עובד בסביבה מבוזרת קרוב לשש שנים. אם אתם רוצים עזרה במעבר הארגון שלכם לעבודה מבוזרת, אשמח ליעץ

שה! אני עובד

תעצרו את השיגעון!

בלוג

תגובת רוב העולם למגפה הזאת היסטרית ומזיקה. היה תדחה את התמותה של כמה אנשים ותהרוס מדינות שלמות. אומרים לנו שזה נעשה כדי שבתי החולים לא יקרסו. ומי יפעיל את בתי החולים כאשר תקרוס הכלכלה? מה יקרה לפשיעה אחרי חודשים של חוסר תפקוד של הרשויות? היום אתם פוחדים לצאת לרחוב בגלל הוירוס, חכו לכנופיות רחוב שיסתובבו ולאף אחד לא יהיה משאבים לטפל בהם.

וכל זה למה? כי עשו ניתוח מעמיק של המצב? עשו השואה קפדנית בין הוירוס הזה למחוללי מחלה אחרים? ממש ממש ממש לא! לא עשו ניתוח מעמיק כי אי אפשר לעשות ניתוח מעמיק. כל הנתונים שיש לנו ״עקומים״ ומוטים. אף אחד לא יודע מה קצב התמותה לא של הווירוס הזה, אבל גם לא של וירוסים אחרים, דוגמת שפעת. למה לא יודעים? כי כדי לדעת צריך לעשות סקרי רוחב וסקרים כאלה לא נעשו ולא נעשים.

ומה עושים? מכניסים את כולם בסגר, משליטים מעקב אחרי כל האזרחים ומתחפרים. ומסבירים לנו כמה זה חשוב. אבל דבר אחד לא מסבירים: איך מחליטים שמספיק. מתי המערכת תחליט שהאמצעים האלה עבדו או לא עבדו? הרי חיסון לא יהיה לנו בקרוב, גם לא תרופה (צריך חודשים ושנים בשביל לפתח אותם). אז עד מתי נשב בבתים? לא אומרים.

במקום זה מראים כל מיני עקומות יפות וסימולציות מגניבות. רק מה הבעיה? כל המודלים האלו מניחים שאורך חיי האוכלוסיה (ז״א החברה האנושית, המדינה) אינסופית. אבל החברה האנושית זה לא סימולציית מחשב. אי אפשר לשים אותנו על ״פוס״. כי בזמן שמשטיחים את העקומה ועוצרים נקודות, כל המערכת מתפרקת. מה יעזור לנו שבתי החולים לא ייקרסו בלל קורונה אם הם ייקרסו בעוד חודשים בגלל חוסר משאבים? מה יעזור לנו לבודד בני אדם אם בחלוף הזמן חלקם יגיע לעוני מיאש?

בבקשה תראו את המאמר הזה של פרופ׳ יואנידיס IOANNIDIS . פרופ׳ יואנידיס רופא אפידמיולוג וגם סטטיסטיקאי. בבקשה בבקשה תקראו

הברבור השחור הבא

בלוג

ברור לכולנו שהמצב הקיים הוא ברבור שחור קלאסי – אירוע חריג שלא נראה כמוהו מעולם. כל העולם הולך להכוות מהארוע הזה ולהפיק לקחים. הבעיה היא שהלחק שיופק יהיה, ככל הנראה, הלקח הלא נכון. כי הברבור השחור הבא לא יבוא בדמות של עוד ווירוס או חיידק. כי אם זה יקרה, זה כבר לא יהיה ברבור שחור. הברבור השחור הבא יכול להיות עוד יותר גרוע מהנוכחי. תחשבו על מגה-צונאמי, כזה שפוגע בלונדון או ניו-יורק, אסטרואיד, התפרצות סולארית שתוציא את כל מערכות התקשורת בעולם מתפקוד.

אז בפעם הבאה שמישהו אומר לכם שיותר גרוע כבר לא יהיה, אל תהיו פסימיסטים ותגידו ״וודאי שיהיה״.

מחפש מידע ועצות

בלוג

הייתם עדים לנסיון לא מוצלח להכניס דאטה לחברה? הייתם אש/ת הדאטה היחיד/ה באירגון? בתור פרילנסר ויועץ אני רוצה ללמוד מטעויות והצלחות של אחרים. אשמח לשיחת טלפון, ווידאו או פנים מול פנים. אפשר גם לחתום על NDA.  צרו אתי קשר או הפנו אליי מישהו שיכול להיות רלוונטי.

boris@gorelik.net

תכתבו הערה כלשהי לפוסט הזה

בלוג

בבקשה, תכתבו הערה כלשהי לפוסט הזה. לא משנה מה: תגידו ״שלום״, תשאירו לינק מעניין, ספרו על עצמכם קצת, אפילו סמיילי קטן מספיק. כל מה שאני רוצה לדעת זה כמה אנשים ״חיים״ קוראים את הבלוג שלי.

גם לא משנה מתי אתם רואים את הפוסט הזה. אם אתם רואים אותו, תשאירו הערה.

תודה

Photo by Pixabay on Pexels.com