• האם Data Science הוא המהפכה הטכנולוגית של המאה ה-21?

    התשובה שלי לשאלה המעניינת הזאת

    לינק לתשובה המקורית

    כן ולא.

    נתחיל מה־״לא״. לא כי המונח data science (חקר נתונים בעברית) קצת ריק מתוכן. בדיוק כמו שהמונח ״תעשיה״ מחביא בתוכו תכומי מדע שונים החל מפיזיקה, תרמודינמיקה, כימיה ועוד, המונח ״חקר נתונים״ גם משמש מטריה שמכסה המון תחומי דעת (כתבתי על זה בבלוג שלי).

    כן - כי הפירות של כל תחומי הדעת האלה כל כך משני חיים שאין לי ספק ש־״חקר נתונים״ של המאה ה־21 זאת ה־״תעשייה״ של המאה ה־19.

    עובדה מעיינת. כימיה כתחום מדע עמצאי התפתח מאוד מאוחר, עמוק בתוך המהפכה התעשייתית, הרבה אחרי גיאולוגיה ואסטרונומיה, למשל.

    2020-05-26
    בלוג יעוץ-קריירה
  • תתמיד ותצליח - איזה בולשיט
    תתמיד ותצליח - איזה בולשיט

    כולנו שמענו את הסיפורים על ההיא שהגישה את הספר לפירסום מלנת אלפים פעם עד שהתפרסמה, על ההוא שמילצר עד גיל 45 עד שנהיה כוכב על. גם אם הסיפורים האלה נכונים, מאוחיהם מסתתר לא מעט בולשיט. את היתר תצטרכו לקרוא באנגלית.

    Calling bullshit on “persistence leads to success” — Boris Gorelik

    Did you know that J.K. Rowling, the author of Harry Potter, submitted her books 13 times before it was accepted? So what?

    Calling bullshit on “persistence leads to success” — Boris Gorelik

    2020-05-14
    בולשיט קריירה בלוג יעוץ-קריירה
  • סתם כי זה מצחיק

    2020 Google Trends — xkcd.com

    2020-05-11
    בלוג
  • להפוך לחוקר נתונים אחרי גילי 40
    להפוך לחוקר נתונים אחרי גילי 40

    מדי פעם אני כותב על ענייני קריירה בתחום ה־data science. עד עכשיו כתבתי בעיקר באנגלית (לינק) אבל גם קצת בעברית (לינק). מדי פעם אנשים שקוראים את הבלוג שלי שואלים אותי שאלות ואני תמיד שמח לענות. לפני כשבוע קיבלתי מייל בעברית

    שלום בוריס.

    אתחיל כמו רוב הפונים אליך ולא אהיה בכך מקורי.

    שמי XXXX, אני כבר בן 40 , בעל תואר ראשון באדריכלות. מסיים זה עתה את התואר השני שלי בתחום אחר (לא מחשבים אבל בחלט נושק). במסגרת התואר השני נגענו בפרט בקורסים הבאים

    -סטטיסטיקה מתקדמת עם הבטים מרחביים

    -פיתון

    -מאטלאב ואיבוד תמונה

    -עשינו גם קורס כללי בו למדנו מנגנוני לימוד מכונה (כחלק מעיבוד תמונה) כולל צמצום מימדים כגון PCA, קלסיפיקציות שונות כולל SVM, ולמידה עמוקה כולל CNN

    נשמע מאוד רלוונטי

    אציין שמנגננים אלה הופעלו לא מתוך ממשק תכנה, אלא מתוך קוד בד”כ במאטלאב או פיתון (כלומר להערכתי היינו מעט יותר “ממשתמשי קצה” שלוחצים על מקשים)

    עוד יותר טוב

    שורה תחתונה, התאהבתי בתחום למידת מכונה, וניתוח נתונים. היות ואני לא מאמין בקורסים באינטרנט, אם אני הולך על זה - אעשה תואר שני נוסף (כרוך בשנת השלמות, אבל אני נחוש).

    אני מניח שקראת את הבלוג שלי ואתה יודע שאני בדעה שהידע המצקועי (שלא קשור לדאטה סיינס) מאוד חשוב בתחום. שם אתה מביא את הערך המוסף שלך, במיוחד בשלבים בהם אתה פחות מנוסה בתור דאטה סיינטסט.

    שאלותי כדלקמן:

    בהתחשב שתחת מיטריית הדאטא-סיינס כנראה ארצה להתמקד בתחום של עיבוד תמונה, ועיבוד אותות

    1- האם מבנה חשיבה כמו שיש לי - אופי יותר אנליטי ומעמיק, ופחות תקתקני-ביצועיסטי מתאים לתחום הדאטאסיינס?

    באופן עקרוני - כן. אם אתה יודע שאתה לא מצליח לעמוד בלוחות זמנים ולהתרכז - טוב תעשה עם תעבוד עם מנהל טוב שיתן לך ״שירותי ניהול״ - ז״א ישים עין על התמונה הכוללת ולא ייתן לך לסטות יותר מדי. גם אני נוטה לפעמים להתעמק בתוך איזה נושא מסויים, עד שמזכירים לי שהוא לא באמת חשוב ושיש לוחות זמנים. עד היום, הרוב המוחלט של המנהלים שלי היו מעולים ועשו את זה ממש טוב.

    2- אם אלך על זה, סביר שאצא לשוק ללא ניסיון בגיל 43-44. עד כמה לדעתך הגיל ישליך לרעה (או לטובה) על יכלתי למצוא עבודה ועל שכר.

    אתה לא באמת בלי ניסיון. עבדת עד עכשיו, לא?

    יש שני סוגים של אנשים בלי נסיון: ״ילדים״ אחרי האוניברסיטה שלא יודעים מימינם ומשמאלם. לא יודעים איך להתנהל בחברה, לאזן בין פוליטיקה משרדית, רצון לעשות עבודה, להתפתח וכד׳ ושחושבים שהם יודעים הרבה.

    לסוג השני של אנשים בלי ניסיון אין אולי נסיון בתחום הספציפי אליו הם נכנסים אבל יש נסיון חיים, יודעים מה זה פרוייקט, מתי להגיד ״כן״ למנהל הפרוייקט ומתי להגיד ״לא״. הם מביאים אתם את כל הטעויות שהם עשו עד עכשיו ולא יעשו יותר.

    וגם יש את הבגרות של המוח. לאנשים צעירים יותר יש יכולת למידה גדולה מאוד ואילו לאנשים מבוגרים יותר יש יכולת של ניתוח רחב יותר (משהו שקשור לפלסטיות ואלסטיות של המוח). התקופה בה אדם בן שלושים היה נחשב לזקן עברה. המון מפתחי תוכנה, חוקרי נתונים, ואנשים בתחום עברו את הגיל 50. גם מנהלים צעירים כבר פחות נרתעים מלעבוד עם זקנים.

    לגבי השכר: זה עניין טריקי. אין לי מושג

    3-לגבי עתיד המקצוע בכלל. קראתי דעתך מ2017, ו2019. בתיקון הפרוגנוזה שלך למצב כפי שהוא היום, שאלתי היא כזו:

    האם אתה צופה ירידה במשכורות בתחום הדאטאסיינס גם כחלק מדינמיקה כללית בנישה, ובפרט לאור כניסה מסיבית של מכללות וקורסים לתחום.

    כן. וגם לאור העובדה ששוק העבודה נפתח יותר לעבודה מרחוק בעקבות הקורונה. היום יותר קל (מבחינה מנטלית) להעסיק מישהו שגר בהודו, רומניה, או רוסיה ולשלם לו פחות מחצי ממה שמשלמים כאן. לך לאתר upwork.com תעשה חיפוש של data science ותראה את העושר של נסיון ואת מגוון המחירים.

    מצד שני, זה גם מרחיב את תחום העבודה הפוטנציאלי שלך וגם מדגיש את הייתרונות בידע נישתי כמו אדריכלות.

    אם כן, האם סביר שזה ירד עד כדי ככה שעלול במקרה שלי לרוקן מכל משמעות השקעה רב שנתית שאני מתכנן (בקיצור האם לא צפוי מצב שמצמרת המשכורות בהייטק התחום יצנח לתחתית ואף פחות).

    אין לי מושג :-( אני מקווה שלא. אבל תמיד תוכל לחזור לתכנן ווילות לאנשים, לא :-)

    *כשאני נכנס לעניין, אני תמיד בודק את הסצנריו ההכי חיובי ואת ההכי שלילי. הסצנריו החיובי במקרה הזה נוצץ מבעד לכל פינה ולא חסר סיבות להתרשם ולהיות בהשליות. עכשיו הגיע התור של השלישי, או האובייקטיבי אם תרצה, לכן פניתי אליך כי התרשמתי שאתה אדם שקול וענייני. ככה שתרגיש חופשי לרוקן לי רוח מהמפרסים. עדיף לעשות זאת עכשיו מה שנקרא “על הגדה”.

    התסריט החיובי לא מובטח. בין התסריט החיובי (הריאלי, לא הנוצץ) לבין השלילי (הריאלי, לא האסון), הייתי מהמר היום בערך 70% לטובת החיובי. אם תדע לתמחר את ההצלחה והכשלון (כשלונות ״עולים״ יותר, בד״כ) תקבל שני מספרים שיבלבלו אותך עוד יותר בקבלת ההחלטות :-)

    2020-05-10
    קריירה שאלה בלוג יעוץ-קריירה
  • חבית של דבש עם כפית של חרא?
    חבית של דבש עם כפית של חרא?

    תארו לעצמכם שהייתם רואים ספר דקדוק עברי עם הכותרת ״חמש חוקי הדקדוק״. האם הייתם טורחים לקרוא את הספר הזה? אני מקווה שלא. זה, פחות או יותר מה שעשתה חברת IBM כשהיא פרסמה את

    המדריך שלה להדמיית נתונים (אני בכוונה לא שם לינק, כדי לא להעלות את ה־rank של העמוד הזה).

    שימו לב איך נראה הגרף שמופיע על עמוד הבית של המדריך

    כדי להבין מה הבעיה, צריך לשאול את השאלה איך תרשימי עוגה מעבירים מידע? איך בני אדם משווים בין המספרים השונים שמיוצגים על ידי הפלחים השונים של העוגה? האם זו הזווית? השטח? אולי היקף הקשת? התשובה, ככל הנראה: גם, וגם, וגם (מוזמנים לקרוא את העבודות של רוברט קוסרה כאן). עכשיו, בתרשים עוגה תקני, שלושת הגדלים האלה קשורים קשר לינארי ולכן הם תורמים להבנה נכונה של המספרים אותם הם מייצגים.

    מה קורה כאן? כאן, החברים שלנו ב־IBM החליטו לתת לכל פלח רדיוס משלו. ככה יותר חמוד! רק מה הבעיה? עכשיו כל הקשרים בין הגדלים משתבשים. לא התעצלתי ומדדתי את הזוית של הפלח הסגול והשחור בתרשים של IBM, מדדתי גם את הרדיוס וחישבתי את השטח ואת היקף הקשת. ומה קיבלנו?

    זוויות הפלחים הן 182 ו־75 מעלות, בהתאמה, יחס של 2.42:1. הרדיוס של המקטעים הם 135 ו־110פיקסלים. עם קצת מתמטיקה, אחנו מקבלים שאורך הקשתות של שני הפלחים הם 426 ו־144פיקסלים, יחס של 2.96:1. ומה עם השטחים: כאן, בגלל התלות הריבועית היחס עוד יותר גדול: 28,930 פיקסלים, לעומת 7,915 שנותנים יחס של 3.66:1.

    אז נכון, הצבעים יפים, אבל אילו יחסים הגרף הזה מייצג?

    חברת IBM אולי עושה מחשבים טובים, אבל אל תלמדו מהם איך עושים הדמיית נתונים!

    2020-05-04
    ibm אל-תעשו-ככה טעויות בלוג הדמיית-נתונים
  • כל מה שטוב בהדמיית נתונים
    כל מה שטוב בהדמיית נתונים

    מצאתי שני גרפים כל כך טובים שפשוט לא יכולתי להשאר אדיש. הכל בגרפים האלה עשוי טוב. שימוש בצבעים; עיצוב המקרא והתוויות; הפרטים על הצירים, במחיוחד הכמות הקטנה שלהם והעדר פרטים מיותרים. הטקסט שמלווה את הגרפים מכיל מאוד מילים, אבל לא צריך לקרוא אותם כדי להבין מה הכותבים רצו להעביר.
    לראות וללמוד

    The quintessence of data visualization usefulness. These graphs are SOOOO good and convincing.

    The quintessence of data visualization usefulness — Boris Gorelik

    2020-04-27
    בלוג הדמיית-נתונים
  • דיבור בציבור ותקשורת במפגשי אונליין
    דיבור בציבור ותקשורת במפגשי אונליין

    במשך שנים אנחנו לומדים שבמקרים רבים אין כמו שיחה ״פנים מול פנים״ תקשורת מרחוק מקשה על המון אנשים ומאלצת אותם ללמוד קישורים חדשים ומהר.

    אחרי שש שנים של עבודה בצוות בינלאומי מבוזר, העברת הרצאות, מצגות ושיעורים אונליין, אני רוצה להעביר חלק מהידע שצברתי לאחרים. מעוניינים בוובינר חינם בנושא ״דיבור בציבור ותקשורת במפגשי אונליין״? אם כן, לכו ללינק הבא ובחרו מתי אתם רוצים ויכולים לקחת חלק בוובינר. אם יימצא סלוט עם 10 מעוניינים לפחות, הסדנא תצא לדרך. מכירים אנשים שכדאי שיקחו חלק בוובינר? שלחו את הלינק להם. קדימה, לבחור זמן

    https://doodle.com/poll/b55uv3g9up3fe4c4#calendar

    (אל תסמנו סתם. על ידי סימון אתם מבטיחים לעשות מאמץ להגיע.)

    2020-04-22
    דיבור-בציבור הרצאה וובינר סדנה בלוג
  • דרך מעניינית להלחם בדחיינות בעבודה מהבית
    דרך מעניינית להלחם בדחיינות בעבודה מהבית

    מכירים את זה שלא בא לכם לעבוד אבל לא נעים שהאנשים במשרד יראו אתכם משחקים, אז אתם עובדים? קורה. מכירים את זה שאם עובדים מהבית אז אין מי יסתכל עליכם במבט שופט ויותר קל להתבטל? גם קורה. אז הנה פתרון מאוד נחמד

    לאתר קוראים focusmate. מה שקורה זה שאתם נכנסים לאתר, קובעים ״פגישה״ אם אדם אקראי וכמגיע הזמן אתם עולים מול אותו האדם בצ׳אט וידאו. לשני הצדדים יש בדיוק חמש דקות להגיד מי אתם, מה אתם עושים ומה אתם רוצים להשלים בחמישים דקות הבאות. אחרי זה עושים מיוט למיקרופון ועובדים כרגיל. חמש דקות אחרי זה אתם מדליקים את המיקרופון ומספרים לצד השני אם הצלחתם לעמוד במשימה או לא.

    נשמע מפגר. אבל בכל פעם שעשיתי את התרגיל הזה הוא עבד פלאים. ממליץ לנסות

    2020-04-11
    דחיינות פרודוקטיביות בלוג
  • קוד הסדנה זמין להורדה
    קוד הסדנה זמין להורדה

    העברתי היום סדנה מקוונת להדמיית נתונים למתקדים. אני מאוד נהניתי וקיבלתי פידבק חיובי. אם נוכחתם בסדנה, אשמח לשמוע מהם הצעות לשיפור. אם אתם רוצים סדנה דומה, אתם יודעים איך למצוא אותי.

    קוד לסדנה זמין בלינק הבא

    https://github.com/bgbg/datascience_dataviz_workshop/

    2020-04-05
    סדנה בלוג הדמיית-נתונים
  • לא זאת השאלה
    לא זאת השאלה

    לא זאת השאלה. על גרף קורלציה והאלטרנטיבות

    מכירים את זה שמראיין שואל פוליטיקאי שאלה קשה והפוליטיקאי עונה ״לא זאת השאלה״ וממשיך לדקלם מדף מסרים? בתור יועץ ללקוחות חיצוניים או פנימיים, אני מוצא את עצמי לא מעט בסיטואציה בה אני אומר ״לא זאת השאלה״. אבל לא כדי לדקלם את דף מסרים אלא כדי לעזור ללקוח להבין את הבעיה שלו. הנה דוגמה שמצאתי בארכיון שלי שתדגים היטב את הכוונה שלי.

    יום אחד קיבלתי רשימה של עסקאות בחנות האינטרנט של חברת אוטומאטיק Automattic בה עבדתי במשך יותר מחמש שנים. החברה מפעילה את אתר wordpress.com במודל פרימיום ובאותם ימים החברה מכרה מספר רב של שירותים בתשלום. מאחר והצעת המכירה מתבצעת לפני שהלקוח נרשם לשירות, קשה להתאים את ההצעות ללקוח. במילים אחרות: אין פרסונליזציה. אני חשבתי לגשת לבעיה מזווית קצת אחרת והעליתי השארה שלקוחות שנכנסים לחנות באמצע שבוע יהיו שונים מהלקוחות של סוף השבוע כי אלה נכנסים בענייני עבודה ואלה נכנסים בענייני תחביבים. אם זה נכון, אפשר להתאים את החנות לשני סוגי האוכלוסיה ולשפר את הביצועים.

    מיד נשאלה השאלה ״האם יש קורלציה בין פילוח המוצרים שנקנים בסוף השבוע לעומת אמצע השבוע. הקורלציה הזאת אכן התקיימה

    לא רק שהיא התקיימה, היא הייתה כמעט מושלמת. אבל לא זאת השאלה. בורור שיש קורלציה. זהו הטבע של המוצרים האלה: כמות האנשים שרוצים שם דומיין שעולה בסביבות 10 דולר יותר גדולה מכמות האנשים שרוצים מנוי עסקי שעולה כמה מאות דולרים. גם באמצע השבוע וגם בסוף. השאלה היא מה ההבדל.

    מה כן השאלה?מה הפתרון? עוד רגע נגלה, בוא נראה עוד דוגמא.

    נניח שאתם צריכים להחליט אם בית חולים מסויים יכול להחליף מד שיא נשיפה (מכשיר המעריך את תפקוד הראיות) גדול בדגם קטן יותר. מה עושים? אפשר למדוד את את שיא הנשיפה בשני המכשירים ולבנות גרף קורלציה.

    יש קורלציה. יופי? לא, לא יופי. אתם זוכרים את המושג השארת האפס? השארת האפס היא ההשארה הכי תמימה לגבי התצפיות אבל שלא מגיע לתחום הטמטום. גרף קורלציה עוזר לנו לבחון את השארת האפס שאין קשר בין שני מדדים. אבל זאל לא השארת אפס קבילה. ברור שיש כאן קשר בין המדדים. לא היינו צריכים לעשות את המדידות כדי לדעת שיש קשר! ככה בנו את המכשירים! גם בדוגמה של הקניות בחנות האינטרנט השארת האפס של ״לא קיים קשר״ לא השארה קבילה.

    בעיה נוספת עם גרף הקורלציה היא שהוא מניח הנחה נסתרת כאילו המדד בציר ה־X הוא הגורם המשפיע או המדדת ה״אמיתי״ ואילו המדד בציר ה־Y המושפע, או ה״טוען לכתר״. כאן זה לגמרי לא נכון. בשתי הדוגמאות, אין מדד ״אמיתי״ ו־״לא אמיתי״ ואין מדד אחד ש־״משפיה״ ואחד ״מושפע״. אז מה יש לנו?

    מה השאלה?

    השאלה האמיתית היא מה מידת ההסכמה בין שני המספרים או מידת ההבדל בינהם. לכן נציג את ההבדל בין שני המדדים. אבל הבדל כפונקציה של מה? איזה מדד נצייר על ציר ה־X? האם הבדל המכירות הוא פונקציה של המכירות באמצע השבוע או בסוף השבוע? האם ההבדל במדידות שי הנשיפה הוא פונקציה של המדד הזה הנמדד במכשיר הגדול או במכשיר הקטן? אם נבחר מדד אחד נייחס לו חשיבות רבה יותר. אז הפתרון הוא פשרה מפאיניקית: נקח את הממוצע. זה בדיוק מה שהציעו רבותינו Altman ו־Bland במאמרם שהתפרסם בשנת 1986 “Statistical methods for assessing agreement between two methods of clinical measurement”. המאמר היה כל כך חשוב שהוא התפרסם שוב, כמעט בלי שינויים ב־1999 תחת השם “Measuring agreement in method comparison studies”. הכותרת מבטאית את הרעיון: במקום לצייר קורלציה, אנחנו מציירים ומנתחים את מידת ההסכמה בין שני מדדים. על מנת לבצע את המשימה הזאת, אנחנו מציירים את ממוצע המדידות בציר ה־X ואת ההבדל בציר ה־Y.

    הנה התוצאה של אלטמן ובלנד

    תראו איזה עושר של נתונים יש לנו כאן: הנקודות, ההבדל, מדדי סיכום. אפשר גם להעריך האם קיימת מגמה כלשהיא בחוסר ההכמה. תענוג.

    נעבור לדוגמה שלי. מאחר מידת הפופולריות של הרבה דברים ותופעות מתפלגת התפלגות אקספוננציאלית, עברתי לסקלה לוגריתמית. אחרי הטרנספורמציה הזאת הנה התוצאה של הנתונים שלי:

    (יצרתי את הגרף הזה לפני שש שנים, הוא מלא בשגיאות כמו טקסט מסובב, רקעים, וכד׳. אל תשפטו אותי קשה.)

    אפשר לראות יפה מאוד שבמקרה של החנות האינטרנטית יש מוצרים עם העדפה מסויימת לסופי שבוע ומוצרים עם העדפה מסויימת לאמצע השבוע. לא זו אף זו, אם מוסיפים תוויות למוצרים השונים אפשר לראות הגיון בריא שמחזק את הטענה שלנו: לקוחות אמצ״ש שונים מלקוחות סופ״ש

    אז מה היה לנו כאן?

    גרף קורלציה בודק השארה תמימה של העדר קשר. תמימה, לא מטומטמת. אם קיום הקשר ברור מאילו, אם שני המדדים אמורים למדוד את אותו הערך, אם מדד אחד לא משפיע על השני, אזי עדיף לאמוד את מידת ההסכמה בין המדדים, לא את מידת הקשר.

    אני ממליץ מאוד לקרוא את המאמר השני של אלטמן ובלנד. המאמר זמין כאן

    2020-04-01
    גרפים הסכמה קורלציה בלוג הדמיית-נתונים
  • סדנה בהדמיית נתונים
    סדנה בהדמיית נתונים

    אני מעביר סדנה בהדמיית נתונים. בואו בהמוניכם. נעשה כמה זוגות של ״לפני ואחרי״. אם אתם רוצים, צרפו כאן את הגרף שלכם במצבו ה־״לפני״ , יחד עם הנתונים שלו, ואולי נעשה ממנו ״אחרי״

    לפרטים והרשמה הקליקו על התמונה למטה

    2020-03-25
    הרצאה סדנה בלוג הדמיית-נתונים
  • השתכנעתי. חשוב שתקראו
    השתכנעתי. חשוב שתקראו

    חלקכם שמעתם אותי צורח על המאמצים המוגזמים להתמודד נגד קורונה. היום מצאתי מאמר ששכנע אותי. הוא גם תורגם לעברית.

    חלק א׳ https://lihilotker.blogspot.com/2020/03/blog-post.html
    חלק ב׳ https://levkraitman.blogspot.com/2020/03/blog-post.html

    חשוב לקרוא

    2020-03-22
    קורונה בלוג
  • תעצרו את השיגעון!
    תעצרו את השיגעון!

    תגובת רוב העולם למגפה הזאת היסטרית ומזיקה. היה תדחה את התמותה של כמה אנשים ותהרוס מדינות שלמות. אומרים לנו שזה נעשה כדי שבתי החולים לא יקרסו. ומי יפעיל את בתי החולים כאשר תקרוס הכלכלה? מה יקרה לפשיעה אחרי חודשים של חוסר תפקוד של הרשויות? היום אתם פוחדים לצאת לרחוב בגלל הוירוס, חכו לכנופיות רחוב שיסתובבו ולאף אחד לא יהיה משאבים לטפל בהם.

    וכל זה למה? כי עשו ניתוח מעמיק של המצב? עשו השואה קפדנית בין הוירוס הזה למחוללי מחלה אחרים? ממש ממש ממש לא! לא עשו ניתוח מעמיק כי אי אפשר לעשות ניתוח מעמיק. כל הנתונים שיש לנו ״עקומים״ ומוטים. אף אחד לא יודע מה קצב התמותה לא של הווירוס הזה, אבל גם לא של וירוסים אחרים, דוגמת שפעת. למה לא יודעים? כי כדי לדעת צריך לעשות סקרי רוחב וסקרים כאלה לא נעשו ולא נעשים.

    ומה עושים? מכניסים את כולם בסגר, משליטים מעקב אחרי כל האזרחים ומתחפרים. ומסבירים לנו כמה זה חשוב. אבל דבר אחד לא מסבירים: איך מחליטים שמספיק. מתי המערכת תחליט שהאמצעים האלה עבדו או לא עבדו? הרי חיסון לא יהיה לנו בקרוב, גם לא תרופה (צריך חודשים ושנים בשביל לפתח אותם). אז עד מתי נשב בבתים? לא אומרים.

    במקום זה מראים כל מיני עקומות יפות וסימולציות מגניבות. רק מה הבעיה? כל המודלים האלו מניחים שאורך חיי האוכלוסיה (ז״א החברה האנושית, המדינה) אינסופית. אבל החברה האנושית זה לא סימולציית מחשב. אי אפשר לשים אותנו על ״פוס״. כי בזמן שמשטיחים את העקומה ועוצרים נקודות, כל המערכת מתפרקת. מה יעזור לנו שבתי החולים לא ייקרסו בלל קורונה אם הם ייקרסו בעוד חודשים בגלל חוסר משאבים? מה יעזור לנו לבודד בני אדם אם בחלוף הזמן חלקם יגיע לעוני מיאש?

    בבקשה תראו את המאמר הזה של פרופ׳ יואנידיס IOANNIDIS . פרופ׳ יואנידיס רופא אפידמיולוג וגם סטטיסטיקאי. בבקשה בבקשה תקראו

    2020-03-18
    דעה סטטיסטיקה קורונה בלוג
  • הדבר החשוב ביותר במפגשי עבודה מרוחקים (סקייפ/זום וכד׳)
    הדבר החשוב ביותר במפגשי עבודה מרוחקים (סקייפ/זום וכד׳)

    יצא לי לדבר עם שלושה מנהלים שעברו בזמן האחרון לעבודה מבוזרת (יעני ״עבודה מהבית״) עקב המצב. שלושתם סיפרו לי בנימה קלה של הפתעה שישיבות העבודה הפכו יעילות יותר. הנה מה שאחד מהם אמר לי אתמול: ״אני מכין אג׳נדה מראש, באים, טאק, טאק, טאק, גומרים הכול וחוזרים לעבודה״. זה מעולה. עבודה מבוזרת באמת מאפשרת יעילות טובה יותר אם היא נעשית טוב. אז איפה הבעיה?

    הבעיה היא שאנחנו יצורים חברתיים. אנחנו צריכים יחס אנושי והריחוק הפיזי מקטין אותו מאוד. לכן, מאוד חשוב לטפח את היחס האישי במיוחד בעבודה מבוזרת כי בעבודה מבוזרת לא נפגשים ליד הקולר, לא יוצאים להפסקת סיגריה ביחד ואוכלים ארוחות צהריים לבד. לכן, אל תתחילו את הישיבות מיד. תשקיעו בסמול טוק, זה חשוב, זה מעלה את רמת הסרוטונין בשני צדי הקו. וגם: אם רוחב הפס מאפשר את זה, תשתדלו לנהל חלק מהשיחה בווידאו, מקמו את תמונת בן השיח שלכם מתחת למצלמה כדי שזה ייראה כאילו אתם מסתכלים לו או לה בעייניים. ואשכרה תסתכלו, אל תכתבו מיילים, אל תגלשו בפייסבוק, אל תקראו את הבלוג שלי. אתם ממילא אונליין כל הזמן - עוד תספיקו.

    אני עובד בסביבה מבוזרת קרוב לשש שנים. אם אתם רוצים עזרה במעבר הארגון שלכם לעבודה מבוזרת, אשמח ליעץ

    שה! אני עובד

    2020-03-18
    יעוץ עבודה-מבוזרת עבודה-מהבית תקשורת-בין-אישית בלוג
  • הברבור השחור הבא
    הברבור השחור הבא

    ברור לכולנו שהמצב הקיים הוא ברבור שחור קלאסי - אירוע חריג שלא נראה כמוהו מעולם. כל העולם הולך להכוות מהארוע הזה ולהפיק לקחים. הבעיה היא שהלחק שיופק יהיה, ככל הנראה, הלקח הלא נכון. כי הברבור השחור הבא לא יבוא בדמות של עוד ווירוס או חיידק. כי אם זה יקרה, זה כבר לא יהיה ברבור שחור. הברבור השחור הבא יכול להיות עוד יותר גרוע מהנוכחי. תחשבו על מגה-צונאמי, כזה שפוגע בלונדון או ניו-יורק, אסטרואיד, התפרצות סולארית שתוציא את כל מערכות התקשורת בעולם מתפקוד.

    אז בפעם הבאה שמישהו אומר לכם שיותר גרוע כבר לא יהיה, אל תהיו פסימיסטים ותגידו ״וודאי שיהיה״.

    2020-03-17
    ברבור-שחור סוף-העולם בלוג
  • עוברים לעבודה מהבית? אולי יש לי עצה טובה בשבילכם
    עוברים לעבודה מהבית? אולי יש לי עצה טובה בשבילכם

    אם הארגון שלכם עובר לעבודה מבוזרת (מהבית) ואתם צריכים עצה טובה או שתים - מוזמנים לשאול אותי. אחרי שש שנות עבודה מבוזרת יש לי הרבה עצות ותובנות

    2020-03-16
    יעוץ עבודה-מבוזרת עבודה-מהבית בלוג
  • מחפש מידע ועצות

    הייתם עדים לנסיון לא מוצלח להכניס דאטה לחברה? הייתם אש/ת הדאטה היחיד/ה באירגון? בתור פרילנסר ויועץ אני רוצה ללמוד מטעויות והצלחות של אחרים. אשמח לשיחת טלפון, ווידאו או פנים מול פנים. אפשר גם לחתום על NDA. צרו אתי קשר או הפנו אליי מישהו שיכול להיות רלוונטי.

    boris@gorelik.net

    2020-03-12
    יעוץ פידבק קריירה שאלה-לקהל בלוג
  • תכתבו הערה כלשהי לפוסט הזה
    תכתבו הערה כלשהי לפוסט הזה

    בבקשה, תכתבו הערה כלשהי לפוסט הזה. לא משנה מה: תגידו ״שלום״, תשאירו לינק מעניין, ספרו על עצמכם קצת, אפילו סמיילי קטן מספיק. כל מה שאני רוצה לדעת זה כמה אנשים ״חיים״ קוראים את הבלוג שלי.

    גם לא משנה מתי אתם רואים את הפוסט הזה. אם אתם רואים אותו, תשאירו הערה.

    תודה

    Photo by Pixabay on Pexels.com

    2020-03-11
    פידבק בלוג
  • טיפים למצגות בעבודה מרחוק
    טיפים למצגות בעבודה מרחוק

    לפני שהפכתי פרילנסר בתחום ה־data science, עבדתי בחברה מבוזרת ותקשורת מרחוק, כולל מצגות היו עבורי נורמה ולא יוצא מהכלל. עם כל הבהלה של ווירוס הקורונה, והמעבר הכפוי של המונים לעבודה מהבית החלטתי לשתף כמה טיפים למצגות מרחוק

    • עדיף לעמוד. אם בפגישה פיזית הייתם עומדים תוך כדי ההצגה, גם במצגת מרוחקת כדאי לעמוד. כשאנו עומדים, התנועות שלנו נהיות חופשיות יותר, אפילו הקול משתנה.
    • יש לי שולחן שמאפשר עבודה בעמידה. אם אין לכם אפשרות להגביה את המצלמה לגובה העייים, אין ברירה, שבו. אתם לא רוצים שהצופים יבהוו במפשעה שלכם במהלך המצגת
    • תשתשמשו בשלט של מצגות, גם במצגות ״רגילות״ וגם במצגות מרוחקות. השלט משחרר את תנועת הידיים ומאפשר קצב הרבה יותר טוב.
    • חשוב מאוד לראות את הקהל בזמן המצגת. ככה תוכלו לקבל רמזים על איך הדברים שלכם מתקבלים על הצד השני. ככה גם אפשר לזהות בעיות בחיבור. לכן, עדיף לעבוד עם שני מסכים - אחד לשקפים והשני לחלון של סקייפ או זום בו רואים את ה״קהל״.

    • את חלון ה״קהל״ עדיף למקם מתחת למצלמה אליה אתם מדברים. ככה הבעת הפנים שלכם תהיה יותר טבעית.
    • תוכנות מצגת כמו PowerPoint ו־Keynote משתלטות על כל המסכים שיש למחשב להציע, מה שלא מאפשר לראות את הצד השני. כדי לפתור את הבעיה, אני הופך את השקפים שלי לפורמט pdf ומשתמש באקרובט רידר כדי להציג אותם.
    • תרגלו ״על יבש״. עדיף יום-יומיים לפני כדי לתת זמן לתקן את הבעיות הטכניות שעלולות להופיע
    • שימו לב לרקע שלכם. במיוחד עם מציגים מהבית או מבית מלון. אף אחד לא צריך לראות מיטה לא מוצעת עם ערמת בגדים מלוכלכים עליה.
    2020-03-11
    מצגת עבודה-מבוזרת עבודה-מהבית בלוג
  • רעיון אחד לשקף. יותר קל להגיד מלעשות
    רעיון אחד לשקף. יותר קל להגיד מלעשות

    הרבה מאוד טסקטים שמדברים על עיצוב מצגות מזכירים כלל אחד ברור: כל שקף צריך להכיל רעיון אחד בלבד. נשמע פשוט, לא?

    הנה שקף ממצגת אחד שמספרת כמה חשוב לשים רעיון אחד לשקף.

    והנה השקף הבא באותה המצגת, שמסביר למה זה חשוב

    נו, כמה רעיונות יש בשקף הזה? לפחות שלושה. יחד עם האותיות הקטנות - ארבעה.

    אז מה אפשר לעשות?

    קודם כל, צריך לזכור שלרוב השקפים מלווים את המציג, לא מחליפים אותו, ולכן השקף הראשון מספיק. את מה שרוצים להוסיף אפשר רק להגיד, בלי צורך בשקפים.

    אם בכל זאת רוצים תזכורות (ובואו נודה על האמת, גם המציג צריך תזכורת), אפשר לפצל כל אחד מהרעיונות לשקף משל עצמו. מי שמרגיש מספיק בטוח בעצמו יכול להוסיף איזו אילוסטרציה שתחבר את השכל ואת הרגש. עדיף שהאילוסטרציה תתפרס על כל השקף, ליצירת אפקט של נוכחות

    עכשיו אני שומע אנשים צועקים לי ״יופי, מצגת מוטיבציה זה קל. מה עם מצגת טכנית יותר???). בואו נראה.

    הנה שקף ממצגת ״טכנית״ שסוקר את השיטות השונות ללמידה חישובית

    בואו נראה מה האפשרויות שלנו

    קודם כל, פתרון לאנשים עסוקים - מי שאין לו זמן להתקשקש עם חיפוש של תמונות חמודות, מי שיש לו עוד עבודה לעשות. הפתרון במקרה הזה מוצג בצילומסך למטה. בשקף הראשון אומרים על מה מדברים (על סוגי האלגוריתמים). בשקף השני מדברים על אלגוריתמים לא מונחים (unsupervised), אחר כך מדברים על האלגוריתמים המונחים (supervised) ואחרי זה מזכירים את ה־״שונות״. שימו לב שבכל שקף יש רק רעיון אחד (הכותרת לא נחשבת - היא משמשת לנווט).

    יופי. מי שיש לו זמן יכול להגדיל ראש ולספק קצת איורים. בדוגמה הזאת שמתי את הכותרות בצד. כי למה לא?

    אפשרות נוספת היא לשים כל כך הרבה מידע, שברור לכל שאף אחד לא אמור לקרוא אותו. זה טיפה ריסקי, אבל שווה בדיקה

    לסיכום

    כשאומרים לכם ״רעיון אחד לשקף״ מתכוונים לרעיון אחד לשקף. הדרך הפשוטה לוודא את זה זה לפזר את הרעיונות בין השקפים. לא צריך לפחת מכמות השקפים. שקפים לא עולים לנו כסף, תשומת הלב של הקהל - כן.

    2020-02-29
    מצגות מצגת בלוג
  • חמישה גורמים להצלחת היועוץ

    הרבה לפני שמנהייתי פרילנסר ויועץ data science הייתי קורא נלהב של דר׳ AnnMaria De Mars. לכן, אני מרגיש חובה לשתף את הפוסט האחרון שלה.

    Last week, I mentioned that successful consultants have five categories of skills; communication, testing, statistics, programming and generalist. COMMUNICATION Communication is the number one most important skill. All five are necessary to some extent, but a terrific communicator with mediocre statistical analysis skills will get more business than a stellar statistician that can’t communicate. Communication…

    5 Basics of Consulting Success: Part 1 — AnnMaria’s Blog

    2020-02-26
    annmaria יעוץ פרילנס רפוסט בלוג
  • לא זמן מבוזבז
    לא זמן מבוזבז

    בתור פרילנסר יוצא לי לדבר עם אנשים על הצעות שלא מבשילות לפרוייקט שיחות אלו גוזלות זמן אבל, משום מה, אני דווקא נהנה מהן מאוד. אני גם לומד מהן המון. איך עוד הייתי לומד על מודל עיסקי X או על מה שבאמת קורה מאחורי הקלעים בחברה Y?

    2020-02-19
    פרילנס בלוג
  • שביעות רצון מדעית נראית כך
    שביעות רצון מדעית נראית כך

    אני לא יכול להרחיב יותר מדי, אבל למקרה שתהיתם איך נראית שביעות רצון מדעית, אז הנה, כך

    Stay tuned

    2020-02-18
    מחקר בלוג
  • איזה חוקר נתונים יגיד לא לעוד כח חישוב?
    איזה חוקר נתונים יגיד לא לעוד כח חישוב?

    איזה חוקר נתונים יגיד לא לעוד כח חישוב? בוודאי לא אני. אוסף מכשירי החישוב שלי קיבל תוספת נחמדה - מכונת חישוב (אריתמומטר) סובייטית פליקס

    הידעתם שבשל הפיגור הכללי של התעשיה הסובייטית, ברית המועצות ייצרה חשבוניות ומכונות חישוב מכניות עד שנות השמונים - מזמן אחרי שהם יצאו משימוש בעולם המערבי

    2020-02-11
    אריתמומטר בלוג
  • תרשים עוגה כחלופה הולמת לגרף עמודות
    תרשים עוגה כחלופה הולמת לגרף עמודות

    תרשים עוגה כחלופה הולמת לגרף עמודות

    במהלך חיי המקצועיים שמעתי רבות בגנות תרשימי עוגה. הסיבה לכך נעוצה בעובדה שקל מאוד לייצר זוועות עם תרשימים אלו. לא עזרה העובדה שבמשך המון זמן ברירת המחדל של תרשימי עוגה, בכל כלי ההדמיה העיקריים, ייצרה תרשימים מעוותים לגמרי. מצדדי החרם על תרשים עוגה מציעים את גרף העמודות כחלופה ראשונה. יחד עם זאת צריך לזכור שלא מתקנים עוול אחד בעוול אחר. לפעמים גרף עוגה דווקא מתאים יותר מגרף העמודות. בואו נראה דוגמה למקרה כזה.

    הכנסת המתפקדת האחרונה שהייתה לנו במדינת ישראל הייתה הכנסת ה־20. בואו נראה איך התפלגו מושבי הכנסת בין המפלגות השונות.

    זה הקוד ליצירת תרשים עוגה בסיסי בשפת פייתון עם שימוב בספריות סטנדרטיות

    fig, ax = plt.subplots()
    ax.pie(
        x=tbl_knesset20['מושבים'],
        labels=tbl_knesset20['מפלגה']
    )
    

    עד לא מזמן, התוצאה הייתה נראית ככה:

    *
    *

    עזבו לרגע את העברית ההפוכה (נטפל בזה בהמשך), הגרף הזה פשוט נורא. הבעיה הגדולה ביותר שלו זה עווית המציאות. כאשר אנחנו מסתכלים על תרשים עוגה, אנחנו אומדים (estimate) שטחים וזוויות. במקרה הזה, יחס גובה/רוחב של העיגול לא נשמר ואתו גם נהרסו השטחים והזוויות. מה עושים? ספריית matplotlib מאפשרת קיבוע של יחס גובה/רוחב על ידי ax.set_aspect(1.0) . לשמחתי, גרסאות חדשות של ספריה זו הכניסו את היחס הנכון כברירת מחדל והעוגה הדפולטיבית נראית עגולה היום. ברוך ה׳

    *
    *

    לפני שנפתור את הבעיות הגדולות יותר, בואו נטפל בעברית. כל מה שצריך לעשות זה להתקין ספריה מתאימה.

    fig, ax = plt.subplots()
    ax.set_aspect(1.0)
    patches, texts = ax.pie(
        x=tbl_knesset20['מושבים'],
    )
    ax.legend(patches, tbl_knesset20['label'])
    ax.set_title(bidialg.get_display('לא לנסות בבית'))
    

    עדיין לא טוב. מרוב עצים לא רואים את היער. האם הצופה יכול לראות כמה מושבים יש לש״ס, למשל? או לליכוד?

    ניסיון להזיז את המקרא ולהוסיף מספרים עדיין לא עובד טוב

    בנקודה הזאת, האדם הסביר שלמד הדמית נתונים מרים ידיים, נזכר בתרשימי עמודות ומייצר משהו נחמד

    זה יותר טוב, אבל לא מצויין. למה לא? כי אם כל מה שאנחנו רוצים להגיד זה כמה מושבים יש לכל מפלגה, לא צריך גרף, טבלה יכולה להספיק. אבל אם אנחנו רוצים להציג את מאזן הכוחות בכנסת הזאת, הגרף הזה לא מספק את הסחורה בכלל. למעשה, אין לנו כאן עשר מפלגות, אלא שתי קבוצות של מפלגות – הקואליציה והאופוזיציה (זוכרים כמה משעמם היה פעם). ואם מה שמעניין אותנו זה מאזן בין שתי קבוצות, אז גרף עוגה יכול להיות בחירה טובה.

    לפני שנמשיך, להלן כללי אצבע לתרשים עוגה טוב אותם ליקטתי בספרות

    • מעט מאוד קבוצות (הייתי אומר, עד 4)
    • הפלחים ממוינים. המיון מקל על ההשוואה
    • עיגול צריך להראות עיגול (יחס גובה/רוחב שווה ל־1(
    • זהו

    ״רגע!״ אתם וודאי צועקים, לא אמרת מעט קבוצות? ״כן,״ אני עונה – כאן יש שתי קבוצות: קואליציה ואופוזיציה. בואו נצבע את הפלחים בהתאם

    אנחנו מתקרבים. בנקודה זאת אני קצת מרמה. אני רוצה לקבץ את כל מפלגות הקואליציה ביחד, ואת האופוזיציה ביחד. טכנית, כדי לבצע את הקיבוץ הזה, אני הכפלתי את מספר המושבים של הקואליציה במינוס אחד, והתוצאה לפנינו:

    נו, תגידו אתם, מה יותר טוב?

    אני טוען שבמקרה הזה העוגה עדיפה על המקלות.

    מי שמעוניין לראות את קוד הפייתון אתו יצרתי את הגרפים האלה, מומן להגיע לרפוזיטורי שלי בגיטהאב, בו יש עוד הרבה דוגמאות מעניינות..

    להלן חוברת העבודה הרלוונטית

    https://github.com/bgbg/datascience_dataviz_workshop/blob/master/demos/item_distribution/pie%20charts%20as%20an%20alternative%20to%20bar%20charts%20-%20the%20Israeli%20Knesset.ipynb

    2020-02-02
    תרשים-עוגה תרשים-עמודות בלוג הדמיית-נתונים
  • Newer posts Older posts