להפוך לחוקר נתונים אחרי גילי 40

בלוג, יעוץ קריירה

מדי פעם אני כותב על ענייני קריירה בתחום ה־data science. עד עכשיו כתבתי בעיקר באנגלית (לינק) אבל גם קצת בעברית (לינק). מדי פעם אנשים שקוראים את הבלוג שלי שואלים אותי שאלות ואני תמיד שמח לענות. לפני כשבוע קיבלתי מייל בעברית

שלום בוריס.

אתחיל כמו רוב הפונים אליך ולא אהיה בכך מקורי.

שמי XXXX, אני כבר בן 40 , בעל תואר ראשון באדריכלות. מסיים זה עתה את התואר השני שלי בתחום אחר (לא מחשבים אבל בחלט נושק). במסגרת התואר השני נגענו בפרט בקורסים הבאים

-סטטיסטיקה מתקדמת עם הבטים מרחביים

-פיתון

-מאטלאב ואיבוד תמונה

-עשינו גם קורס כללי בו למדנו  מנגנוני לימוד מכונה (כחלק מעיבוד תמונה) כולל צמצום מימדים כגון PCA,  קלסיפיקציות שונות כולל SVM, ולמידה עמוקה כולל CNN

נשמע מאוד רלוונטי

אציין שמנגננים אלה הופעלו לא מתוך ממשק תכנה, אלא מתוך קוד בד"כ במאטלאב או  פיתון (כלומר להערכתי היינו מעט יותר "ממשתמשי קצה" שלוחצים על מקשים)

עוד יותר טוב

שורה תחתונה, התאהבתי בתחום למידת מכונה, וניתוח נתונים. היות ואני לא מאמין בקורסים באינטרנט, אם אני הולך על זה – אעשה תואר שני נוסף (כרוך בשנת השלמות, אבל אני נחוש).

אני מניח שקראת את הבלוג שלי ואתה יודע שאני בדעה שהידע  המצקועי (שלא קשור לדאטה סיינס) מאוד חשוב בתחום. שם אתה מביא את הערך המוסף שלך, במיוחד בשלבים בהם אתה פחות מנוסה בתור דאטה סיינטסט. 

שאלותי כדלקמן:

בהתחשב שתחת מיטריית הדאטא-סיינס כנראה ארצה להתמקד בתחום של עיבוד תמונה, ועיבוד אותות

1- האם מבנה חשיבה כמו שיש לי – אופי יותר אנליטי ומעמיק,  ופחות תקתקני-ביצועיסטי מתאים לתחום הדאטאסיינס?

באופן עקרוני – כן. אם אתה יודע שאתה לא מצליח לעמוד בלוחות זמנים ולהתרכז – טוב תעשה עם תעבוד עם מנהל טוב שיתן לך ״שירותי ניהול״ – ז״א ישים עין על התמונה הכוללת ולא ייתן לך לסטות יותר מדי. גם אני נוטה לפעמים להתעמק בתוך איזה נושא מסויים, עד שמזכירים לי שהוא לא באמת חשוב ושיש לוחות זמנים. עד היום, הרוב המוחלט של המנהלים שלי היו מעולים ועשו את זה ממש טוב. 

2- אם אלך על זה, סביר שאצא לשוק ללא ניסיון בגיל 43-44.  עד כמה לדעתך  הגיל ישליך לרעה (או לטובה) על יכלתי למצוא עבודה ועל שכר.

אתה לא באמת בלי ניסיון. עבדת עד עכשיו, לא? 

יש שני סוגים של אנשים בלי נסיון: ״ילדים״ אחרי האוניברסיטה שלא יודעים מימינם ומשמאלם. לא יודעים איך להתנהל בחברה, לאזן בין פוליטיקה משרדית, רצון לעשות עבודה, להתפתח וכד׳ ושחושבים שהם יודעים הרבה. 

לסוג השני של אנשים בלי ניסיון אין אולי נסיון בתחום הספציפי אליו הם נכנסים אבל יש נסיון חיים, יודעים מה זה פרוייקט, מתי להגיד ״כן״ למנהל הפרוייקט ומתי להגיד ״לא״. הם מביאים אתם את כל הטעויות שהם עשו עד עכשיו ולא יעשו יותר.

וגם יש את הבגרות של המוח. לאנשים צעירים יותר יש יכולת למידה גדולה מאוד ואילו לאנשים מבוגרים יותר יש יכולת של ניתוח רחב יותר (משהו שקשור לפלסטיות ואלסטיות של המוח). התקופה בה אדם בן שלושים היה נחשב לזקן עברה. המון מפתחי תוכנה, חוקרי נתונים, ואנשים בתחום עברו את הגיל 50. גם מנהלים צעירים כבר פחות נרתעים מלעבוד עם זקנים.

לגבי השכר: זה עניין טריקי. אין לי מושג

3-לגבי עתיד המקצוע בכלל.  קראתי דעתך מ2017, ו2019. בתיקון הפרוגנוזה שלך למצב כפי שהוא היום, שאלתי היא כזו:

 האם אתה צופה ירידה במשכורות בתחום הדאטאסיינס  גם כחלק מדינמיקה כללית בנישה, ובפרט לאור כניסה מסיבית של מכללות וקורסים לתחום.

כן. וגם לאור העובדה ששוק העבודה נפתח יותר לעבודה מרחוק בעקבות הקורונה. היום יותר קל (מבחינה מנטלית) להעסיק מישהו שגר בהודו, רומניה, או רוסיה ולשלם לו פחות מחצי ממה שמשלמים כאן. לך לאתר upwork.com תעשה חיפוש של data science ותראה את העושר של נסיון ואת מגוון המחירים.

מצד שני, זה גם מרחיב את תחום העבודה הפוטנציאלי שלך וגם מדגיש את הייתרונות בידע נישתי כמו אדריכלות.

 אם כן, האם סביר שזה ירד עד כדי ככה שעלול במקרה שלי לרוקן מכל משמעות השקעה רב שנתית שאני מתכנן (בקיצור האם לא צפוי מצב שמצמרת המשכורות בהייטק התחום יצנח לתחתית ואף פחות).

אין לי מושג 😦 אני מקווה שלא. אבל תמיד תוכל לחזור לתכנן ווילות לאנשים, לא 🙂

*כשאני נכנס לעניין, אני תמיד בודק את הסצנריו ההכי חיובי ואת ההכי שלילי. הסצנריו החיובי במקרה הזה נוצץ מבעד לכל פינה ולא חסר סיבות להתרשם ולהיות בהשליות. עכשיו הגיע התור של השלישי, או האובייקטיבי אם תרצה, לכן פניתי אליך כי התרשמתי שאתה אדם שקול וענייני. ככה שתרגיש חופשי לרוקן לי רוח מהמפרסים.  עדיף לעשות זאת עכשיו מה שנקרא "על הגדה".

התסריט החיובי לא מובטח. בין התסריט החיובי (הריאלי, לא הנוצץ) לבין השלילי (הריאלי, לא האסון), הייתי מהמר היום בערך 70% לטובת החיובי. אם תדע לתמחר את ההצלחה והכשלון (כשלונות ״עולים״ יותר, בד״כ) תקבל שני מספרים שיבלבלו אותך עוד יותר בקבלת ההחלטות 🙂

כל מה שטוב בהדמיית נתונים

בלוג, הדמיית נתונים

מצאתי שני גרפים כל כך טובים שפשוט לא יכולתי להשאר אדיש. הכל בגרפים האלה עשוי טוב. שימוש בצבעים; עיצוב המקרא והתוויות; הפרטים על הצירים, במחיוחד הכמות הקטנה שלהם והעדר פרטים מיותרים. הטקסט שמלווה את הגרפים מכיל מאוד מילים, אבל לא צריך לקרוא אותם כדי להבין מה הכותבים רצו להעביר.
לראות וללמוד

The quintessence of data visualization usefulness. These graphs are SOOOO good and convincing.

The quintessence of data visualization usefulness — Boris Gorelik

דיבור בציבור ותקשורת במפגשי אונליין

בלוג

במשך שנים  אנחנו לומדים שבמקרים רבים אין כמו שיחה ״פנים מול פנים״ תקשורת מרחוק מקשה על המון אנשים ומאלצת אותם ללמוד קישורים חדשים ומהר. 

אחרי שש שנים של עבודה בצוות בינלאומי מבוזר, העברת הרצאות, מצגות ושיעורים אונליין, אני רוצה להעביר חלק מהידע שצברתי לאחרים. מעוניינים בוובינר חינם בנושא ״דיבור בציבור ותקשורת במפגשי אונליין״? אם כן, לכו ללינק הבא ובחרו מתי אתם רוצים ויכולים לקחת חלק בוובינר. אם יימצא סלוט עם 10 מעוניינים לפחות, הסדנא תצא לדרך. מכירים אנשים שכדאי שיקחו חלק בוובינר? שלחו את הלינק להם. קדימה, לבחור זמן

https://doodle.com/poll/b55uv3g9up3fe4c4#calendar

(אל תסמנו סתם. על ידי סימון אתם מבטיחים לעשות מאמץ להגיע.)

קוד הסדנה זמין להורדה

בלוג, הדמיית נתונים

העברתי היום סדנה מקוונת להדמיית נתונים למתקדים. אני מאוד נהניתי וקיבלתי פידבק חיובי. אם נוכחתם בסדנה, אשמח לשמוע מהם הצעות לשיפור. אם אתם רוצים סדנה דומה, אתם יודעים איך למצוא אותי.

קוד לסדנה זמין בלינק הבא

https://github.com/bgbg/datascience_dataviz_workshop/

לא זאת השאלה

בלוג, הדמיית נתונים

לא זאת השאלה. על גרף קורלציה והאלטרנטיבות

מכירים את זה שמראיין שואל פוליטיקאי שאלה קשה והפוליטיקאי עונה ״לא זאת השאלה״ וממשיך לדקלם מדף מסרים? בתור יועץ ללקוחות חיצוניים או פנימיים, אני מוצא את עצמי לא מעט בסיטואציה בה אני אומר ״לא זאת השאלה״. אבל לא כדי לדקלם את דף מסרים אלא כדי לעזור ללקוח להבין את הבעיה שלו. הנה דוגמה שמצאתי בארכיון שלי שתדגים היטב את הכוונה שלי.

יום אחד קיבלתי רשימה של עסקאות בחנות האינטרנט של חברת אוטומאטיק Automattic בה עבדתי במשך יותר מחמש שנים. החברה מפעילה את אתר wordpress.com במודל פרימיום ובאותם ימים החברה מכרה מספר רב של שירותים בתשלום. מאחר והצעת המכירה מתבצעת לפני שהלקוח נרשם לשירות, קשה להתאים את ההצעות ללקוח. במילים אחרות: אין פרסונליזציה. אני חשבתי לגשת לבעיה מזווית קצת אחרת והעליתי השארה שלקוחות שנכנסים לחנות באמצע שבוע יהיו שונים מהלקוחות של סוף השבוע כי אלה נכנסים בענייני עבודה ואלה נכנסים בענייני תחביבים. אם זה נכון, אפשר להתאים את החנות לשני סוגי האוכלוסיה ולשפר את הביצועים.

מיד נשאלה השאלה ״האם יש קורלציה בין פילוח המוצרים שנקנים בסוף השבוע לעומת אמצע השבוע. הקורלציה הזאת אכן התקיימה

לא רק שהיא התקיימה, היא הייתה כמעט מושלמת. אבל לא זאת השאלה. בורור שיש קורלציה. זהו הטבע של המוצרים האלה: כמות האנשים שרוצים שם דומיין שעולה בסביבות 10 דולר יותר גדולה מכמות האנשים שרוצים מנוי עסקי שעולה כמה מאות דולרים. גם באמצע השבוע וגם בסוף. השאלה היא מה ההבדל.

מה כן השאלה?מה הפתרון? עוד רגע נגלה, בוא נראה עוד דוגמא.

נניח שאתם צריכים להחליט אם בית חולים מסויים יכול להחליף מד שיא נשיפה (מכשיר המעריך את תפקוד הראיות) גדול בדגם קטן יותר. מה עושים? אפשר למדוד את את שיא הנשיפה בשני המכשירים ולבנות גרף קורלציה.

יש קורלציה. יופי? לא, לא יופי. אתם זוכרים את המושג השארת האפס? השארת האפס היא ההשארה הכי תמימה לגבי התצפיות אבל שלא מגיע לתחום הטמטום. גרף קורלציה עוזר לנו לבחון את השארת האפס שאין קשר בין שני מדדים. אבל זאל לא השארת אפס קבילה. ברור שיש כאן קשר בין המדדים. לא היינו צריכים לעשות את המדידות כדי לדעת שיש קשר! ככה בנו את המכשירים! גם בדוגמה של הקניות בחנות האינטרנט השארת האפס של ״לא קיים קשר״ לא השארה קבילה.

בעיה נוספת עם גרף הקורלציה היא שהוא מניח הנחה נסתרת כאילו המדד בציר ה־X הוא הגורם המשפיע או המדדת ה״אמיתי״ ואילו המדד בציר ה־Y המושפע, או ה״טוען לכתר״. כאן זה לגמרי לא נכון. בשתי הדוגמאות, אין מדד ״אמיתי״ ו־״לא אמיתי״ ואין מדד אחד ש־״משפיה״ ואחד ״מושפע״. אז מה יש לנו?

מה השאלה?

השאלה האמיתית היא מה מידת ההסכמה בין שני המספרים או מידת ההבדל בינהם. לכן נציג את ההבדל בין שני המדדים. אבל הבדל כפונקציה של מה? איזה מדד נצייר על ציר ה־X? האם הבדל המכירות הוא פונקציה של המכירות באמצע השבוע או בסוף השבוע? האם ההבדל במדידות שי הנשיפה הוא פונקציה של המדד הזה הנמדד במכשיר הגדול או במכשיר הקטן? אם נבחר מדד אחד נייחס לו חשיבות רבה יותר. אז הפתרון הוא פשרה מפאיניקית: נקח את הממוצע. זה בדיוק מה שהציעו רבותינו Altman ו־Bland במאמרם שהתפרסם בשנת 1986 "Statistical methods for assessing agreement between two methods of clinical measurement". המאמר היה כל כך חשוב שהוא התפרסם שוב, כמעט בלי שינויים ב־1999 תחת השם "Measuring agreement in method comparison studies". הכותרת מבטאית את הרעיון: במקום לצייר קורלציה, אנחנו מציירים ומנתחים את מידת ההסכמה בין שני מדדים. על מנת לבצע את המשימה הזאת, אנחנו מציירים את ממוצע המדידות בציר ה־X ואת ההבדל בציר ה־Y.

הנה התוצאה של אלטמן ובלנד

תראו איזה עושר של נתונים יש לנו כאן: הנקודות, ההבדל, מדדי סיכום. אפשר גם להעריך האם קיימת מגמה כלשהיא בחוסר ההכמה. תענוג.

נעבור לדוגמה שלי. מאחר מידת הפופולריות של הרבה דברים ותופעות מתפלגת התפלגות אקספוננציאלית, עברתי לסקלה לוגריתמית. אחרי הטרנספורמציה הזאת הנה התוצאה של הנתונים שלי:

(יצרתי את הגרף הזה לפני שש שנים, הוא מלא בשגיאות כמו טקסט מסובב, רקעים, וכד׳. אל תשפטו אותי קשה.)

אפשר לראות יפה מאוד שבמקרה של החנות האינטרנטית יש מוצרים עם העדפה מסויימת לסופי שבוע ומוצרים עם העדפה מסויימת לאמצע השבוע. לא זו אף זו, אם מוסיפים תוויות למוצרים השונים אפשר לראות הגיון בריא שמחזק את הטענה שלנו: לקוחות אמצ״ש שונים מלקוחות סופ״ש

אז מה היה לנו כאן?

גרף קורלציה בודק השארה תמימה של העדר קשר. תמימה, לא מטומטמת. אם קיום הקשר ברור מאילו, אם שני המדדים אמורים למדוד את אותו הערך, אם מדד אחד לא משפיע על השני, אזי עדיף לאמוד את מידת ההסכמה בין המדדים, לא את מידת הקשר.

אני ממליץ מאוד לקרוא את המאמר השני של אלטמן ובלנד. המאמר זמין כאן

סדנה בהדמיית נתונים

בלוג, הדמיית נתונים

אני מעביר סדנה בהדמיית נתונים. בואו בהמוניכם. נעשה כמה זוגות של ״לפני ואחרי״. אם אתם רוצים, צרפו כאן את הגרף שלכם במצבו ה־״לפני״ , יחד עם הנתונים שלו, ואולי נעשה ממנו ״אחרי״

לפרטים והרשמה הקליקו על התמונה למטה

הדבר החשוב ביותר במפגשי עבודה מרוחקים (סקייפ/זום וכד׳)

בלוג

יצא לי לדבר עם שלושה מנהלים שעברו בזמן האחרון לעבודה מבוזרת (יעני ״עבודה מהבית״) עקב המצב. שלושתם סיפרו לי בנימה קלה של הפתעה שישיבות העבודה הפכו יעילות יותר. הנה מה שאחד מהם אמר לי אתמול: ״אני מכין אג׳נדה מראש, באים, טאק, טאק, טאק, גומרים הכול וחוזרים לעבודה״. זה מעולה. עבודה מבוזרת באמת מאפשרת יעילות טובה יותר אם היא נעשית טוב. אז איפה הבעיה? 

הבעיה היא שאנחנו יצורים חברתיים. אנחנו צריכים יחס אנושי והריחוק הפיזי מקטין אותו מאוד. לכן, מאוד חשוב לטפח את היחס האישי במיוחד בעבודה מבוזרת כי בעבודה מבוזרת לא נפגשים ליד הקולר, לא יוצאים להפסקת סיגריה ביחד ואוכלים ארוחות צהריים לבד. לכן, אל תתחילו את הישיבות מיד. תשקיעו בסמול טוק, זה חשוב, זה מעלה את רמת הסרוטונין בשני צדי הקו. וגם: אם רוחב הפס מאפשר את זה, תשתדלו לנהל חלק מהשיחה בווידאו, מקמו את תמונת בן השיח שלכם מתחת למצלמה כדי שזה ייראה כאילו אתם מסתכלים לו או לה בעייניים. ואשכרה תסתכלו, אל תכתבו מיילים, אל תגלשו בפייסבוק, אל תקראו את הבלוג שלי. אתם ממילא אונליין כל הזמן – עוד תספיקו.

אני עובד בסביבה מבוזרת קרוב לשש שנים. אם אתם רוצים עזרה במעבר הארגון שלכם לעבודה מבוזרת, אשמח ליעץ

שה! אני עובד

תעצרו את השיגעון!

בלוג

תגובת רוב העולם למגפה הזאת היסטרית ומזיקה. היה תדחה את התמותה של כמה אנשים ותהרוס מדינות שלמות. אומרים לנו שזה נעשה כדי שבתי החולים לא יקרסו. ומי יפעיל את בתי החולים כאשר תקרוס הכלכלה? מה יקרה לפשיעה אחרי חודשים של חוסר תפקוד של הרשויות? היום אתם פוחדים לצאת לרחוב בגלל הוירוס, חכו לכנופיות רחוב שיסתובבו ולאף אחד לא יהיה משאבים לטפל בהם.

וכל זה למה? כי עשו ניתוח מעמיק של המצב? עשו השואה קפדנית בין הוירוס הזה למחוללי מחלה אחרים? ממש ממש ממש לא! לא עשו ניתוח מעמיק כי אי אפשר לעשות ניתוח מעמיק. כל הנתונים שיש לנו ״עקומים״ ומוטים. אף אחד לא יודע מה קצב התמותה לא של הווירוס הזה, אבל גם לא של וירוסים אחרים, דוגמת שפעת. למה לא יודעים? כי כדי לדעת צריך לעשות סקרי רוחב וסקרים כאלה לא נעשו ולא נעשים.

ומה עושים? מכניסים את כולם בסגר, משליטים מעקב אחרי כל האזרחים ומתחפרים. ומסבירים לנו כמה זה חשוב. אבל דבר אחד לא מסבירים: איך מחליטים שמספיק. מתי המערכת תחליט שהאמצעים האלה עבדו או לא עבדו? הרי חיסון לא יהיה לנו בקרוב, גם לא תרופה (צריך חודשים ושנים בשביל לפתח אותם). אז עד מתי נשב בבתים? לא אומרים.

במקום זה מראים כל מיני עקומות יפות וסימולציות מגניבות. רק מה הבעיה? כל המודלים האלו מניחים שאורך חיי האוכלוסיה (ז״א החברה האנושית, המדינה) אינסופית. אבל החברה האנושית זה לא סימולציית מחשב. אי אפשר לשים אותנו על ״פוס״. כי בזמן שמשטיחים את העקומה ועוצרים נקודות, כל המערכת מתפרקת. מה יעזור לנו שבתי החולים לא ייקרסו בלל קורונה אם הם ייקרסו בעוד חודשים בגלל חוסר משאבים? מה יעזור לנו לבודד בני אדם אם בחלוף הזמן חלקם יגיע לעוני מיאש?

בבקשה תראו את המאמר הזה של פרופ׳ יואנידיס IOANNIDIS . פרופ׳ יואנידיס רופא אפידמיולוג וגם סטטיסטיקאי. בבקשה בבקשה תקראו

הברבור השחור הבא

בלוג

ברור לכולנו שהמצב הקיים הוא ברבור שחור קלאסי – אירוע חריג שלא נראה כמוהו מעולם. כל העולם הולך להכוות מהארוע הזה ולהפיק לקחים. הבעיה היא שהלחק שיופק יהיה, ככל הנראה, הלקח הלא נכון. כי הברבור השחור הבא לא יבוא בדמות של עוד ווירוס או חיידק. כי אם זה יקרה, זה כבר לא יהיה ברבור שחור. הברבור השחור הבא יכול להיות עוד יותר גרוע מהנוכחי. תחשבו על מגה-צונאמי, כזה שפוגע בלונדון או ניו-יורק, אסטרואיד, התפרצות סולארית שתוציא את כל מערכות התקשורת בעולם מתפקוד.

אז בפעם הבאה שמישהו אומר לכם שיותר גרוע כבר לא יהיה, אל תהיו פסימיסטים ותגידו ״וודאי שיהיה״.