האם Data Science הוא המהפכה הטכנולוגית של המאה ה-21?

בלוג, יעוץ קריירה

התשובה שלי לשאלה המעניינת הזאת

לינק לתשובה המקורית

כן ולא.

נתחיל מה־״לא״. לא כי המונח data science (חקר נתונים בעברית) קצת ריק מתוכן. בדיוק כמו שהמונח ״תעשיה״ מחביא בתוכו תכומי מדע שונים החל מפיזיקה, תרמודינמיקה, כימיה ועוד, המונח ״חקר נתונים״ גם משמש מטריה שמכסה המון תחומי דעת (כתבתי על זה בבלוג שלי).

כן – כי הפירות של כל תחומי הדעת האלה כל כך משני חיים שאין לי ספק ש־״חקר נתונים״ של המאה ה־21 זאת ה־״תעשייה״ של המאה ה־19.

עובדה מעיינת. כימיה כתחום מדע עמצאי התפתח מאוד מאוחר, עמוק בתוך המהפכה התעשייתית, הרבה אחרי גיאולוגיה ואסטרונומיה, למשל.

חשוב להבין מה זה סקלה לוגריתמית וכמעט אף פעם לא להשתמש בה

בלוג

בתוך חוקר נתונים אני בוהה המון בגרפים בעלי סקלה לוגריתמים ומוצא אותם מאוד שימושיים מפעם לפעם. בתור מרצה אני משתדל להמנע מהם כמה שאפשר. למה? כי אפילו אנשים ״טכניים״ מתקשים להבין אותם. אפילו סטודנטים לתואר שני בהנדסת תוכנה מבקשים ממני שוב ושוב לסביר את הקטע.

אז מה עושים? חשוב להבין מה סה סקלה לוגריתמית ומתי היא שימושית. וחשוב להמנע מהשימוש בה כאשר מדברים עם אנשים.

Being a data scientist and a self-proclaimed data visualization expert, I like using log scale graphs when I find them appropriate. However, as a speaker and a communicator, I refrain from using them in presentations as much as possible. From my experience as a data visualization lecturer, I noticed that even “technical” struggle grasping the concept of log scale graphs.

Logarithmic scale misinforms. Period — Boris Gorelik

תתמיד ותצליח – איזה בולשיט

בלוג, יעוץ קריירה

כולנו שמענו את הסיפורים על ההיא שהגישה את הספר לפירסום מלנת אלפים פעם עד שהתפרסמה, על ההוא שמילצר עד גיל 45 עד שנהיה כוכב על. גם אם הסיפורים האלה נכונים, מאוחיהם מסתתר לא מעט בולשיט. את היתר תצטרכו לקרוא באנגלית.

Calling bullshit on “persistence leads to success” — Boris Gorelik

Did you know that J.K. Rowling, the author of Harry Potter, submitted her books 13 times before it was accepted? So what?

Calling bullshit on “persistence leads to success” — Boris Gorelik

להפוך לחוקר נתונים אחרי גילי 40

בלוג, יעוץ קריירה

מדי פעם אני כותב על ענייני קריירה בתחום ה־data science. עד עכשיו כתבתי בעיקר באנגלית (לינק) אבל גם קצת בעברית (לינק). מדי פעם אנשים שקוראים את הבלוג שלי שואלים אותי שאלות ואני תמיד שמח לענות. לפני כשבוע קיבלתי מייל בעברית

שלום בוריס.

אתחיל כמו רוב הפונים אליך ולא אהיה בכך מקורי.

שמי XXXX, אני כבר בן 40 , בעל תואר ראשון באדריכלות. מסיים זה עתה את התואר השני שלי בתחום אחר (לא מחשבים אבל בחלט נושק). במסגרת התואר השני נגענו בפרט בקורסים הבאים

-סטטיסטיקה מתקדמת עם הבטים מרחביים

-פיתון

-מאטלאב ואיבוד תמונה

-עשינו גם קורס כללי בו למדנו  מנגנוני לימוד מכונה (כחלק מעיבוד תמונה) כולל צמצום מימדים כגון PCA,  קלסיפיקציות שונות כולל SVM, ולמידה עמוקה כולל CNN

נשמע מאוד רלוונטי

אציין שמנגננים אלה הופעלו לא מתוך ממשק תכנה, אלא מתוך קוד בד"כ במאטלאב או  פיתון (כלומר להערכתי היינו מעט יותר "ממשתמשי קצה" שלוחצים על מקשים)

עוד יותר טוב

שורה תחתונה, התאהבתי בתחום למידת מכונה, וניתוח נתונים. היות ואני לא מאמין בקורסים באינטרנט, אם אני הולך על זה – אעשה תואר שני נוסף (כרוך בשנת השלמות, אבל אני נחוש).

אני מניח שקראת את הבלוג שלי ואתה יודע שאני בדעה שהידע  המצקועי (שלא קשור לדאטה סיינס) מאוד חשוב בתחום. שם אתה מביא את הערך המוסף שלך, במיוחד בשלבים בהם אתה פחות מנוסה בתור דאטה סיינטסט. 

שאלותי כדלקמן:

בהתחשב שתחת מיטריית הדאטא-סיינס כנראה ארצה להתמקד בתחום של עיבוד תמונה, ועיבוד אותות

1- האם מבנה חשיבה כמו שיש לי – אופי יותר אנליטי ומעמיק,  ופחות תקתקני-ביצועיסטי מתאים לתחום הדאטאסיינס?

באופן עקרוני – כן. אם אתה יודע שאתה לא מצליח לעמוד בלוחות זמנים ולהתרכז – טוב תעשה עם תעבוד עם מנהל טוב שיתן לך ״שירותי ניהול״ – ז״א ישים עין על התמונה הכוללת ולא ייתן לך לסטות יותר מדי. גם אני נוטה לפעמים להתעמק בתוך איזה נושא מסויים, עד שמזכירים לי שהוא לא באמת חשוב ושיש לוחות זמנים. עד היום, הרוב המוחלט של המנהלים שלי היו מעולים ועשו את זה ממש טוב. 

2- אם אלך על זה, סביר שאצא לשוק ללא ניסיון בגיל 43-44.  עד כמה לדעתך  הגיל ישליך לרעה (או לטובה) על יכלתי למצוא עבודה ועל שכר.

אתה לא באמת בלי ניסיון. עבדת עד עכשיו, לא? 

יש שני סוגים של אנשים בלי נסיון: ״ילדים״ אחרי האוניברסיטה שלא יודעים מימינם ומשמאלם. לא יודעים איך להתנהל בחברה, לאזן בין פוליטיקה משרדית, רצון לעשות עבודה, להתפתח וכד׳ ושחושבים שהם יודעים הרבה. 

לסוג השני של אנשים בלי ניסיון אין אולי נסיון בתחום הספציפי אליו הם נכנסים אבל יש נסיון חיים, יודעים מה זה פרוייקט, מתי להגיד ״כן״ למנהל הפרוייקט ומתי להגיד ״לא״. הם מביאים אתם את כל הטעויות שהם עשו עד עכשיו ולא יעשו יותר.

וגם יש את הבגרות של המוח. לאנשים צעירים יותר יש יכולת למידה גדולה מאוד ואילו לאנשים מבוגרים יותר יש יכולת של ניתוח רחב יותר (משהו שקשור לפלסטיות ואלסטיות של המוח). התקופה בה אדם בן שלושים היה נחשב לזקן עברה. המון מפתחי תוכנה, חוקרי נתונים, ואנשים בתחום עברו את הגיל 50. גם מנהלים צעירים כבר פחות נרתעים מלעבוד עם זקנים.

לגבי השכר: זה עניין טריקי. אין לי מושג

3-לגבי עתיד המקצוע בכלל.  קראתי דעתך מ2017, ו2019. בתיקון הפרוגנוזה שלך למצב כפי שהוא היום, שאלתי היא כזו:

 האם אתה צופה ירידה במשכורות בתחום הדאטאסיינס  גם כחלק מדינמיקה כללית בנישה, ובפרט לאור כניסה מסיבית של מכללות וקורסים לתחום.

כן. וגם לאור העובדה ששוק העבודה נפתח יותר לעבודה מרחוק בעקבות הקורונה. היום יותר קל (מבחינה מנטלית) להעסיק מישהו שגר בהודו, רומניה, או רוסיה ולשלם לו פחות מחצי ממה שמשלמים כאן. לך לאתר upwork.com תעשה חיפוש של data science ותראה את העושר של נסיון ואת מגוון המחירים.

מצד שני, זה גם מרחיב את תחום העבודה הפוטנציאלי שלך וגם מדגיש את הייתרונות בידע נישתי כמו אדריכלות.

 אם כן, האם סביר שזה ירד עד כדי ככה שעלול במקרה שלי לרוקן מכל משמעות השקעה רב שנתית שאני מתכנן (בקיצור האם לא צפוי מצב שמצמרת המשכורות בהייטק התחום יצנח לתחתית ואף פחות).

אין לי מושג 😦 אני מקווה שלא. אבל תמיד תוכל לחזור לתכנן ווילות לאנשים, לא 🙂

*כשאני נכנס לעניין, אני תמיד בודק את הסצנריו ההכי חיובי ואת ההכי שלילי. הסצנריו החיובי במקרה הזה נוצץ מבעד לכל פינה ולא חסר סיבות להתרשם ולהיות בהשליות. עכשיו הגיע התור של השלישי, או האובייקטיבי אם תרצה, לכן פניתי אליך כי התרשמתי שאתה אדם שקול וענייני. ככה שתרגיש חופשי לרוקן לי רוח מהמפרסים.  עדיף לעשות זאת עכשיו מה שנקרא "על הגדה".

התסריט החיובי לא מובטח. בין התסריט החיובי (הריאלי, לא הנוצץ) לבין השלילי (הריאלי, לא האסון), הייתי מהמר היום בערך 70% לטובת החיובי. אם תדע לתמחר את ההצלחה והכשלון (כשלונות ״עולים״ יותר, בד״כ) תקבל שני מספרים שיבלבלו אותך עוד יותר בקבלת ההחלטות 🙂

חבית של דבש עם כפית של חרא?

בלוג, הדמיית נתונים

תארו לעצמכם שהייתם רואים ספר דקדוק עברי עם הכותרת ״חמש חוקי הדקדוק״. האם הייתם טורחים לקרוא את  הספר הזה? אני מקווה שלא. זה, פחות או יותר מה שעשתה חברת IBM כשהיא פרסמה את 

המדריך שלה להדמיית נתונים (אני בכוונה לא שם לינק, כדי לא להעלות את ה־rank של העמוד הזה). 

שימו לב איך נראה הגרף שמופיע על עמוד הבית של המדריך 

כדי להבין מה הבעיה, צריך לשאול את השאלה איך תרשימי עוגה מעבירים מידע? איך בני אדם משווים בין המספרים השונים שמיוצגים על ידי הפלחים השונים של העוגה? האם זו הזווית?  השטח? אולי היקף הקשת? התשובה, ככל הנראה: גם, וגם, וגם (מוזמנים לקרוא את העבודות של רוברט קוסרה כאן). עכשיו, בתרשים עוגה תקני, שלושת הגדלים האלה קשורים קשר לינארי ולכן הם תורמים להבנה נכונה של המספרים אותם הם מייצגים.

מה קורה כאן? כאן, החברים שלנו ב־IBM החליטו לתת לכל פלח רדיוס משלו. ככה יותר חמוד! רק מה הבעיה? עכשיו כל הקשרים בין הגדלים משתבשים. לא התעצלתי ומדדתי את הזוית של הפלח הסגול והשחור בתרשים של IBM, מדדתי גם את הרדיוס וחישבתי את השטח ואת היקף הקשת. ומה קיבלנו?

זוויות הפלחים הן 182 ו־75 מעלות, בהתאמה, יחס של 2.42:1. הרדיוס של המקטעים הם 135 ו־110פיקסלים. עם קצת מתמטיקה, אחנו מקבלים שאורך הקשתות של שני הפלחים הם 426 ו־144פיקסלים, יחס של 2.96:1. ומה עם השטחים: כאן, בגלל התלות הריבועית היחס עוד יותר גדול: 28,930 פיקסלים, לעומת 7,915 שנותנים יחס של 3.66:1. 

אז נכון, הצבעים יפים, אבל אילו יחסים הגרף הזה מייצג?

חברת IBM אולי עושה מחשבים טובים, אבל אל תלמדו מהם איך עושים הדמיית נתונים!

כל מה שטוב בהדמיית נתונים

בלוג, הדמיית נתונים

מצאתי שני גרפים כל כך טובים שפשוט לא יכולתי להשאר אדיש. הכל בגרפים האלה עשוי טוב. שימוש בצבעים; עיצוב המקרא והתוויות; הפרטים על הצירים, במחיוחד הכמות הקטנה שלהם והעדר פרטים מיותרים. הטקסט שמלווה את הגרפים מכיל מאוד מילים, אבל לא צריך לקרוא אותם כדי להבין מה הכותבים רצו להעביר.
לראות וללמוד

The quintessence of data visualization usefulness. These graphs are SOOOO good and convincing.

The quintessence of data visualization usefulness — Boris Gorelik

דיבור בציבור ותקשורת במפגשי אונליין

בלוג

במשך שנים  אנחנו לומדים שבמקרים רבים אין כמו שיחה ״פנים מול פנים״ תקשורת מרחוק מקשה על המון אנשים ומאלצת אותם ללמוד קישורים חדשים ומהר. 

אחרי שש שנים של עבודה בצוות בינלאומי מבוזר, העברת הרצאות, מצגות ושיעורים אונליין, אני רוצה להעביר חלק מהידע שצברתי לאחרים. מעוניינים בוובינר חינם בנושא ״דיבור בציבור ותקשורת במפגשי אונליין״? אם כן, לכו ללינק הבא ובחרו מתי אתם רוצים ויכולים לקחת חלק בוובינר. אם יימצא סלוט עם 10 מעוניינים לפחות, הסדנא תצא לדרך. מכירים אנשים שכדאי שיקחו חלק בוובינר? שלחו את הלינק להם. קדימה, לבחור זמן

https://doodle.com/poll/b55uv3g9up3fe4c4#calendar

(אל תסמנו סתם. על ידי סימון אתם מבטיחים לעשות מאמץ להגיע.)

דרך מעניינית להלחם בדחיינות בעבודה מהבית

בלוג

מכירים את זה שלא בא לכם לעבוד אבל לא נעים שהאנשים במשרד יראו אתכם משחקים, אז אתם עובדים? קורה. מכירים את זה שאם עובדים מהבית אז אין מי יסתכל עליכם במבט שופט ויותר קל להתבטל? גם קורה. אז הנה פתרון מאוד נחמד

לאתר קוראים focusmate. מה שקורה זה שאתם נכנסים לאתר, קובעים ״פגישה״ אם אדם אקראי וכמגיע הזמן אתם עולים מול אותו האדם בצ׳אט וידאו. לשני הצדדים יש בדיוק חמש דקות להגיד מי אתם, מה אתם עושים ומה אתם רוצים להשלים בחמישים דקות הבאות. אחרי זה עושים מיוט למיקרופון ועובדים כרגיל. חמש דקות אחרי זה אתם מדליקים את המיקרופון ומספרים לצד השני אם הצלחתם לעמוד במשימה או לא.

נשמע מפגר. אבל בכל פעם שעשיתי את התרגיל הזה הוא עבד פלאים. ממליץ לנסות