ביקורת ספר. תבשילים חריפים מהמטבח הטטארי

בלוג

אמ;לק: ספר נחמד. 4.5/5. מומלץ

תבשילים חריפים מהמטבח הטטארי מאת אלינה ברונסקי הוא ספר נחמד מאוד.

כל מי שגדל עם אמא או סבתא סובייטית יתחבר מאוד. כל מי שחווה את שלהי תקופת ברית המועצות יתחבר גם כן.

הדבר היחיד שהציק לי בספר, זאת כמות גדולה מדי של אידישיזמים (ז״א השפעות של השפה היידית) בפי גיבורת הספר הטטארית. לא קראתי את המקור הגרמני של הספר, אבל אני מנחש שהמתרגמת נועה קול חושבת בטעות ש־״רוזלה״ זאת צורה רוסית של השם רוזה למרות ששום דובר רוסי שאינו יהודי בחיים לא היה קורה לאשתו רוזלה׳ אלא רוזצ׳קה. נועה, אם את קוראית את זה, לידיעתך.

גל שני, או לא גל שני, מצבנו לא רע בכלל

בלוג

בעיניי, המדד הטוב ביותר לחומרת המגיפה זה מקרי המוות העודפים. מה זה ולמה זה טוב (או לא טוב)? כידוע, בני אדם היו מתים גם לפני הקורונה. פה ושם אני שומע גיכוחים מהעובדה שכל אדם שנפטר עם הקורונה נספר כאילו נפטר מ־הקורונה. גם אם מדובר באדם בן 98 שסבל מסרטן גרורתי, נדרס במעבר חציה וטבע בים. אבל, למעשה, אין מה לעשות. אם בכל פעם בה הייתי צריך להסביר לאנשים, בתור איש נתונים ואלגוריתמים, ש־״לספור דברים זה קשה״ הייתי מקבל שקל, הייתי יכול לקנות מנה יפה של שווארמה עם צ׳יפס בצד ושתיה.

אה, איפה היינו. לספור מקרי מוות ממחלה מסויימת זה קשה. לספור מקרי מוות באופן כללי זה יותר קל. ולכן, אם מנהלים את הספירה נכון, ומשתמשים במודלים מתמטיים סבירים, אפשר להעריך כמה אנשים ״אמורים״ ללכת לעולמם בכל שבוע נתון. ואז, אם משווים את צפוי למצוי, אפשר לקבל תמונה מעניינת.
הנה הגרף של האתר Financial Times שעשה בדיוק את זה. (בתור מרצה לגרפים אין לי מספיק תשבוחות לגרף הזה).
אתם רואים את האזורים האדומים בין הקו האדום לשחור? אלה הם מקרי המוות העודפים – התוצאה ה״אמיתית״ של המגיפה. שישים וחמישה אלף איש בבריטניה, חמישים וארבע אלף בברזיל, וכך הלאה. באמת נורא.
אבל פה ושם יש מדינות בלי מקרי מוות עודפים בכלל. בגרף הזה רק שלוש מדינות כאלה: איסלנד, נורווגיה, וישראל. מה שלא יכול שלא לשמח.

עכשיו, למה זה קורה? האם בגלל ההנהגה הנבונה של ממשלתנו הדגולה? או בגלל ההענות המופתית של הציבור? או בזכות התפילות של בחורי ישיבות בבני ברק, ירושלים ואשדוד? אני לא יודע. מה שאני כן יודע זה. מצבנו לא רע.

ולפני שאתם ממהרים להחליט שהסגר והמגבלות היו לחינם. לפנינו מקרה קלסי של פרדוקס ההענות. בלי ניסוי מבוקר ולא מוסרי בעליל, אי אפשר לדעת אם העדר מקרי המוות העודפים הוא בזכות המגבלות למרות.

אז יאללה, תפסיקו להיות חמוצים. יש סיבה לאופטימיות

במה עדיף להתמחות כמהנדס תוכנה – פיתוח ווב וענן, סייבר או האינטרנט של הדברים – במידה ושלושתם מעניינים אותך באותה המידה?

בלוג, יעוץ קריירה

כותרת הפוסט לקוחה משאלה שנשאלה ב־Quora

הנה מה שעניתי

שאלה מעניינית. אני מניח ששואל השאלה מנסה לנחש איזה מהתחומים האלה יהיה יותר מצליח לאורך זמן. הטענה שלי שאי אפשר לדעת. ולכן, במקום להשקיע מאמץ כדי לזהות מגמות בשוק הנדסת התוכנה, תשקיע את הזמן בדברים חשובים יותר ותנסה להנות כמה שיותר.

מה צופה לנו העתיד?
Pexels.com

אם כל התחומים האלה מעניינים באותה מידע, לך למקום עם תנאים יותר טובים. אם אתה מחפש יציבות לך לחברה שנראית יותר יציבה, אם אתה מחפש אקשן לך לחברה קטנה ודינמית. מה בדיוק תעשה שם – פחות משנה, העיקר שנתהנה ותרויח כסף.

למה זה לא משנה? כי אין לך מושג מה השוק יירצה בעוד חמש שנים, וודאי לא עוד עשר שנים. קו אותי לדוגמה. בשנת 2007 סיימתי דוקטורט בכימיה חישובית. באותה שנה רק חברה אחת בארץ עסקה בכימיה חישובית. האם הייתי יכול לנחש שתוך עשר שנים אהיה בעל נסיון בcyber security, machine learning, social network analysis? ממש ממש לא. אפילו לא הכרתי את המונחים האלה. בעוד עשר שנים מהיום תחומים חדשים יקומו, תחומים ישנים יעלמו, תחומים ישנים אחרים שכבר נעלמו יוולדו מחדש בכובע אחר.

מה כן משנה? תשמור על המקצועיות, תלמד דברים חדשים, תשקיע בכישורי תקשורת (מצגות, דוחות, בלוגים) ותקווה לכך שהעולם לא יחזור לתקופת האבן.

האם כדאי ללמוד הנדסת ביוטכנולוגיה

בלוג, יעוץ קריירה

לא מזמן קיבלתי שאלה במייל ממישהו שמתלבט האם ללמוד הנדסת ביוטכנולוגיה. במהלך חילופי המיילים, האדם הבין שהוא לא כל כך מבין מה זה בכלל הנדסת ביוטכנולוגיה ומה מהנדס ביוטכנולוגיה עושה. למה אני מספר את זה? לא כדי לצחוק עליו, אלא כי זה הזכיר לי איך פעם ניגשתי לראש חוג באוניברסיטה העברית ואמרתי לו שאני רוצה לעשות דוקטורט בביאואינפורמטיקה (זה היה התחום באותן השנים). אותו ראש החוג חייך ואמר ״כולם היום רוצים ללמוד ביואינפורמטיקה. אתה יכול להגיד לי מה זה?״ מי שלא הצלחתי, הוא הציע לי ללכת ולעשות שיעורי בית וכך עשיתי.

בחזרה ללימודי הנדסת ביוטכנולוגיה. אני מביא כאן את עקרי ההתכתבות עם אותו הבחור, אבל שימו לב שיש מצב שאני לא כל כך יודע מה מהנדס ביוטכנולוגיה עושה, אז קחו את העצות שלי בערבון מוגבל. מצד שני, אם אתם רוצים לשמוע את דעתי על הקריירה שלכם, מוזמנים לכתוב לי למייל. אני מבטיח לענות. boris@gorelik.net

הי בוריס, אני חושב על הנדסת ביוטכנולוגיה. מהפודקסט של ליאור פרנקל נתתי לעצמי להסיק שאתה מכיר ברמה מסויימת את התעשייה בתחום? אשמח מאוד לשמוע האם זו תעשייה פורחת פה בארץ. ובעיקר, האם אפשר לאחר התואר להשתלב בעבודות מעניינות, ומה השכר.

תמונה יפה לא קשורה לכלום
Photo by Josh Sorenson on Pexels.com

הי xxx.

כשהקלטתי את הפודקאסט ההוא, כף רגלי לא דרכה בחברת ביוטק במשך 6-7 שנים. כל החברות הביוטכנולוגיות בהן עבדתי או ששמעתי עליהן עד אז היו הפסדיות והתקיימו מכספי משקיעים. הבעיה עם ביוטק היא שהתעשיה הזאת מאוד יקרה והכל קורה בה לאט בגלל המורכבות והרגולציה. מצב זה גורר חוסר בטחון תעסוקתי. בשתי החברות בהן עבדתי היו תקופות בהן מחכים לסוף רבעון כדי לדעת עם יש עוד סבב גיוס. אם לא – כולם הולכים הביתה. באותה התקופה (סוף שנות ה־200, תחילת שנות ה־2010) חברות היו נסגרות חדשות לבקרים. פעם קרה שהתראיינתי בחברה, שבוע אחרי זה התקשרתי לשאול מה קורה רק כדי לשמוע שמי שראיין אותי פוטר בגלל קיצוצים. בחברה בה אחרת לקחו ביואינפורמטיקאית חדשה וחודש וחצי אחרי זה החליטו על צימצומים ופיטרו אותה. זאת הייתה התמונה הכללית.

מאז הפודקאסט התפתרטי והתחלתי לעבוד כפרילנסר. אולי בגלל קשרי העבר שלי, אולי בגלל סיבות אחרות, אבל בחצי השנה האחרונה הכרתי די הרבה חברות ביוטק או כאלה שיושבות על תפר בין ה־״טק״ ל־״ביוטק״. חלק מהן עדיין חי מכספי המשקיעים אבל חלק אחר די מרוויח. עכשיו, עם הקורונה, יש מצב שחלק מההשקעות יזרמו לתעשיה הזאת, אבל כמה זמן זה יחזיק מעמד – קשה לדעת.

אז מה אני בא להגיד? 

האם התעשיה הזאת פורחת עכשיו – עושה רושם שכן. אם זה ימשיך לאורך זמן – אין לי מושג אבל לא הייתי מהמר את כל כספי על זה. 

האם אפשר להשתלב אחרי הלימודים? עולם ההנדסה שונה מעולם המחקר. בעולם המחקר בארץ, בלי תואר שני, אין בכלל מה להתקרב לחברות ביוטק. וגם אז, יש העדפה חזקה מאוד לדוקטורט. אני לא מהנדס. הכרתי מהנדסים שעבדו ונהנו כמהנדסי מכשירים גם עם תואר ראשון, אבל קשה לי להשליך מזה על השוק הכללי.  

מצד שני, מהנדס טוב הוא מהנדס טוב. אני מכיר לפחות מהנדס ביוטכנולוגיה אחד שעבד בחברת אפלייד מטריאלס ואני מאמין שיש כמוהו רבים מאוד. כך שאם העולם הזה מעניין אותך, אתה יכול להחליט שאתה לומד את זה. אני ממליץ שבזמן הלימודים תנסה לקבל ידע גם בתחומי ההנדסה הרחבים יותר כדי לפזר סיכונים. 

לגבי השכר – אני לא מכיר את השוק של היום, יש חברות שעושות סקרי שכר ומפרסמות אותם (גוגל ״סכר שכר״). 

מקווה שזה עוזר. אם יש לך עוד שאלות – אל תתבייש לשאול. אבל תזכור שדעתי זאת דעתי והחיים שלך הם החיים שלך. אל תקבל החלטות הרות גורל רק על סמך דעתי 🙂

[בשלב הזה החלפנו כמה מיילים שמבהירים מה זה בעצם מהנסד ביוטכנולוגיה ואז הגיע המייל הבא[

פתאום זה נשמע לי עבודה לא מעניינת, התעסקות במכשור. ע"פ הניסיון שלך, המשרות והעבודה של מהנדס ביוטכנולוגיה נתפסים מעניינים, מאתגרים? נחשבים? 

תלוי מאוד באנשים ובמה הם עושים. החלפת פילטרים במכונת הנשמה, בניית חללית, ופיתוח זרוע אוטונומית שמבצעת ניתוחים – כל זה ״התעסקות במכשור״. אני מכיר שני אנשים שעובדים כמהנדסי מכשור ביוטכנולוגי ונראה שהם מאוד נהנים. מכיר גם  מהנדסת ביוטכנולוגיה שכל כך לא אהבה את זה שעברה הסבה, הפכה למרכזת פרוייקטים חינוכיים ומנחת קבוצות הורים.

וגם: אני למדתי רוקחות. כבר בשנה השניה של התואר הראשון הבנתי שהעבודה היומיומית של רוקח לא בשבילי (אני מאוד עדין כאן). אבל המשכתי והגעתי לאן שהגעתי. מה אני בא להגיד? במאה העשרים ואחת מה שאתה לומד לא מכתיב את מה שתעשה בהמשך. התואר באוניברסיטה הוא רק התחלה של מסע ארוך ולך תדע איך העולם ייראה בעוד 5, 10, 20 שנה. 

אם אתם רוצים לשמוע את דעתי על הקריירה שלכם, מוזמנים לכתוב לי למייל. אני מבטיח לענות. boris@gorelik.net

להפוך לחוקר נתונים אחרי גילי 40

בלוג, יעוץ קריירה

מדי פעם אני כותב על ענייני קריירה בתחום ה־data science. עד עכשיו כתבתי בעיקר באנגלית (לינק) אבל גם קצת בעברית (לינק). מדי פעם אנשים שקוראים את הבלוג שלי שואלים אותי שאלות ואני תמיד שמח לענות. לפני כשבוע קיבלתי מייל בעברית

שלום בוריס.

אתחיל כמו רוב הפונים אליך ולא אהיה בכך מקורי.

שמי XXXX, אני כבר בן 40 , בעל תואר ראשון באדריכלות. מסיים זה עתה את התואר השני שלי בתחום אחר (לא מחשבים אבל בחלט נושק). במסגרת התואר השני נגענו בפרט בקורסים הבאים

-סטטיסטיקה מתקדמת עם הבטים מרחביים

-פיתון

-מאטלאב ואיבוד תמונה

-עשינו גם קורס כללי בו למדנו  מנגנוני לימוד מכונה (כחלק מעיבוד תמונה) כולל צמצום מימדים כגון PCA,  קלסיפיקציות שונות כולל SVM, ולמידה עמוקה כולל CNN

נשמע מאוד רלוונטי

אציין שמנגננים אלה הופעלו לא מתוך ממשק תכנה, אלא מתוך קוד בד"כ במאטלאב או  פיתון (כלומר להערכתי היינו מעט יותר "ממשתמשי קצה" שלוחצים על מקשים)

עוד יותר טוב

שורה תחתונה, התאהבתי בתחום למידת מכונה, וניתוח נתונים. היות ואני לא מאמין בקורסים באינטרנט, אם אני הולך על זה – אעשה תואר שני נוסף (כרוך בשנת השלמות, אבל אני נחוש).

אני מניח שקראת את הבלוג שלי ואתה יודע שאני בדעה שהידע  המצקועי (שלא קשור לדאטה סיינס) מאוד חשוב בתחום. שם אתה מביא את הערך המוסף שלך, במיוחד בשלבים בהם אתה פחות מנוסה בתור דאטה סיינטסט. 

שאלותי כדלקמן:

בהתחשב שתחת מיטריית הדאטא-סיינס כנראה ארצה להתמקד בתחום של עיבוד תמונה, ועיבוד אותות

1- האם מבנה חשיבה כמו שיש לי – אופי יותר אנליטי ומעמיק,  ופחות תקתקני-ביצועיסטי מתאים לתחום הדאטאסיינס?

באופן עקרוני – כן. אם אתה יודע שאתה לא מצליח לעמוד בלוחות זמנים ולהתרכז – טוב תעשה עם תעבוד עם מנהל טוב שיתן לך ״שירותי ניהול״ – ז״א ישים עין על התמונה הכוללת ולא ייתן לך לסטות יותר מדי. גם אני נוטה לפעמים להתעמק בתוך איזה נושא מסויים, עד שמזכירים לי שהוא לא באמת חשוב ושיש לוחות זמנים. עד היום, הרוב המוחלט של המנהלים שלי היו מעולים ועשו את זה ממש טוב. 

2- אם אלך על זה, סביר שאצא לשוק ללא ניסיון בגיל 43-44.  עד כמה לדעתך  הגיל ישליך לרעה (או לטובה) על יכלתי למצוא עבודה ועל שכר.

אתה לא באמת בלי ניסיון. עבדת עד עכשיו, לא? 

יש שני סוגים של אנשים בלי נסיון: ״ילדים״ אחרי האוניברסיטה שלא יודעים מימינם ומשמאלם. לא יודעים איך להתנהל בחברה, לאזן בין פוליטיקה משרדית, רצון לעשות עבודה, להתפתח וכד׳ ושחושבים שהם יודעים הרבה. 

לסוג השני של אנשים בלי ניסיון אין אולי נסיון בתחום הספציפי אליו הם נכנסים אבל יש נסיון חיים, יודעים מה זה פרוייקט, מתי להגיד ״כן״ למנהל הפרוייקט ומתי להגיד ״לא״. הם מביאים אתם את כל הטעויות שהם עשו עד עכשיו ולא יעשו יותר.

וגם יש את הבגרות של המוח. לאנשים צעירים יותר יש יכולת למידה גדולה מאוד ואילו לאנשים מבוגרים יותר יש יכולת של ניתוח רחב יותר (משהו שקשור לפלסטיות ואלסטיות של המוח). התקופה בה אדם בן שלושים היה נחשב לזקן עברה. המון מפתחי תוכנה, חוקרי נתונים, ואנשים בתחום עברו את הגיל 50. גם מנהלים צעירים כבר פחות נרתעים מלעבוד עם זקנים.

לגבי השכר: זה עניין טריקי. אין לי מושג

3-לגבי עתיד המקצוע בכלל.  קראתי דעתך מ2017, ו2019. בתיקון הפרוגנוזה שלך למצב כפי שהוא היום, שאלתי היא כזו:

 האם אתה צופה ירידה במשכורות בתחום הדאטאסיינס  גם כחלק מדינמיקה כללית בנישה, ובפרט לאור כניסה מסיבית של מכללות וקורסים לתחום.

כן. וגם לאור העובדה ששוק העבודה נפתח יותר לעבודה מרחוק בעקבות הקורונה. היום יותר קל (מבחינה מנטלית) להעסיק מישהו שגר בהודו, רומניה, או רוסיה ולשלם לו פחות מחצי ממה שמשלמים כאן. לך לאתר upwork.com תעשה חיפוש של data science ותראה את העושר של נסיון ואת מגוון המחירים.

מצד שני, זה גם מרחיב את תחום העבודה הפוטנציאלי שלך וגם מדגיש את הייתרונות בידע נישתי כמו אדריכלות.

 אם כן, האם סביר שזה ירד עד כדי ככה שעלול במקרה שלי לרוקן מכל משמעות השקעה רב שנתית שאני מתכנן (בקיצור האם לא צפוי מצב שמצמרת המשכורות בהייטק התחום יצנח לתחתית ואף פחות).

אין לי מושג 😦 אני מקווה שלא. אבל תמיד תוכל לחזור לתכנן ווילות לאנשים, לא 🙂

*כשאני נכנס לעניין, אני תמיד בודק את הסצנריו ההכי חיובי ואת ההכי שלילי. הסצנריו החיובי במקרה הזה נוצץ מבעד לכל פינה ולא חסר סיבות להתרשם ולהיות בהשליות. עכשיו הגיע התור של השלישי, או האובייקטיבי אם תרצה, לכן פניתי אליך כי התרשמתי שאתה אדם שקול וענייני. ככה שתרגיש חופשי לרוקן לי רוח מהמפרסים.  עדיף לעשות זאת עכשיו מה שנקרא "על הגדה".

התסריט החיובי לא מובטח. בין התסריט החיובי (הריאלי, לא הנוצץ) לבין השלילי (הריאלי, לא האסון), הייתי מהמר היום בערך 70% לטובת החיובי. אם תדע לתמחר את ההצלחה והכשלון (כשלונות ״עולים״ יותר, בד״כ) תקבל שני מספרים שיבלבלו אותך עוד יותר בקבלת ההחלטות 🙂

כל מה שטוב בהדמיית נתונים

בלוג, הדמיית נתונים

מצאתי שני גרפים כל כך טובים שפשוט לא יכולתי להשאר אדיש. הכל בגרפים האלה עשוי טוב. שימוש בצבעים; עיצוב המקרא והתוויות; הפרטים על הצירים, במחיוחד הכמות הקטנה שלהם והעדר פרטים מיותרים. הטקסט שמלווה את הגרפים מכיל מאוד מילים, אבל לא צריך לקרוא אותם כדי להבין מה הכותבים רצו להעביר.
לראות וללמוד

The quintessence of data visualization usefulness. These graphs are SOOOO good and convincing.

The quintessence of data visualization usefulness — Boris Gorelik

דיבור בציבור ותקשורת במפגשי אונליין

בלוג

במשך שנים  אנחנו לומדים שבמקרים רבים אין כמו שיחה ״פנים מול פנים״ תקשורת מרחוק מקשה על המון אנשים ומאלצת אותם ללמוד קישורים חדשים ומהר. 

אחרי שש שנים של עבודה בצוות בינלאומי מבוזר, העברת הרצאות, מצגות ושיעורים אונליין, אני רוצה להעביר חלק מהידע שצברתי לאחרים. מעוניינים בוובינר חינם בנושא ״דיבור בציבור ותקשורת במפגשי אונליין״? אם כן, לכו ללינק הבא ובחרו מתי אתם רוצים ויכולים לקחת חלק בוובינר. אם יימצא סלוט עם 10 מעוניינים לפחות, הסדנא תצא לדרך. מכירים אנשים שכדאי שיקחו חלק בוובינר? שלחו את הלינק להם. קדימה, לבחור זמן

https://doodle.com/poll/b55uv3g9up3fe4c4#calendar

(אל תסמנו סתם. על ידי סימון אתם מבטיחים לעשות מאמץ להגיע.)

קוד הסדנה זמין להורדה

בלוג, הדמיית נתונים

העברתי היום סדנה מקוונת להדמיית נתונים למתקדים. אני מאוד נהניתי וקיבלתי פידבק חיובי. אם נוכחתם בסדנה, אשמח לשמוע מהם הצעות לשיפור. אם אתם רוצים סדנה דומה, אתם יודעים איך למצוא אותי.

קוד לסדנה זמין בלינק הבא

https://github.com/bgbg/datascience_dataviz_workshop/

לא זאת השאלה

בלוג, הדמיית נתונים

לא זאת השאלה. על גרף קורלציה והאלטרנטיבות

מכירים את זה שמראיין שואל פוליטיקאי שאלה קשה והפוליטיקאי עונה ״לא זאת השאלה״ וממשיך לדקלם מדף מסרים? בתור יועץ ללקוחות חיצוניים או פנימיים, אני מוצא את עצמי לא מעט בסיטואציה בה אני אומר ״לא זאת השאלה״. אבל לא כדי לדקלם את דף מסרים אלא כדי לעזור ללקוח להבין את הבעיה שלו. הנה דוגמה שמצאתי בארכיון שלי שתדגים היטב את הכוונה שלי.

יום אחד קיבלתי רשימה של עסקאות בחנות האינטרנט של חברת אוטומאטיק Automattic בה עבדתי במשך יותר מחמש שנים. החברה מפעילה את אתר wordpress.com במודל פרימיום ובאותם ימים החברה מכרה מספר רב של שירותים בתשלום. מאחר והצעת המכירה מתבצעת לפני שהלקוח נרשם לשירות, קשה להתאים את ההצעות ללקוח. במילים אחרות: אין פרסונליזציה. אני חשבתי לגשת לבעיה מזווית קצת אחרת והעליתי השארה שלקוחות שנכנסים לחנות באמצע שבוע יהיו שונים מהלקוחות של סוף השבוע כי אלה נכנסים בענייני עבודה ואלה נכנסים בענייני תחביבים. אם זה נכון, אפשר להתאים את החנות לשני סוגי האוכלוסיה ולשפר את הביצועים.

מיד נשאלה השאלה ״האם יש קורלציה בין פילוח המוצרים שנקנים בסוף השבוע לעומת אמצע השבוע. הקורלציה הזאת אכן התקיימה

לא רק שהיא התקיימה, היא הייתה כמעט מושלמת. אבל לא זאת השאלה. בורור שיש קורלציה. זהו הטבע של המוצרים האלה: כמות האנשים שרוצים שם דומיין שעולה בסביבות 10 דולר יותר גדולה מכמות האנשים שרוצים מנוי עסקי שעולה כמה מאות דולרים. גם באמצע השבוע וגם בסוף. השאלה היא מה ההבדל.

מה כן השאלה?מה הפתרון? עוד רגע נגלה, בוא נראה עוד דוגמא.

נניח שאתם צריכים להחליט אם בית חולים מסויים יכול להחליף מד שיא נשיפה (מכשיר המעריך את תפקוד הראיות) גדול בדגם קטן יותר. מה עושים? אפשר למדוד את את שיא הנשיפה בשני המכשירים ולבנות גרף קורלציה.

יש קורלציה. יופי? לא, לא יופי. אתם זוכרים את המושג השארת האפס? השארת האפס היא ההשארה הכי תמימה לגבי התצפיות אבל שלא מגיע לתחום הטמטום. גרף קורלציה עוזר לנו לבחון את השארת האפס שאין קשר בין שני מדדים. אבל זאל לא השארת אפס קבילה. ברור שיש כאן קשר בין המדדים. לא היינו צריכים לעשות את המדידות כדי לדעת שיש קשר! ככה בנו את המכשירים! גם בדוגמה של הקניות בחנות האינטרנט השארת האפס של ״לא קיים קשר״ לא השארה קבילה.

בעיה נוספת עם גרף הקורלציה היא שהוא מניח הנחה נסתרת כאילו המדד בציר ה־X הוא הגורם המשפיע או המדדת ה״אמיתי״ ואילו המדד בציר ה־Y המושפע, או ה״טוען לכתר״. כאן זה לגמרי לא נכון. בשתי הדוגמאות, אין מדד ״אמיתי״ ו־״לא אמיתי״ ואין מדד אחד ש־״משפיה״ ואחד ״מושפע״. אז מה יש לנו?

מה השאלה?

השאלה האמיתית היא מה מידת ההסכמה בין שני המספרים או מידת ההבדל בינהם. לכן נציג את ההבדל בין שני המדדים. אבל הבדל כפונקציה של מה? איזה מדד נצייר על ציר ה־X? האם הבדל המכירות הוא פונקציה של המכירות באמצע השבוע או בסוף השבוע? האם ההבדל במדידות שי הנשיפה הוא פונקציה של המדד הזה הנמדד במכשיר הגדול או במכשיר הקטן? אם נבחר מדד אחד נייחס לו חשיבות רבה יותר. אז הפתרון הוא פשרה מפאיניקית: נקח את הממוצע. זה בדיוק מה שהציעו רבותינו Altman ו־Bland במאמרם שהתפרסם בשנת 1986 "Statistical methods for assessing agreement between two methods of clinical measurement". המאמר היה כל כך חשוב שהוא התפרסם שוב, כמעט בלי שינויים ב־1999 תחת השם "Measuring agreement in method comparison studies". הכותרת מבטאית את הרעיון: במקום לצייר קורלציה, אנחנו מציירים ומנתחים את מידת ההסכמה בין שני מדדים. על מנת לבצע את המשימה הזאת, אנחנו מציירים את ממוצע המדידות בציר ה־X ואת ההבדל בציר ה־Y.

הנה התוצאה של אלטמן ובלנד

תראו איזה עושר של נתונים יש לנו כאן: הנקודות, ההבדל, מדדי סיכום. אפשר גם להעריך האם קיימת מגמה כלשהיא בחוסר ההכמה. תענוג.

נעבור לדוגמה שלי. מאחר מידת הפופולריות של הרבה דברים ותופעות מתפלגת התפלגות אקספוננציאלית, עברתי לסקלה לוגריתמית. אחרי הטרנספורמציה הזאת הנה התוצאה של הנתונים שלי:

(יצרתי את הגרף הזה לפני שש שנים, הוא מלא בשגיאות כמו טקסט מסובב, רקעים, וכד׳. אל תשפטו אותי קשה.)

אפשר לראות יפה מאוד שבמקרה של החנות האינטרנטית יש מוצרים עם העדפה מסויימת לסופי שבוע ומוצרים עם העדפה מסויימת לאמצע השבוע. לא זו אף זו, אם מוסיפים תוויות למוצרים השונים אפשר לראות הגיון בריא שמחזק את הטענה שלנו: לקוחות אמצ״ש שונים מלקוחות סופ״ש

אז מה היה לנו כאן?

גרף קורלציה בודק השארה תמימה של העדר קשר. תמימה, לא מטומטמת. אם קיום הקשר ברור מאילו, אם שני המדדים אמורים למדוד את אותו הערך, אם מדד אחד לא משפיע על השני, אזי עדיף לאמוד את מידת ההסכמה בין המדדים, לא את מידת הקשר.

אני ממליץ מאוד לקרוא את המאמר השני של אלטמן ובלנד. המאמר זמין כאן