נשאלתי שאלה על ידי קולגה איך לבחור נכון צבעים לגרף עמודות שנראה בערך כך:

מה שרואים כאן זה תרשים עמודות מוערמות stacked bar plot שמכיל המון (המון!) קטגוריות. ובגלל הקטגוריות הרבות, קשה מאוד לקרוא אצת הגרף.
איך בוחרים צבעים בצורה נכונה?
התשובה הנכונה מאוד מורכבת. כדי לבחור צבעים בצורה נאותה, לא מספיק לבחור צבעים אקראייים, אלא יש להתחשב בדרך בה העין האנושית מנתח תמונה חזותית. יש אתר שנקראה I Want Hue שמבוסס על מחקרים מעמיקים (ראו דף זה שמסביר את התיאוריה). אבל, וזה אבל גדול, הבעיה היא לא עם הצבעים
זאת לא השאלה הנכונה
האמת היא ששאלת בחירת הצבעים היא לא השאלה הנכונה במקרה הזה. כדי להבדיל בין שמונה קטגוריות על סמך שמונה צבעים, המוח שלנו צריך לעבוד מאוד מאוד קשה. בחירה נכונה של צבעים עשוייה לעזור, אבל לא לפתור את הבעיה לגמרי. ייתרה מכך, גרף עמודות מעורמות stacked bar chart בעייתי בפני עצמו. הסיבה לכך היא שהעין האנושית טובה מאוד בהשוואת מיקום של עצמים (למשל: מה יותר מנוך ממה) ולא כל כך טובה בהשוואת גדלים של עצמים (מה יותר גדול ממה).
לכן, בגרף עמודות, קל יחסית להשוות את גודל העמודה המלאה ואת גודל הרכיב הנמוך ביותר בכל עמודה. הסיבה לכך היא כיוון שהעמודות האלה מתחילות על אותו הקו, בהשוואה הזאת אנחנו משווים את מיקום קצה העמודה ולא את הגודל. אם נרצה להשוות גדלים של רכיבים אמצעיים בגרף של עמודות מוערמות, מיקום העמודה לא עוזר, כי הן לא מתחילות באותו גובה, ואז נאלצים להשוות גדלים. וזה, כמו שאמרנו, יותר קשה. מה עושים?
כדי לענות לשאלה הזאת, המציג חייב להחליט מה בדיוק הוא רוצה להציג. אני מפציר הלוך והפצור, תוסיפו כותרות לגרף שמסבירות את המסקנה שלו! כך, תוכלו להנחות את עצמכם לכוון ההדמיה הנכונה.
אין לי כאן את המסקנה של מחבר הגרף המקורי, לכן אני מגושש קצת באפלה.
אני מציע שתי חלופות. אחת, להקטין את כמות הקטגוריות, ושניה, להפריד בין הגרפים. בואו נראה
אפשרות ראשונה: להקטין את כמות הקטגוריות
זה לא משנה מה אתם חושבים על הנתונים שלכם, לרוב אין בהם כל כך הרבה קטגוריות. באמת שלא. בחלק גדול מהמקרים, רוב הקטגוריות מדומות. למשל, אם המטרה של הגרף שלנו להשוות חוות מחשבים בארצות הברית ומחוצה לה, אז למעשה יש לנו רק שתי קטגוריות. וזה מה שיוצא:

נכון שזה הרבה יותר קריא? אם נשפר קצת את הקריוּת (readability) של הגרף, נקבל את הדבר היפה הזה:

פשוט וקל! אני יודע שלפעמים להקטין את מספר הקטגוריות זה משימה קשה מאוד, אחרי שעבדתם קשה כדי לאסוף את הנתונים, לוותר על המגוון מרגיש כמו לכחתוך בבשר חי (טוב, נו הגזמתי קצת), אבל תמיד כדאי לנסות ולפשט. אם זאת לא אפשרות מעשית, בוא נוראה עוד חלופה
אפשרות שניה: להפריד בין הגרפיםה
שמתם לב שציר ה־X בגרף המקורי מייצג את הזמן? זה אומר שאנחנו יכולים לשנות את גרף העמודות הזה לגרף אבולוציה evolution graph שזה שם קצת יותר מתחכם לגרף של נקודה קו. שוב, אני לא בטוח מה מחבר הגרף המקורי רצה להגיד, אבל אם היה למחבר חשוב מאוד להראות את הדינמיקה האינדיווידואלית של כל קטגוריה, אז אפשר להראות בדיוק את זה:
ראיתם איזה יופי? שימו לב ששמרתי על קנה מידה זהה בין כל הגרפים. ככה, אפשר לראות בצורה מאוד קלה באיזו קטגוריה יש ערכים ממוצעים גבוהים ובאיזו יש ערכים ממוצעים נמוכים. מצד שני, הבחירה הזאת עלולה לטשטש דינמיקה בתוך כל קטגוריה נפרדת. אם הדינמיקה האינדיווידואלית יותר מעניינת מההשווואה בין הקבוצות, אפשר להתאים קנה מידה ״אישי״ לכל קטגוריה. וזה בדיוק מה שעשיתי בדוגמה האחרונה של הפוסט הזה. בדוגמה הזאת, אני הנחתי שהערך המעניין ביותר הוא המספר הכללי, והערכים של הקטגוריות מהוות מידע משני. לכן, אני מציג את המספר הכללי בקו עבה ובולט ומספק את הדינמיקות של כל קטגוריה בתרשימי משנה למטה בצורה פחות בולטת
מסקנה
כאשר אתם שואלים או נשאלים שאלה טכנית לגבי שיפור גרף, תשאלו ״למה?״ למה הבעיה הטכנית חשובה ולמה היא תפתור לכם את הבעיה? פתאום תגלו שכדי לענות על ה־״למה״ תצטרכו קודם לענות על ה־״מה?״ מה אתם רוצים להגיד בגרף הזה? ואז אולי תבינו שהבעיה לא טכנית אלה תיסתית – שבמקום לבחור שמונה צבעים שונים כדאי לשנות את הגרף שיסתפק בשני צבעים בלבד.זאת הסיבה שאני חוזר ואומר: תכתבו את המסקנה של הגרף בכותרת שלו! זה כלי כל כך משמעותי ומועיל! אתם מוזמנים לקרוא את הפוסט שלי [כאן] שמדבר בדיוק על זה, או לראות את הוובינר שערכתי בנושא [כאן].