דאטה אנליסט

טעויות נפוצות בהסקת מסקנות מנתונים

מיועד ל- כל אחד (כתבה לא טכנית)

נכתב על ידי יובל מרנין

למי שמסתכל מהצד, ניתוח נתונים על ידי דאטה אנליסט נראה כעסק פשוט. מריצים שאילתה על הדטה-בייס, מבקשים לדעת מה היקף וממוצע המכירות ומסיקים האם עמדנו ביעדים (KPI’s) ואיך עלינו להתקדם מכאן הלאה.

בפועל זה לא תמיד עובד ככה. התייחסות נאיבית לנתונים עלולה לגרום לארגון להגיע למסקנות לא נכונות ולקבל החלטות שגויות. להלן מספר מקרים מפורסמים שמדגימים איך הטיות ופירוש לא נכון של הנתונים עלול לגרום להסקת מסקנות שגויה:

דגימה לא מאוזנת של האוכלוסיה – איך לא להסיק נכון מהנתונים

בשנת 1936 ביצע המגזין Liberty Digest  סקר עצום בגודלו כדי לנסות לחזות את תוצאות הבחירות הקרובות בארצות הברית. המגזין שלח ל- 10 מיליון אנשים סקר בחירות וקיבל בחזרה תשובות מ- 2.5 מיליון אנשים. ניתוח התשובות ניבא שאלפרד לנדון ינצח את פרנקלין רוזוולט בתוצאה של 57% לעומת 43%. להפתעתם של עורכי הסקר והקוראים, רוזוולט ניצח וקיבל 62% מהקולות.

בניתוח הבעיות שהיו בסדר מצאו החוקרים שתי טעויות מהותיות שמכונות טעויות דגימה:

1 – האנשים שאליהם נשלח הסקר לא היוו מדגם מייצג של האוכלוסיה בארצות הברית, כיוון שהסקר נשלח רק לבעלי טלפונים. הסיבה לכך היתה טכנית – למי שהיה ברשתו קו טלפון, כתובתו היתה רשומה בספר הטלפונים, אך בשנת 1936 רק למעמד הגבוה והבינוני היה קו טלפון והסקר לא דגם את תשובותיהם של המעמד הנמוך.

 2 – הסקר נשלח ל- 10 מיליון אנשים ומתוכם ענו עליו 2.5 מיליון. מאפייני האנשים שהסכימו לענות על הסקר עלולים להיות שונים מכלל האוכלוסיה. התופעה הזאת גם קיימת בביקורת על קניית מוצרים באינטרנט: אנשים שלהם דעה שלילית מאד או חיובית מאד על מוצר שהזמינו באינטרנט ייטו יותר לכתוב ביקורת מאשר הלקוחות שדעתם הייתה פושרת כלפי המוצר.

מה אפשר ללמוד מזה?

כאשר רוצים להסיק מסקנות מהנתונים יש לוודא שהם מייצגים את האוכלוסיה שעליה אנחנו מסיקים. למשל, אי אפשר להסיק שאחוז ההמרה של תנועה באתר שמקורה ממנועי חיפוש (תנועה אורגנית) תהיה זהה לתנועה שמקורה מקמפיין ממומן. כדי לנבא מה יהיו הביצועים בקמפיין, יש לוודא שהדגימה של האוכלוסיה שממנה מנבאים דומה לאוכלוסיה המנובאת.

משתנים מתערבים – הסברים חלופיים למסקנות

“האם לזרע של גברים יש תכונות אנטי דיכאוניות אצל נשים?”

זאת הייתה הכותרת של מחקר מדעי אמיתי שבוצע על 256 נשים ופורסם ב-2002. החוקרים הראו שיש קשר סטטיסטי מובהק בין שימוש בקונדום בקרב נשים לבין תסמיני דיכאון.

האם המחקר מוכיח שזרע מפחית דיכאון אצל נשים? התשובה היא: כנראה שלא.

החוקרים השוו בין קבוצת נשים שמשתמשת בקונדום לבין הקבוצה שלא השתמשה ומדדו את רמת הדיכאון אצל הנשים, אבל האם יכול להיות שיש הסברים חלופיים לכך שהיעדר זרע עלול גורם לדיכאון?

אנחנו יודעים שנשים (וגברים) אשר להם פרטנר מזדמן או זוגיות שעדיין בתחילת דרכה נוטים להשתמש בקונדום וככל שהקשר מתפתח נשים נוטות להשתמש בגלולות או אמצעי מניעה אחרים שאינם קונדום. לכן, סביר יותר להניח שזוגיות ארוכה היא זאת המשפיעה על הפחתת תסמינים דיכאוניים ולא הזרע של הגברים. התופעה הזאת מכונה – ‘משתנה מתערב’. משתנה מתערב הוא משתנה שמשפיע על תוצאות המחקר אבל אנחנו לא מודדים ולא מתייחסים אליו בעת הסקת המסקנות.

מה אפשר ללמוד מזה?

משתנים מתערבים עלולים להופיע גם במחקרים בעולם העסקי. למשל ראו את הדוגמה ההיפותטית הבאה:
במחקר של מחלקת סיכונים בבנק החוקרים גילו שהגורם המשפיע ביותר על רמת סיכון הוא אזור מגורים.

כאשר ניסו החוקרים להבין כיצד יתכן שאזור מגורים משפיע על רמת סיכון, הם עברו על מחקרים קודמים שבהם נמצא כי אנשים נוטים לגור בסביבת אנשים שדומים להם בסטטוס הסוציו-אקונומי, ושאנשים ממצב סוציו-אקונומי נמוך נוטים פחות לעמוד בהתחייבויות שלהם להחזר הלוואות. לפיכך הסיקו החוקרים שלמרות שנמצא קשר בין אזור מגורים לרמת הסיכון של הלקוח, המשתנה שבאמת השפיע על התוצאות היה המצב הסוציו-אקונומי של הלקוח ולא אזור המגורים שלו.

חשוב להבין שלא ניתן להימנע ממשתנים מתערבים לחלוטין. בכל מחקר ייתכנו משתנים שלא ידענו על קיומם והם אלו שהשפיעו על התוצאות, אבל ניסיון בעבודה עם נתונים והיכרות עם עולם התוכן שעליו מתבצע המחקר עשויים לצמצם את התופעה הזאת.

Hawthorne Effect  – ממה להיזהר כשעושים A/B testing

בשנות ה- 30 של המאה הקודמת ביצעו במפעל הוט’רון שבארצות הברית מספר מחקרים שבדקו את הקשר בין  עוצמת התאורה במפעל על תפוקת העובדים. המחקרים הראו שכאשר מגבירים את התאורה ביצועי העובדים עולים, אבל באופן מפתיע גם כאשר מנמיכים עוצמת האור ביצועי העובדים עולים. ההסבר לתופעה זאת המכונה Hawthorne Effect על שם המפעל שבו בוצעו הניסויים.

הסיבה לאפקט קשורה לכך שאנשים שמים לב לשינוי פתאומי ולכן שינוי זה משפיע על ההתנהגות שלהם. עובדי המפעל שמו לב לשינוי בתאורה, הם הניחו שבוחנים אותם ובכל פעם כשהיה שינוי הם הגבירו את הביצועים. לאורך זמן גם בעוצמת אור נמוכה וגם בעוצמת אור גבוהה הביצועים של העובדים חזרו לממוצע ללא קשר לעוצמת האור.

מה אפשר ללמוד מזה?

לפי Hawthorne Effect עלינו לחשוד בהשפעות המידיות שנגרמות בעקבות שינויים. למשל, אחת הטכניקות הפופולריות והיעילות למדידת אפקטיביות של שינוי נקראת AB Testing. בטכניקה זאת מוצג לחלק מהגולשים שנבחרו לניסוי וריאציה שונה של האתר ונמדדים הביצועים שלהם אל מול קבוצת הגולשים הרגילים באתר. למשל, באתר E-Commerce  שונה צבע הכפתור בעמוד הרכישה ונבדקה השפעה של השינוי לעומת העמוד המקורי.

לפי Hawthorne effect יש סיכוי שבוריאציה החדשה יהיו יותר לחיצות על הכפתור רק בגלל שהגולשים הקבועים יראו שינוי בעמוד. כלומר, עצם השינוי הוא זה שהשפיע על הלחיצות ולא הכפתור עצמו. כדי לנטרל את השפעות האפקט יש להמתין עם הניסוי לתקופת זמן ממושכת ולבדוק האם גם לאורך זמן יש עליה בשיעור הלחיצות.

לסיכום

מניתי כאן מספר סוגים של הטיות וטעויות העלולים להתרחש במחקר עם נתונים. ישנם עוד סוגי טעויות רבים שלא התייחסתי אליהם, למשל טעויות בהצגת גרפים, ניקוי וטיוב של נתונים, הסתמכות על ממוצע עבור משתנים לא יציבים, וסתם טעויות חישוב מרגיזות שעלולות להופיע.

הדבר החשוב שכדאי לקחת מהמאמר הוא שבעת עבודה עם נתונים יש להפעיל ביקורתויות באשר לתוצאות.
אין זה אומר שאסור להסיק מסקנות מנתונים, להיפך – קבלת החלטות מבוססות על נתונים זה המפתח להצלחה של ארגונים רבים. כדי להימנע מהטיות וטעויות על הדטה-אנליסט לעבוד במשותף עם מנהלי המוצר והגורמים שמכירים היטב את התחום העסקי וביחד לבחון את המהימנות של המסקנות.

רוצים לדעת עוד?

צריכים עזרה בניתוח הנתונים שלכם?

צרו איתי קשר ואשמח לעזור לכם בהפקת תובנות עסקיות מהדטה שלכם

Posted by יובל מרנין in deep

איך דאטה אנליסט יכול לעזור לחברה שלך לצמוח

מיועד ל- כל אחד (כתבה לא טכנית)

נכתב על ידי יובל מרנין

ארגונים רבים שמעו את ‘הבאז וורד’ דאטה אנליסט ותוהים כיצד תפקיד זה יכול לעזור להם להגדיל את הרווחים שלהם. על מנת לתת טעימה מהתפקידים שהאנליסט מבצע הכנתי מאמר קצר שמסביר את המשימות שעומדות בפניו כשהוא נכנס לארגון.

המאמר מתאים גם לסטאראפים קטנים וגם לחברות גדולות, והוא כתוב בצורה קלה להבנה מבלי להיכנס לנושאים מורכבים.

הכתיבה היא בלשון זכר מטעמי נוחות, אך ישנן אנליסטיות מצוינות שעולות על גברים רבים בתחום!

המדדים העסקיים להצלחה

לפני כל שאלה אחרת, כשהאנליסט מתחיל לעבוד בארגון עליו לשאול את השאלה החשובה – מה היעדים של הארגון ואיך מודדים אותם. או במילים אחרות מקצועיות יותר:

מה ה-Key performance indicators ובקיצור KPI’s

כל ארגון עסקי רוצה להגדיל את הרווחים שלו, אבל עבור כל ארגון המודל העסקי שונה, ולכן גם הגדרת ה-KPI’s תהיה שונה. למשל: עבור ארגון אחד ההצלחה תבחן ע”י הגדלת כמות המשתמשים הפעילים, ואילו לארגון אחר חשוב יותר משך הזמן ממוצע (או החציוני) של הגולשים באתר. ישנו ארגון שחשוב לו שהלקוח יעבור את כל שלבי ההרשמה כדי שלא יטריד אח”כ את השרות לקוחות ולארגון אחר חשוב למדוד את שיעור ההלוואות שניתנו ללקוחות בסיכון נמוך.

הגדרת ה- KPI’s היא המשימה הראשונה שהאנליסט צריך לבצע לפני שהוא מתחיל לגשת לנתונים. אבל זה לא מספיק, כל KPI צריך גם להיות מוגדר אופרטיבית. לדוגמה, מה זה אומר ‘משתמשים פעילים’? האם משתמש שגולש פעם בשבוע במוצר נחשב פעיל או אולי משתמש שרוכש פעם בחודש נחשב פעיל? אין תשובה נכונה לשאלות מהסוג הזה, כל ארגון קובע את שיטת החישוב שמתאימה למודל העסקי שלו.

ניתוחים

לאחר הגדרת ה- KPI’s האנליסט “יסתכל על הדאטה” ויבצע אנליזה כדי לחשב את ה- KPI’s. אנליזה כזאת יכולה גם להשוות ולדרג את תוצאות ה- KPI’s בין סגמנטים ומוצרים שונים. למשל, ניתן להשוות בין אחוז הלקוחות מאנגליה שלקחו הלוואות מסוכנות לעומת ארצות הברית או ישראל.

בדרך כלל, אנליזה ראשונה ובסיסית היא רק תחילת התהליך. לרוב לאחר אנליזות כאלה יצוצו שאלות עסקיות חדשות. להלן מספר דוגמאות לאנליזות נוספות:

ההבנה של המשתמשים הפעילים, אלה שהזכרנו בדוגמה הקודמת, היא עדיין מוגבלת מאד. אנחנו לא יודעים כמה זמן הם נשארים פעילים לאחר הקניה הראשונית או כמה כסף לקוח כזה מכניס לארגון וכמה משאבים כדאי להשקיע כדי לגייס לקוח. על מנת לענות על השאלות האלה, ישנם מספר סוגים של ניתוחים, הפופולארים הם ניתוחי נטישת לקוחות ו LTV. בעזרת אנליזות מסוג זה, ניתן גם להשוות אילו מבין שיתופי הפעולה או קמפיינים של פרסום הביאו לקוחות “טובים” יותר. למשל, האם הלקוחות שהגיעו בעקבות הקמפיין ב- Facebook ממשיכים לקנות גם לאחר הקניה הראשונית, או שמא הלקוחות שהגיעו מהשת”פ עם YNET קונים יותר לאורך זמן.

ניסויי AB Testing

ישנם אנליזות שבודקות את האפקטיביות של המוצר עצמו. לדוגמה: חברת סטאראט-אפ בנתה אפליקציה מושקעת עם הרבה פיצ’רים מגניבים אבל מנהל המוצר שם לב שרוב הלקוחות משתמשים רק בפיצ’ר אחד. כדי לבחון האם הבעיה היא בפיצ’רים האחרים או בעיה בסדר הצגתם באפליקציה בעיה ב-UI מנהל המוצר יכול לבקש מהאנליסט לתכנן ניסוי מבוקר שבו יוצגו לשתי קבוצות שונות של משתמשים פיצ’רים בסדר שונה. בתום הניסוי, האנליסט ינתח את הנתונים ויקבע האם אופן הצגת הפיצ’רים השפיע על השימוש בהם או שהבעיה היא בפיצ’רים עצמם. ניסויים מסוג זה נקראים A/B testing.

לפעמים, כאשר הנתונים מאפשרת זאת, האנליסט יכול למצוא לקוחות עם דפוסי התנהלות במוצר שמנהל המוצר לא ידע על קיומם. למשל, בעזרת ניתוח שנקרא Cluster analysis אפשר לזהות קבוצה של לקוחות אשר מגיעים מהר לעמוד הרכישה אך לעומתם ישנה קבוצה אחרת של לקוחות שגולשים הרבה זמן, לא מגיעים לעמוד הרכישה, מתייאשים ויוצאים מהאתר. זיהוי קבוצה מסוג זה יכול לעזור למנהל המוצר למקד את מאמציו בעזרה ללקוחות “המתייאשים” ולהפוך לקוחות אלו ללקוחות קונים שנהנים לחזור לאתר ולרכוש מוצרים.

יש עוד המון אנליזות ושאלות מחקריות שהאנליסט יכול לענות עליהם באמצעות הנתונים. במאמר הזה לא נכנסתי כלל לתחום של ניבוי ופיתוח מוצרים מבוססי דאטה.

Posted by יובל מרנין in deep