למה כדאי שכולכם תרפרפו על המאמר שכתבתי? (כלומר – למה כדאי שתפיצו את המאמר הזה לחבריכם)
כי כל פעם שאתם ניגשים לבדיקה רפואית שמחליטה האם אתם "בריאים" או "חולים" – כדאי שתדעו לשאול מהו הערך המנבא החיובי ומהו הערך המנבא השלילי. מדוע? כדי שתבינו, בהינתן שהובחנתם כבריאים/חולים – מה הסיכוי שההבחנה שקיבלתם באמת מתארת את המציאות.
ביום שבו תצטרכו להבין את זה (וזה יגיע), כדאי שתזכרו את המאמר הזה – ותקראו אותו טוב (בניגוד לריפרוף הראשוני שבו אתם בטח תקראו אותו כעת).
בפוסט שלפניכם אני מתחיל מלהסביר (לאט לאט) מה זה "רגישות", "סגוליות" ואז עובר להסביר מה זה "ערך מנבא חיובי ושלילי". אני מראה כיצד השתמשתי בכל המונחים הללו כדי לחלץ את התשובה לשאלה: "בהינתן שאישה עברה ממוגרפיה והובחנה כחולת סרטן השד – מהי ההסתברות שבאמת יש לה סרטן השד?" (התשובה מופיעה בסוף הפוסט)
ונתחיל….
רגישות סגוליות וכו'
נאמר שישנה מחלה כלשהי שאנו רוצים לזהות באמצעות בדיקה חדשה.
ניקח קבוצה של אנשים מהאוכלוסייה, ובאמצעות בדיקה שתמיד צודקת, אנו יודעים באופן וודאי של- 10 מהם יש את המחלה הזו. כך תראה הטבלה:
האמת |
||||
בריא |
חולה |
סה"כ |
||
הבדיקה |
אובחן כחולה |
|||
אובחן כבריא |
||||
סה"כ |
10 |
? |
כעת, היינו רוצים להשוות כמה שיטות חדשות לבדוק האם למישהו יש את המחלה או לא. כדי להעריך עד כמה השיטות הללו טובות, אנחנו נלמד שני מדדים לעשות זאת: רגישות וסגוליות.
רגישות (sensitivity) מודדת מהו אחוז האנשים החולים שהצלחנו לזהות כחולים.
כך לדוגמא, נניח שיש לנו רופא פאסימי אשר רוצה שלא לפספס אף אדם חולה. השיטה שלו היא שכל אדם שהוא בודק מיד מוכרז כחולה. במצב כזה, הרגישות של הרופא הפאסימי תהיה 100%. כי הוא בהכרח יצליח לזהות את כל החולים כחולים. (טיפ לאיך לזכור זאת: היא לחשוב על אמא שיש לה רגישות מיוחדת למתי אנחנו חולים)
עם זאת, השיטה הזו איננה בהכרח מוצלחת. מדוע לא? כי הרופא הפאסימי שלנו גם יאבחן בטעות אנשים בריאים בתור אנשים חולים. עד כמה זה חמור? תלוי באחוז החולים מול הבריאים באוכלוסייה. בואו נאמר שיש לנו מחלה נדירה כלשהי. כזו שפוגעת ב-1 מכל 100 איש. ושהמדגם שלקחנו מהאוכלוסייה היה של 1000 איש. אז הטבלה עכשיו תראה כך:
האמת |
||||
בריא |
חולה |
סה"כ |
||
הבדיקה |
אובחן כחולה |
|||
אובחן כבריא |
||||
סה"כ |
990 |
10 |
1000 |
ויצא שבמקביל לזיהוי נכון של 10 מתוך 10 חולים, הרופא הפאסימי שלנו גם זיהה בשוגג 990 אנשים כחולים, למרות שהם בריאים. מכאן אני למדים שיש צורך במדד משלים למדד הרגישות כדי להבין את ההצלחה של כלי המדידה שלנו – ואת זה אנו מכנים סגוליות.
סגוליות (specificity או "ספציפיות") מודדת מהו אחוז האנשים הבריאים שהצלחנו לזהות כבריאים.
כך שבמקרה של הרופא הפאסימי, הוא לא הצליח לזהות אף איש בריא מבין האנשים הבריאים, ולכן הסגוליות שלו היא 0%. לעומתו, אם היינו פונים לרופא אופטימי (כזה שמכריז על כל אדם כבריא), אזי הסגוליות שלו תהיה מאד טובה – 100%. אבל מצד שני, הרגישות שלו תהיה 0% (שכן הוא לעולם לא יצליח לזהות אף אדם חולה כחולה).
(טיפ לאיך לזכור זאת: אפשר לחשוב על חבר טוב שיש לו את הסגולה תמיד לחפש את מה שחיובי וטוב ובריא אצל אנשים)
כעת אחרי שלמדנו על רגישות וסגוליות, נוסיף עוד נתון בטבלה. נאמר שהבדיקה החדשה שלנו מצליחה לזהות תשעה מתוך עשרת החולים, אז:
האמת |
||||
בריא |
חולה |
סה"כ |
||
הבדיקה |
אובחן כחולה |
9 |
||
אובחן כבריא |
||||
סה"כ |
990 |
10 |
1000 |
מה נאמר שהרגישות של הבדיקה שלנו?
Sensitivity = 9/10 = 0.9 =90%
ומהי הסגוליות של הבדיקה שלנו? מהטבלה הנוכחית אי אפשר לדעת. נאמר שהבדיקה מצליחה לזהות נכון 792 מתוך האנשים הבריאים, אז נקבל ש:
Specificity = 792/990 = 0.8 = 80%
ונוכל לעדכן את הטבלה כך:
האמת |
||||
בריא |
חולה |
סה"כ |
||
הבדיקה |
אובחן כחולה |
9 |
||
אובחן כבריא |
792 |
|||
סה"כ |
990 |
10 |
1000 |
אז על הבדיקה החדשה שלנו אנו יודעים שהיא מצליחה לזהות נכון 90% מהאנשים החולים, ו-80% מהאנשים הבריאים. האם זו בדיקה טובה או לא? באופן טיבעי, היינו רוצים בדיקה שתצליח לזהות 100% מהחולים ו- 100% מהבריאים. אבל לפעמים בדיקות כאלה הן פולשניות, או יקרות. ובמצבים כאלה היינו מעדיפים להסתפק בבדיקה פשוטה/זולה/בטוחה יותר – אפילו שאחוזי הדיוק שלה פחות טובים מהבדיקה המושלמת (את הבדיקה המושלמת, זו שמגלה את ה"אמת", או הכי קרוב לאמת שאנו יודעים עליה, אנו מכנים גם בתור "סטנדרט הזהב" או gold standard).
החישוב של רגישות וסגוליות מאפשר לנו להשוות בין שיטות שונות ולזהות שיטות שהן בהכרח יותר טובות (כאלה שעבורן מתקבל שהן הרגישות והן הסגוליות שלהן יותר גבוהות), או שיטות שמציאות אלטרנטיבות (נאמר, יותר רגישות, אבל פחות סגוליות – או ההיפך). ההחלטה מה עדיף בבדיקה, רגישות או סגוליות גבוהים, תלויה בהקשר. ויש מצבים שבהם הבחירה בין השניים אינה נתונה להחלטתנו.
כעת נאמר שאנחנו אחד מה-1000 אנשים הללו ושאנו מגיעים לרופא והוא משתמש בבדיקה שמתוארת בטבלה כדי לבדוק אותנו עבור המחלה הזו (ההחלטה לבצע את הבדיקה היא ללא סיבה מיוחדת, אקראית לחלוטין). הבדיקה טוענת שיש לנו את המחלה. האם זה אומר שיש לנו את המחלה? לא בהכרח. בשביל לדעת מה הסיכוי (חשש) שבאמת יש לנו את המחלה, אנו צריכים להשתמש במדד חדש בשם ערך מנבא חיובי.
ערך ניבוי חיובי (positive predictive value או בקיצור PPV) הוא אחוז האנשים שבאמת חולים מתוך כלל האנשים שאובחנו כחולים על ידי הבדיקה. כדי לחשב את המדד הזה בטבלה שלנו, עלינו קודם למלא ולזהות כמה אנשים בריאים אובחנו כחולים ואז לחשב כמה סך הכל אובחנו כחולים. אז נמלא את הטבלה ונקבל:
האמת |
||||
בריא |
חולה |
סה"כ |
||
הבדיקה |
אובחן כחולה |
198 |
9 |
207 |
אובחן כבריא |
792 |
|||
סה"כ |
990 |
10 |
1000 |
מכאן שערך הניבוי החיובי שלנו הוא:
PPV = 9/207 = 0.043 = 4.3%
זה אומר שבגלל שלבדיקה שלנו יש סגוליות שהיא לא 100%, ובגלל שהמחלה שלנו נדירה, מתקבל שישנם המון אנשים שאובחנו כחולים למרות שהם אינם חולים. למעשה, גם אם תאובחן כחולה, הסיכוי שאתה באמת חולה הוא רק 4.3%. וכדי לדעות בוודאות, צריך להשתמש בבדיקה עם יכולת איבחון טובה יותר.
כעת, מה היה קורה אילו הבדיקה הייתה מכריזה עלינו כעל בריאים. מה הסיכוי שאנו באמת בריאים? לשם כך נחשב את יכולת הניבוי השלילי (לא שלהיות בריא זה שלילי. אבל התוצאה לגבי קיום המחלה יצאה שלילית)
ערך ניבוי שלילי (negative predictive value או בקיצור NPV) הוא אחוז האנשים שבאמת בריאים מתוך כלל האנשים שאובחנו כבריאים על ידי הבדיקה. כדי לחשב את המדד הזה בטבלה שלנו, עלינו קודם למלא ולזהות כמה אנשים חולים אובחנו כבריאים ואז לחשב כמה סך הכל אובחנו כבריאים. אז נמלא את הטבלה ונקבל:
האמת |
||||
בריא |
חולה |
סה"כ |
||
הבדיקה |
אובחן כחולה |
198 |
9 |
207 |
אובחן כבריא |
792 |
1 |
793 |
|
סה"כ |
990 |
10 |
1000 |
מכאן שערך הניבוי השלילי שלנו הוא:
NPV = 792/793 = = 0.99873 = 99.87%
זה אומר שלמרות שהסגוליות של הבדיקה שלנו היא בסך הכל 80%, עדיין – אם אובחנו כבריאים אז רוב הסיכויים הם שאנו בריאים (מעל ל- 99%). מדוע זה קורה? משום שהסיכוי שנהיה בריאים הוא שילוב של עד כמה המחלה נדירה עם עד כמה הבדיקה מצליחה לזהות אנשים חולים שהם חולים.
לצורך סיכום הדיון נוסיף עוד שני מונחים אשר משלימים את הסגוליות והרגישות:
תוצאה חיובית מדומה (false positive) – זה אחוז הבריאים שאובחנו בטעות כחולים. התוצאה הזו מעניינת את קופות החולים – כי זה אומר כמה אנשים שולחים לבדיקות נוספות (שעולות כסף), מבלי שהיה להם מחלה אמיתית. במקרה שלנו זה:
FP = 198/990 = 1-specificity = 0.2
זהו אחוז האנשים מתוך הבריאים אשר ידרשו, ללא צורך, בבדיקות המשך יקרות/פולשניות.
תוצאה שלילי מדומה (false negative) – זה אחוז החולים שאובחנו בטעות כבריאים. המספר הזה מעניין את (לדוגמא) חברות הביטוח – כי זה יכול לומר כמה אנשים צפויים לבוא ולתבוע אותם על כך שהרופא לא זיהה את המחלה שלהם בזמן. במקרה שלנו זה:
FN = 1/10 = 1-sensitivity = 0.1
זהו אחוז האנשים מתוך החולים אשר לא יגלו שהם חולים בזמן מוקדם. ועבורם המחלה תתפתח, ועלולה להתגלות רק בשלב מאוחר ומתקדם יותר (אלו האנשים שאחר כך עשויים לתבוע את מערכת הבריאות על השגיאה בזיהוי מחלתם).
חילוץ ערכים עבור בדיקת ממוגרפיה של נשים
ב-18 לאוקטובר 2011 פורסם ב- Annals of Internal Medicine
מחקר עוקבה בשם "Comparative Effectiveness of Digital Versus Film-Screen Mammography in Community Practice in the United States" (http://www.ncbi.nlm.nih.gov/pubmed/22007043)
במחקר הזה הוצגו נתונים על הצלחת הבדיקה הממוגרפית לזהות את סרטן השד (טבלה 2)
הנתונים כללו את המספרים הבאים:
- עבור 10000 נבדקים
- ל – 45 היה סרטן השד
- ל- 38 הצליחו לגלות את הסרטן באמצעות ממוגרפיה
- ל – 7 לא הצליחו
- הרגישות היא 84%
- הסגוליות היא 90.4%
(קחו בחשבון שהמחקר המקורי הסתמך על מאות אלפי נשים, 329,261 אם נדייק. המספרים שאני מביא כאן הם רק מקור אחד, לא מתוקנן של המספרים הללו. יש עוד מה לדעת בתחום – אבל לשם הפשטות, בואו נראה מה אפשר לעשות עם המספרים, האמיתיים, הללו)
השתמשו בנתונים הללו כדי:
1) לבנות טבלה של המחקר
2) לחלץ את ה- PPV וה- NPV
מהנתונים אפשר למלא את הטבלה הבאה באופן ישיר:
(האם יש סרטן השד) האמת |
||||
בריא |
חולה |
סה"כ |
||
הבדיקה (ממוגרפיה) |
אובחן כחולה |
38 |
||
אובחן כבריא |
7 |
|||
סה"כ |
45 |
10000 |
מכאן שאת מספר הבריאים באמת אפשר לחלץ בקלות על ידי:
10000-45=9955
מתוך זה ידוע לנו שהסגוליות היא 90.4% לכן:
Specificity = 90.4% = 0.904 = (# of healthy women diagnosted as being healthy) / (# of healthy women)
-> (# of healthy women diagnosted as being healthy) = 0.904*9955 = 8999
כאן אפשר למלא את הטבלה ונקבל ש:
(האם יש סרטן השד) האמת |
||||
בריא |
חולה |
סה"כ |
||
הבדיקה (ממוגרפיה) |
אובחן כחולה |
38 |
||
אובחן כבריא |
8999 |
7 |
||
סה"כ |
9955 |
45 |
10000 |
מה שאומר שיש לנו מספיק נתונים בשביל למלא את הטבלה לחלוטין ונקבל ש:
(האם יש סרטן השד) האמת |
||||
בריא |
חולה |
סה"כ |
||
הבדיקה (ממוגרפיה) |
אובחן כחולה |
956 |
38 |
994 |
אובחן כבריא |
8999 |
7 |
9006 |
|
סה"כ |
9955 |
45 |
10000 |
וכעת נוכל לחשב את ה PPV וה- NPV:
PPV = (# of women diagnosed as having breasy cancer) / (# of sick women diagnosed as having breasy cancer) = 38/994 = 0.0382=3.82%
NPV = (# of women diagnosed as NOT having breasy cancer) / (# of healthy women NOT diagnosed as having breasy cancer) = 8999/9006 = 0.99922= 99.922%
מסקנה:
- רק ל- 3.8% מהנשים שממוגרפיה מגלה שיש להם סרטן – אכן יש להם סרטן
- ל- 99.9% מהנשים שהממוגרפיה טוענת שהן בריאות – הן אכן בריאות
הערת אגב:
* אני מזכיר – אינני רופא, והכתוב במאמר הזה (ובבלוג הזה באופן כללי), איננו מהווה תחליף לייעוץ רפואי, או יומרה רפואית מכל סוג שהוא. אתם אחראיים על בריאותכם – תטפלו בה!
* הנושא של סגולריות ורגישות קשור הדוקות לסוגיה של הסתברות מותנה. כמו כן, אני לא מתייחס לנושא של אמידה, רווחי סמך, או הסקה לגבי הערכים הללו. אלו סוגיות מתקדמות יותר שנעסוק בהן (אולי) בהזדמנות אחרת…
שלום טל
מצאתי ענין רב בבלוג- ובהסברים המצויינים
הרשה נא להעיר:
1. מססי הרגישות והסגוליות הנם מדדים של כישורי התהליך האבחנתי באוכלוסיה מאובחנת (זהוי בריאים מתוך הבריאים וחולים מתוך החולים) אלו אינם מדדים המצביעים על יכולת האבחון כמובן (המדדים לאבחון על ידי תהליך אבחנתי הנם יחס הנבוי החיובי ויחס הנבוי השלילי)
2. אולי כדאי להתיחס גם לאינדקס ע"ש יודן (שהוא המדד שבודקים למעשה באנליזה של ROC )
3. אולי כדאי להתיחס למדד PSI שהו המדד החשוב בכל תהליך אבחנתי
מאמר שכתבנו בנושא
New patient-oriented summary measure of net total gain in certainty for dichotomous diagnostic tests
Shai Linn and Peter D Grunau
http://www.epi-perspectives.com/content/3/1/11
תודה
שי לין, אוניברסיטת חיפה
תודה לך על השיתוף והרחבת הידע 🙂
הטכניקה הזאת טובה בודאי להשוואת אמצעים אבחוניים וכדומה. באיזו מידה צריך או יכול אדם יחיד להשתמש בה? תלוי. תלוי עד כמה הוא דומה לקבוצת המדגם ששמשה לאמידת 2 הערכים, תלוי אם סולם הערכים האישי שלו דומה לזה שמשתמע מן המערכת ההסתברותית של מי שתכנן את המחקר ההשוואתי. תלוי מה העלויות הכספיות. תלוי מה העלויות הבלתי-כספיות.
מערכות דומות משמשות בעיקר רשויות ביטוח רפואי לצורך השוואת עלויות טיפולים שונים. איך זה נוגע למי שמועמד לאחד הטיפולים? שאלה חשובה בלי תשובה טובה.
שלום,
מעניין מאד. אולי כדאי להכניס לבגרות במתמטיקה במקום דברים פחות שימושיים?
בכל אופן חבל שלא קשרת את נושא הסטטיסטיקה הרפאוית ל EBM ושיטות המחקר שלהם, או לחילופין מסביר מה הבעיתיות במחקר הרפואי הסטטיסטי ( אוכלוסיה מוטה, וכיו"ב).
בכל מקרה – כל הכבוד!([email protected])
היי אלדד,
תודה על התגובה החמה.
אני מסכים שזה דבר מעולה ללמד בבגרות. בכלל, אפידמיולוגיה תהיה דבר מעולה ללמד בתיכון. אבל לצערי אני לא רואה את זה כמשהו שיקרה בעתיד הנראה לעין (אבל מי יודע).
לגבי EBM, אני למעשה מדבר על זה בצורה כזו או אחרת בהרבה פוסטים. ואני מסכים איתך שזה נושא מאד חשוב. אבל אתה יודע, מגבלות הזמן וכאלה 🙂
בברכה,
טל
סתם הערה לידע כללי (משום מה לא ציינת את זה):
לפעמים משתמשים במונחים "שלמות" ו"נאותות" במקום "רגישות" ו"סגוליות".
היי נעם,
לא הכרתי את המונחים הללו – תודה על הרחבת האופקים.
"קחו בחשבון שהמחקר המקורי הסתמך על מאות אלפי אנשים…"
יכול להיות שהיו מקבלים תוצאות יותר טובות אם היו מחפשים סרטן שד אצל נשים בלבד ?
תיקון קל נדרש.
צודק תומר. תיקנתי – תודה.
מעולה ומובן גם לטרמפיסטים שכמוני.
להרחבה ולדגומאות נוספות אפשר לעיין גם בספר חשיבה ביקורתית (ורדה ליברמן ועמוס טברסקי) המצוי כאן, הקישור הוא לעמוד 115 שם מטופל נושא זה: http://books.google.com/books?id=KUUniSFwlasC&lpg=PP1&dq=%D7%A2%D7%9E%D7%95%D7%A1%20%D7%98%D7%91%D7%A8%D7%A1%D7%A7%D7%99&hl=iw&pg=PA115#v=onepage&q&f=false
תודה רבה משה – גם על הפירגון, ובעיקר על הקישור.
אני מנבא שתחליף את המילה "מנבה" במילה "מנבא", וזאת באופן החיובי ביותר שאפשר.
תודה חנן – מאד רגיש מצידך.
כשמדובר באבחון מחלות יש הנחה מובנית שאבחון מוקדם מעלה את הסכוי להחלמה. מסתבר שזה לא תמיד המצב, וביחוד בסרטן שד. מספר הFP שמקבלות טיפולים כואבים קשים ומסכני חיים לעומת האחוזים הנמוכים של הגלוי המוקדם שבאמת מציל מישהי היו השיקול להקטין את תדירות הממוגרפיה אצל נשים.
היי רז,
מה שאתה מתאר נשמע הגיוני לחלוטין. שמח שקפצת לבקר פה 🙂