שיטת הקונצנזוס ממלאת תפקיד מפתח בביאור נתונים כאשר יש צורך להבטיח דיוק גבוה ולהפחית סובייקטיביות בתיוג. בהתבסס על הניסיון של Keymakr, הטמעת גישת קונצנזוס עם מספר מומחים במקרים ספציפיים יכולה להפחית את שגיאות ההערות ב-30-50%. קונצנזוס ממזער טעויות, ממכן את בקרת האיכות ומסייע ביצירת מערכי נתונים בנצ'מרק - קריטי במיוחד בתחומים בעלי אחריות גבוהה כמו רפואה ונהיגה אוטונומית.
טטיאנה ורביצקאיה, אדריכלית פתרונות טכניים ב- Keymakr , מספרת על איך שיטה זו עובדת ועל הפרויקטים שבהם היא יושמה בהצלחה.
קונצנזוס מושג על ידי איסוף חוות דעת של מומחים רבים. כאשר מגדירים נתוני "אמת יסוד", חיוני לקבוע סטנדרט מוסכם של דיוק. קונצנזוס הוא קריטי בעת אימון מודל על נתונים סובייקטיביים, כגון צבע וצורה, או כאשר נדרש דיוק גבוה. שיטה זו משמשת באופן פעיל בשלבים המוקדמים כאשר המודל טרם הוכשר על מספיק נתונים או כאשר יש צורך בהכשרה נוספת, במיוחד עבור מקרים ספציפיים (למשל, שיפוטים סובייקטיביים). בנוסף, קונצנזוס הוא קריטי בפרויקטים בקנה מידה גדול, כגון הערת נתונים עבור מכוניות בנהיגה עצמית או ניטור תחבורה, מכיוון שהוא משפר את הדיוק תוך הפחתת שגיאות.
מובילי טכנולוגיה עולמיים כמו גוגל, טסלה, אמזון ומטה משתמשים באופן פעיל בהערות מבוססות קונצנזוס כדי לשפר את ביצועי מודל AI. Google Health, למשל, מיישמת הערות רדיולוגים מרובות על צילומי רנטגן כדי לשפר את דיוק האבחון. טסלה משתמשת בקונצנזוס כדי לתייג נתונים ממצלמות הטייס האוטומטי, ומפחיתה שגיאות אימון בנהיגה אוטונומית. Amazon SageMaker Ground Truth משלבת ביאור קונצנזוס ב-NLP, ראייה ממוחשבת וניתוח תמונות לוויין, בעוד Meta מעסיקה אותו לפרויקטים של זיהוי פנים ואובייקטים.
אחד היישומים הקריטיים ביותר של קונצנזוס הוא ביאור תמונה רפואית לאבחון מחלה. מומחים טוענים כי האבחנות של רדיולוגים יכולות להשתנות עד 20-30%, מה שמשפיע ישירות על תוצאות המטופל. כאשר משתמשים בגישה המבוססת על הסכמה - שבה רדיולוגים מרובים מביאים באופן עצמאי תמונות והקלטות שלהם מצטברות על סמך ניקוד משוקלל של מומחיות - ניתן לשפר את דיוק ההערות בשיעור של עד 40%.
Keymakr מיישם גישה זו באופן פעיל בפרויקטים רפואיים מורכבים. כתוצאה מכך, זה עוזר להבטיח תיוג תמונה מדויק עבור דגמי AI שהוכשרו לזהות פתולוגיות מורכבות. כאן, התהליך נבנה באמצעות פלטפורמת Keylabs - שבה אתה יכול להשוות את דעותיהם של מספר מומחים, לזהות אי התאמות וליצור מערכי נתונים בעלי דיוק גבוה. גישה זו מגדילה באופן משמעותי את מהימנות האלגוריתמים המשמשים באבחון אוטומטי, ומצמצמת את הסיכון לאבחון שגוי.
נכון לעכשיו, Keymakr משתפת פעולה עם SoundAware , חברה המפורסמת טכנולוגיה אוטומטית לזיהוי מוזיקה כדי לזהות שימוש במוזיקה המוגנת בזכויות יוצרים. הצוות סוקר 10,000 כתובות URL כדי להעריך את נוכחותם של חומר המוגן בזכויות יוצרים.
פלטפורמות וידאו מלאות בתוכן שיכול להכיל חומר של המחבר, כגון מוזיקה, סצנות מסרטים או קטעי תוכניות טלוויזיה. בשל כמות הנתונים העצומה והאופי הסובייקטיבי של פרשנות זכויות יוצרים, ניתוח ידני של כל סרטון אינו מעשי.
עם זאת, Keymakr מזהה מקרים שבהם נעשה שימוש בתוכן המוגן בזכויות יוצרים או שונה בדרכים שמערכות אוטומטיות אינן יכולות לזהות עדיין בצורה מהימנה. אלה כוללים פרודיות, אמנות מעריצים והומאז'ים.
כדי לבטל את הסובייקטיביות, Keymakr נוקט בגישה המבוססת על קונצנזוס: כל סרטון מוערך על ידי מספר מומחים עצמאיים שעונים על השאלות הבאות:
בהתבסס על תגובות המומחים, מתקבלת החלטה סופית בנוגע לבעיות פוטנציאליות של זכויות יוצרים.
פרויקטים כאלה חיוניים לאכיפת זכויות יוצרים ולהבטחת בעלי הזכויות יקבלו פיצוי הוגן. בנוסף, תהליך זה מסייע לחברות המתמחות בניטור תוכן לחדד את האלגוריתמים שלהן ולהאיץ את זיהוי החומר המוגן בזכויות יוצרים.
קונצנזוס מיושם באופן נרחב גם באימון בינה מלאכותית עבור כלי רכב אוטונומיים, במיוחד בזיהוי אובייקטים בכבישים (למשל, כלי רכב אחרים, הולכי רגל, תמרורים). לדוגמה, מצלמה עשויה ללכוד הולך רגל בתנועה, ומערים אנושיים עשויים לא להסכים אם האובייקט הוא אדם או צל. קונצנזוס מבטיח תיוג מדויק בתרחישים כאלה.
צוות Keymakr עבד לאחרונה עם ניתוח וידאו שהוקלט במצלמות כדי לעקוב אחר כלי רכב. היה צורך לעקוב אחר תנועת הרכב באמצעות מספר מצלמות בצומת דרכים ולוודא שהמערכת זיהתה נכון את אותו רכב במסגרות שונות.
המצלמות תיעדו אובייקט אחד (מכונית) במספר נקודות. כמה מומחים צפו בסרטון ממצלמות שונות. הם העריכו אם החפץ הזה הוא אותה מכונית, כי יכולים להיות הבדלים בתפיסת המראה (לדוגמה, לפי צבע או מותג). המידע שימש לאימון המודל אם חמישה מפרשים אישרו את זהות האובייקט. אחרת, נתונים כאלה לא היו נכללים במערך הנתונים. זה הפחית את מספר אזעקות השווא והגדיל את הדיוק של מערכות זיהוי רכב, דבר שחשוב למערכות בטיחות עירוניות ומערכות בקרת תנועה אוטומטיות.
ניתן ליישם את אותה גישה לזיהוי אנשים בקניונים או ברחובות. מצלמות לוכדות תנועה על ידי ניתוח, למשל, צבע הבגדים, גובה או מאפיינים אחרים. שיטה זו משמשת ל:
העתיד של ביאור נתונים מבוסס קונצנזוס מבטיח, במיוחד כאשר מודלים של AI הופכים מורכבים יותר ונפח הנתונים גדל. שוק ההערות והתיוגים העולמי צפוי להגיע ל-3.6 מיליארד דולר עד 2027, וחברות רבות מאמצות אימות הערות רב-שכבתי כדי לשפר את איכות הנתונים. מחקרים מראים שמודלים שהוכשרו על מערכי נתונים עם הערת קונצנזוס מפגינים דיוק גבוה משמעותית ממודלים שהוכשרו על תיוג מקור יחיד.
למרות הפיתוח של ביאורים אוטומטיים ובינה מלאכותית מחוללת, הגורם האנושי נותר מפתח: סובייקטיביות ואי הסכמות ביאורים מחייבים אימות רב-שלבי. לפיכך, תמשיך להשתמש בשיטת הקונצנזוס, שתבטיח אמינות נתונים ותפחית שגיאות בתחומים קריטיים כמו מערכות אוטונומיות, רפואה וניתוח פיננסי.