בשל ההתפתחויות האחרונות ב-AI, מודלים בסיסיים של ראייה ממוחשבת עשויים להיות מאומנים מראש באמצעות מערכי נתונים מסיביים. הפקת תכונות ויזואליות למטרות כלליות, או תכונות המתפקדות על פני הפצות תמונות ועבודות ללא כוונון עדין, עשויה לפשט במידה ניכרת את השימוש בתמונות בכל מערכת, ולמודלים אלו יש הבטחה ניכרת בהקשר זה. מחקר זה מדגים שתכונות כאלה עשויות להיווצר על ידי גישות קדם-אימון נוכחיות, במיוחד שיטות בפיקוח עצמי, כאשר מאומנים על מספיק נתונים מאוצרים ממקורות שונים. Meta AI חשפה את DINOv2, שהיא שיטת הלמידה הראשונה בפיקוח עצמי לאימון מודלים של ראייה ממוחשבת המשיגה ביצועים בקנה אחד עם תקן הזהב או טוב יותר.
מאפיינים חזותיים אלה יציבים ומתפקדים היטב על פני תחומים ללא כוונון עדין. הם מיוצרים באמצעות דגמי DINOv2, שניתן להשתמש בהם ישירות עם מסווגים בסיסיים כמו שכבות ליניאריות ביישומי ראייה ממוחשבת שונים. דוגמניות שהוכשרו מראש קיבלו 142 מיליון תמונות ללא שום תוויות או הערות.
מכיוון שהיא אינה דורשת כמויות עצומות של נתונים מתויגים, למידה בפיקוח עצמי, אותה גישה המשמשת לפיתוח מודלים חדישים של שפות גדולות עבור יישומי טקסט, היא דרך רבת עוצמה ורב-תכליתית לאימון מודלים של AI. מודלים שהוכשרו עם תהליך DINOv2 אינם דורשים כל מידע כדי להיות מחובר עם התמונות בערכת האימונים, מה שהופך אותו דומה למערכות קודמות בפיקוח עצמי. תארו לעצמכם שהוא מסוגל ללמוד מכל תמונה נתונה, לא רק מאלה עם קבוצה קבועה מראש של תגים או קבוצה קבועה מראש של טקסט חלופי או כיתוב קבוע מראש.
מאפיינים חיוניים
ה DINOv2 היא גישה חדשה לבניית מודלים של ראייה ממוחשבת עם ביצועים גבוהים תוך שימוש בלמידה בפיקוח עצמי.
ה DINOv2 מספק למידה ללא פיקוח של תכונות חזותיות באיכות גבוהה העשויות לשמש הן למשימות חזותיות ברמת התמונה והן ברמת הפיקסלים. סיווג תמונות, אחזור מופעים, הבנת וידאו, הערכת עומק ומשימות רבות נוספות.
למידה בפיקוח עצמי היא האטרקציה העיקרית כאן מכיוון שהיא מאפשרת ל-DINOv2 לבנות מסגרות גנריות וגמישות למשימות ויישומים שונים של ראייה ממוחשבת. כוונון עדין של המודל אינו נדרש לפני החלתו על תחומים שונים. זוהי פסגת הלמידה ללא פיקוח.
יצירת מערך נתונים בקנה מידה גדול, בעל אוצרות גבוהה ומגוון להכשרת המודלים היא גם חלק בלתי נפרד ממחקר זה. יש 142 מיליון תמונות באיסוף הנתונים.
יישומים יעילים יותר שמקטינים גורמים כמו ניצול זיכרון ודרישות מעבד הם עוד מאמץ אלגוריתמי לייצב את ההדרכה של דגמים גדולים יותר.
חוקרים פרסמו גם את המודלים שהוכשרו מראש עבור DINOv2. נקודות ביקורת לדגמי ViT שפורסמו ב- PyTorch Hub כלולים גם בקוד ההכשרה ובמתכון של דגמי Vision Transformer.
יתרונות
מסווגים ליניאריים פשוטים יכולים לנצל את התכונות בעלות הביצועים הגבוהים שמספק DINOv2.
יכולת ההסתגלות של DINOv2 עשויה לשמש לבניית תשתיות למטרות כלליות עבור יישומי ראייה ממוחשבת שונים.
תכונות מתפקדות הרבה יותר טוב משיטות הערכת עומק מתקדמות בדומיין ומחוץ לדומיין.
השלד נשאר גנרי ללא כוונון עדין, ואותן תכונות עשויות להיות מופעלות במקביל בפעילויות רבות.
משפחת הדגמים DINOv2 מתפקדת בדומה לתכונות בפיקוח חלש (WSL), המהווה שיפור משמעותי בהשוואה למצב הקודם בלמידה בפיקוח עצמי (SSL).
התכונות שנוצרות על ידי דגמי DINOv2 שימושיות כפי שהן, ומדגימות את הביצועים המעולים של הדגמים מחוץ להפצה.
ההסתמכות של DINOv2 על פיקוח עצמי פירושה שהוא יכול ללמוד כל מסד נתונים של תמונות. בנוסף, היא יכולה לקלוט היבטים, כמו הערכות עומק, ששיטת הסטטוס קוו אינה יכולה.
הצורך להסתמך על הערות אנושיות של תמונות הוא אבן נגף מכיוון שהיא מצמצמת את הנתונים הזמינים לאימון מודלים. תמונות יכולות להיות מאתגרות ביותר לסיווג בתחומי יישומים מיוחדים מאוד. לדוגמה, קשה לאמן מודלים של למידת מכונה באמצעות הדמיה סלולרית שכותרתה, מכיוון שצריכים להיות יותר מומחים שיביאו הערות לתאים בקנה מידה הדרוש. כדי להקל על ההשוואה של טיפולים מבוססים עם טיפולים חדשים, למשל, הכשרה בפיקוח עצמי על צילום סלולרי מיקרוסקופי סולל את הדרך למודלים בסיסיים של דימוי תאים, ובהמשך, לגילוי ביולוגי.
השלכת תמונות מיותרות ואיזון מערך הנתונים בין מושגים חיוניים בבניית מערך אימון מקדים בקנה מידה גדול ממקור כזה. הכשרת ארכיטקטורות מורכבות יותר היא חלק חיוני מהמאמץ, וכדי לשפר את הביצועים, מודלים אלה זקוקים לגישה למידע נוסף. עם זאת, לשים יד על פרטים נוספים זה אפשרי רק לפעמים. חוקרים חקרו באמצעות אוסף זמין לציבור של נתוני אינטרנט סרוקים. הם יצרו תהליך לבחירת נתונים משמעותיים בהשראת LASER מכיוון שלא היה מערך נתונים גדול מספיק כדי לעמוד בדרישות.
השלב הבא הוא להשתמש במודל זה כאלמנט בנייה במערכת AI מתוחכמת יותר שיכולה לנהל דיאלוג עם מודלים לשוניים משמעותיים. מערכות בינה מלאכותית מורכבות יכולות לנמק בצורה יסודית יותר לגבי תמונות אם יש להן גישה לעמוד שדרה חזותי המספק מידע עשיר על תמונות ממה שמתאפשר עם ביטוי טקסט בודד.