בעיקרו של דבר, המודל יכול להבין ו'לדבר רובוט', לתרגם מושגים מופשטים שנלמדו מנתוני אינטרנט עצומים לידע בר-פעולה המודיע להתנהגות הרובוט.
קרדיט תמונה: Google DeepMind
גוגל DeepMind עשתה קפיצת מדרגה גדולה בתחום הבינה המלאכותית עבור רובוטיקה עם הצגת רובוטי רובו 2 (RT-2), מודל חזון-שפת-פעולה ראשון מסוגו. המערכת החדשה מפגינה יכולת חסרת תקדים לתרגם תשומות חזותיות ופקודות שפה טבעית ישירות לפעולות רובוטיות, אפילו עבור מצבים חדשים שמעולם לא נראו במהלך האימון.
כפי שתואר במאמר חדש שפורסם על ידי DeepMind, RT-2 מייצג פריצת דרך המאפשרת לרובוטים ליישם ידע והיגיון ממערכי נתונים גדולים באינטרנט למשימות רובוטיות בעולם האמיתי. המודל נבנה באמצעות ארכיטקטורת שנאי, אותה טכניקה מאחורי מודלים מהפכניים של שפות גדולות כמו GPT-4.
מבחינה היסטורית, הדרך ליצירת רובוטים שימושיים ואוטונומיים הייתה רצופה מכשולים. רובוטים צריכים להבין ולקיים אינטראקציה עם הסביבה שלהם, הישג המצריך הכשרה ממצה על מיליארדי נקודות נתונים המכסים כל אובייקט, משימה ומצב אפשריים. תהליך נרחב זה, זמן רב ויקר, החזיק במידה רבה את החלום של רובוטיקה מעשית בתחום המדע הבדיוני.
מודל שפה חזותי (VLM) שהוכשר מראש על נתונים בקנה מידה אינטרנט לומד מנתוני רובוטיקה RT-1 להפוך ל-RT-2, מודל פעולה חזותית בשפה (VLA) שיכול לשלוט ברובוט.
ה-RT-2 של DeepMind, לעומת זאת, מייצג גישה חדשה ומהפכנית לבעיה זו. ההתקדמות האחרונה חיזקה את יכולות החשיבה של רובוטים, ומאפשרת הנחה של שרשרת מחשבה או ניתוח של בעיות מרובות שלבים. מודלים של ראייה כגון PaLM-E שיפרו את ההבנה שלהם לגבי הסביבה, ודגמים קודמים כמו RT-1 הוכיחו כי רובוטריקים יכולים להקל על למידה בין סוגי רובוטים שונים.
ארכיטקטורת RT-2 והדרכה: אנו מכווננים יחד מודל VLM מאומן מראש על רובוטיקה ונתוני אינטרנט. המודל המתקבל מצלם תמונות של מצלמת רובוט וחוזה ישירות פעולות שהרובוט יבצע.
על ידי מינוף הקורפוס העצום של טקסט, תמונות וסרטונים באינטרנט, RT-2 רוכש הבנה רחבה הרבה יותר של מושגים ומשימות בהשוואה למערכות למידה קודמות של רובוטים הנשענות אך ורק על ניסוי וטעייה פיזיים. לפי DeepMind, זה מאפשר ל-RT-2 להפגין התנהגויות אינטליגנטיות כמו שימוש בהיגיון דדוקטיבי, יישום אנלוגיות והצגת שכל ישר כאשר הוא מתמודד עם אובייקטים או תרחישים לא מוכרים.
לדוגמה, פקודות כמו "הזז בננה לסכום של 2 פלוס 1" אומר שהרובוט זקוק להעברת ידע מאימון מקדים באינטרנט 𝗮𝗻𝗱 המציג כישורים שאינם קיימים בנתוני הרובוטיקה.
הפוטנציאל של RT-2 טמון ביכולת שלו להסתגל במהירות למצבים ולסביבות חדשות. בלמעלה מ-6,000 ניסויים רובוטיים, RT-2 הוכיח את מיומנותו, והשתווה לביצועים של הדגם הקודם, RT-1, במשימות מוכרות וכמעט הכפיל את הביצועים שלו ל-62% בתרחישים לא מוכרים ולא נראים. התפתחות זו מסמלת שרובוטים יכולים כעת ללמוד באופן דומה לבני אדם, ולהעביר מושגים נלמדים למצבים חדשים.
דוגמאות למיומנויות רובוטיות מתעוררות שאינן קיימות בנתוני הרובוטיקה ודורשות העברת ידע מהכשרה מוקדמת באינטרנט.
במהלך הבדיקה, רובוט מצויד ב-RT-2 הצליח לפרש בהצלחה פקודות מופשטות כמו "זרוק את האשפה" מבלי להזדקק לאימון מפורש על זיהוי פריטי אשפה או תנועות לזרוק אותם. הרובוט הצליח להסיק את המשמעות ולבצע את המשימה כראוי, תוך הצגת סוג האינטליגנציה הכללית הניתנת להתאמה שהייתה גביע קדוש בשטח.
ה- RT-2 מייצג שינוי פרדיגמה הרחק מרובוטים הדורשים תכנות מדויק, שלב אחר שלב עבור כל אובייקט ותרחיש בודד לעבר גישות גמישות יותר מבוססות למידה. למרות שעדיין רחוק מלהיות מושלם, היכולת שלו לרכוש שכל ישר והיגיון ללא ניסיון ישיר מובילה אותנו באופן מהותי לעבר האפשרות של רובוטים מסייעים בעלי יכולת רחבה.
שיעורי ההצלחה של הערכות מיומנויות מתעוררות: דגמי ה-RT-2 שלנו עולים על קווי הבסיס של שנאי רובוטיקה (RT-1) ושל אימון חזותי מראש (VC-1).
חברת DeepMind מציינת שנותרה עבודה משמעותית למימוש מטרה זו במלואה, כולל שיפור המהימנות ויכולת ההסתגלות של ההתנהגויות של RT-2. אבל ההשלכות הן עמוקות, מה שמצביע על AI עתידי שיכול להבין את הניואנסים של העולם הפיזי היומיומי שלנו ברמה הרבה יותר עמוקה.
ככל ש-DeepMind מתקדמת בפיתוח מערכות למידה רובוטיות יכולות וכלליות יותר, שאלות סביב פיתוח בינה מלאכותית אחראיות צפויות להתעורר. כיצד נוכל להבטיח בטיחות במהלך ההדרכה והפריסה? האם לרובוטים צריך להיות שקיפות כאשר הם פועלים במצבים חדשים? מהן ההשלכות על תעסוקה כאשר רובוטים מקבלים מיומנויות חדשות?
טיפול בשאלות אלו ידרוש קלט מקולות מגוונים מעבר לעולם הטכנולוגי. אבל מה שנראה ברור הוא שעם RT-2, DeepMind פתחה את הדלת למציאות חדשה שבה רובוטים בעלי AI מתחילים לחדור לבתים, מקומות העבודה וחיי היום-יום שלנו. לטוב ולרע, עידן מכונות החשיבה הפועלות בסביבה הפיזית שלנו עשוי להגיע מוקדם מכפי שאנו מבינים.