מודל חדש יאפשר לרובוטים לחקות פעולות אנושיות במהירות. מדענים משתמשים במודל הזה כדי לאמן רובוטים כדי שיוכלו לבצע מטלות יומיומיות בדיוק כמו שאנחנו עושים.
האם את או אתה בין אלה שלעתים קרובות חולמים על יום שבו רובוט יעשה עבורך את כל מטלות הבית היומיומיות? צוות חוקרים מאוניברסיטת קרנגי מלון (CMU) גילה כיצד להפוך את החלום שלך למציאות.
במחקר האחרון שלהם, הם הציעו מודל שאפשר להם לאמן רובוטים לבצע משימות ביתיות על ידי הצגת סרטונים של אנשים שעושים פעילויות רגילות בבתיהם, כמו הרמת טלפון, פתיחת מגירה וכו'.
עד כה, מדענים אימנו רובוטים על ידי כך שהם מראים להם פיזית כיצד מתבצעת משימה או אימנו אותם במשך שבועות בסביבה מדומה. שתי השיטות הללו גוזלות זמן ומשאבים רבים ולעתים קרובות נכשלות.
צוות CMU טוען שהדגם המוצע שלהם, Visual-Robotics Bridge (VRB), כיצד יכול לגרום לרובוט ללמוד משימה תוך 25 דקות בלבד, וגם זה מבלי לערב אף אדם או סביבה מדומה.
עבודה זו עשויה לשפר באופן דרסטי את האופן שבו רובוטים מאומנים ו"יכולה לאפשר לרובוטים ללמוד מהכמות העצומה של סרטוני אינטרנט ו-YouTube הזמינים", אמר שיכר בהל, אחד ממחברי המחקר וסטודנט לתואר שלישי בבית הספר למחשבים של CMU מַדָע.
רובוטים למדו לצפות וללמוד
ה- VRB היא גרסה מתקדמת של WHIRL (למידת רובוט חיקוי בטבע), מודל שחוקרים השתמשו בו בעבר כדי לאמן רובוטים.
ההבדל בין WHIRL ל-VRB הוא שהראשון דורש מאדם לבצע משימה מול רובוט בסביבה מסוימת. לאחר צפייה באדם , הרובוט יכול לבצע את המשימה באותה סביבה.
עם זאת, ב-VRB, אין צורך באדם, ועם קצת תרגול, רובוט מתאמן יכול לחקות פעולות אנושיות אפילו בסביבה שונה מזו המוצגת בסרטון.
המודל עובד על אפורדנס, מושג שמסביר את האפשרות של פעולה על אובייקט. מעצבים משתמשים בתקציב כדי להפוך את המוצר לידידותי ואינטואיטיבי למשתמש.
"עבור VRB, תקציבים מגדירים היכן וכיצד עשוי רובוט לקיים אינטראקציה עם אובייקט בהתבסס על התנהגות אנושית. לדוגמה, כאשר רובוט צופה באדם פותח מגירה, הוא מזהה את נקודות המגע - הידית - ואת כיוון התנועה של המגירה - היישר ממקום ההתחלה. לאחר צפייה במספר סרטונים של בני אדם פותחים מגירות, הרובוט יכול לקבוע כיצד לפתוח כל מגירה", מציינים החוקרים .
במהלך המחקר , החוקרים גרמו לראשונה לרובוטים לצפות בכמה סרטונים ממערכי נתונים גדולים כמו Ego4d ו-Epic Kitchen. הנתונים הנרחבים הללו פותחו כדי להכשיר תוכניות בינה מלאכותית ללמוד פעולות אנושיות.
אחר כך הם השתמשו בתקציב כדי לגרום לרובוטים להבין את נקודות המגע והצעדים שהופכים פעולה להשלמת, ולבסוף, הם בדקו שתי פלטפורמות רובוט במספר הגדרות בעולם האמיתי במשך 200 שעות.
שני הרובוטים ביצעו בהצלחה 12 משימות שבני אדם מבצעים כמעט מדי יום בבתיהם, כמו פתיחת פחית מרק, הרמת טלפון, הרמת מכסה, פתיחת דלת, שליפה של מגירה וכו'.
צוות CMU כתב במאמרם, "Vision-Robotics Bridge (VRB) הוא גישה ניתנת להרחבה ללימוד יתרונות שימושיים מנתוני וידאו אנושיים פסיביים ופריסה שלהם בפרדיגמות רבות ושונות של לימוד רובוטים."
בעתיד, הם מקווים להשתמש ב-VRB כדי לאמן רובוטים למשימות מרובות שלבים מורכבות יותר.
אפשר לקרוא את המחקר כאן .
תקציר המחקר: בניית רובוט שיכול להבין וללמוד ליצור אינטראקציה על ידי צפייה בבני אדם עוררה השראה במספר בעיות ראייה. עם זאת, למרות כמה תוצאות מוצלחות על מערכי נתונים סטטיים, עדיין לא ברור כיצד ניתן להשתמש במודלים נוכחיים על רובוט ישירות. במאמר זה, אנו שואפים לגשר על פער זה על ידי מינוף סרטונים של אינטראקציות אנושיות באופן ממוקד בסביבה. תוך שימוש בסרטונים באינטרנט של התנהגות אנושית, אנו מאמנים מודל של עלות חזותית שמעריך היכן וכיצד בסצנה צפוי אדם לקיים אינטראקציה. המבנה של תנאים התנהגותיים אלה מאפשר ישירות לרובוט לבצע משימות מורכבות רבות.
המחקר מראה כיצד לשלב בצורה חלקה את מודל התמונות עם ארבע םרדיגמות למידת רובוטין, כולל למידת חיקוי לא מקוון, חקר, למידה מותנית ופרמטריזציה של פעולה ללמידת חיזוק.