יכולות הלמידה המדהימות של זריקת אפס שהפגינו מודלים גדולים (LFMs) כמו ChatGPT ו-GPT-4 עוררו שאלה: האם המודלים הללו יכולים לפקח באופן אוטונומי על התנהגותם או על מודלים אחרים עם התערבות אנושית מינימלית?
כדי לחקור זאת, צוות חוקרי מיקרוסופט מציג את Orca, מודל של 13 מיליארד פרמטרים שלומד עקבות הסבר מורכבות ותהליכי חשיבה שלב אחר שלב מ-GPT-4. גישה חדשנית זו משפרת באופן משמעותי את הביצועים של מודלים מתקדמים הקיימים המותאמים להוראות, ונותנת מענה לאתגרים הקשורים לגיוון המשימות, מורכבות השאילתות וקנה מידה של נתונים.
החוקרים מכירים בכך שצמדי השאילתה והתגובה מ-GPT-4 יכולים לספק הדרכה חשובה למודלים של תלמידים. לכן, הם משפרים את הצמדים הללו על ידי הוספת תגובות מפורטות המציעות הבנה טובה יותר של תהליך ההגיון שננקט על ידי המורים בעת הפקת תשובותיהם. על ידי שילוב עקבות ההסבר הללו, אורקה מציידת מודלים של תלמידים במיומנויות חשיבה והבנה משופרים, ומגשרת ביעילות על הפער בין מורים לתלמידים.
צוות המחקר משתמש באוסף Flan 2022 כדי לשפר עוד יותר את תהליך הלמידה של Orca. הצוות דוגם משימות מהאוסף הנרחב הזה כדי להבטיח שילוב מגוון של אתגרים. לאחר מכן, משימות אלו נדגמות משנה ליצירת הנחיות מורכבות, המשמשות כשאילתות עבור LFMs. גישה זו יוצרת מערך אימונים מגוון ועשיר המאפשר למידה חזקה עבור האורקה, ומאפשרת לו להתמודד עם מגוון רחב של משימות ביעילות.
החוקרים עורכים הערכות מקיפות כדי להעריך את היכולות של Orca, תוך התמקדות ביכולות יצירתיות, חשיבה והבנה. הם משווים את הביצועים של Orca מול קווי בסיס חזקים כמו Text-Davinci-003, ChatGPT, GPT-4 ו-Vicuna. התוצאות מדגימות את עליונותה של Orca על פני דגמים מתקדמים עם כיוון הוראות כמו Vicuna-13B, המראות שיפור של למעלה מ-100% ב-BigBench Hard (BBH). יתר על כן, Orca מציגה ביצועים תחרותיים בבחינות אקדמיות במסגרות אפס-shot, מה שמצביע על הפוטנציאל שלה ליישומים בעולם האמיתי.
ממצאי המחקר מאשרים את הפוטנציאל האדיר של למידה מהסברים שלב אחר שלב בשיפור ביצועי המודל. על ידי שילוב עקבות הסבר מפורטות ומשימות קנה מידה עם הנחיות מורכבות, Orca משיגה התקדמות משמעותית במודלים מותאמים להוראות. גישה זו לא רק מעצימה מודלים של תלמידים לשפר את יכולות החשיבה וההבנה שלהם, אלא גם מאפשרת להם לעלות על מדדים קיימים.
הצגת Orca והיישום המוצלח שלה בשיפור מודלים מותאמים להוראה מציגים סיכויים מלהיבים למחקר עתידי. ככל שה-LFMs ממשיכים להתפתח, מנגנוני למידה בפיקוח עצמי והיכולת לפקח על מודלים אחרים תוך התערבות אנושית מינימלית עשויים לחולל מהפכה בתחום הבינה המלאכותית. על ידי חידוד תהליך הלמידה מעקבות הסבר מורכבות, החוקרים יכולים להמשיך ולשפר את ביצועי המודל על פני משימות שונות, ולקדם התקדמות בעיבוד שפה טבעית.
לסיכום, הצגתו של Orca, מודל של 13 מיליארד פרמטרים שלומד עקבות הסבר מ-GPT-4, מייצגת פריצת דרך משמעותית בקידום מודלים מותאמים להוראות. Orca עולה על המודלים הקיימים באמצעות כוונון הסברים, שינוי קנה מידה של משימות והוראות והערכה קפדנית, המסמנת קפיצת מדרגה משמעותית ביכולות מערכת הבינה המלאכותית. שילוב הסברים שלב אחר שלב בתהליכי הכשרה טומן בחובו הבטחה לניצול מלא של הפוטנציאל של מודלים של בסיס גדול ולהניע התקדמות בעיבוד שפה טבעית.
פרטי המודל המלאים : https://arxiv.org/pdf/2306.02707.pdf