בשנים האחרונות נראתה התפתחות מדהימה של בינה מלאכותית (AI), במיוחד בעיבוד שפה טבעית.
נוסחה פשוטה היא לב ההתקדמות המשמעותית ביותר:
קח ארכיטקטורה בסיסית מבוססת שנאים.
הגדל את העומק והרוחב של הפרמטרים.
השתמש בסט אימונים גדול בהרבה.
למרות יכולתם המופגנת להתאים לנתוני אימון ולהכליל בהתאם למטרה המתוכנתת שלהם, הציבור הרחב צריך להיות פעיל יותר בקבלת מודלים. הסיבה העיקרית היא כאשר התחזיות של המודל אינן תואמות את היישום בפועל.
מודל ChatGPT הוא דוגמה מצוינת לסוג זה של גישה בסגנון עוזר, והעלייה המטאורית שלו בפופולריות עשויה להיות מיוחסת לא רק לכישורים המרשימים שהיא הראתה בהקשרים שונים אלא גם לידידותיות המשתמש שלו. כדי להתאים את התחזיות של המודל למציאות, אנו נותנים לו חיזוק למידה ממשוב אנושי (RLHF) ודוגמאות שנוצרו על ידי אדם של היישום הרצוי. כמדריך ב-RLHF, האדם מחלק שבחים או ביקורת כמשוב.
נתונים סינתטיים הכוללים הוראות שנוצרו אוטומטית על ידי מודלים של שפה שאילתה מהווים את מערכי הנתונים הזמינים ביותר לציבור. לרוע המזל, המורכבות, המקוריות והאיכות של מערכי הנתונים הללו מוגבלים על ידי הסתמכותם על קבוצה קבועה של סוגי הוראות מותרים. אפילו עם גודל נרחב והכשרה מוקדמת, מודלים לא יצליחו לייצר עוזרי AI יעילים, מועילים ובטוחים אם חסר להם רוחב ואיכות נתונים מספקים. מערך הנתונים של OpenAssistant Conversations הוצג והפך זמין לציבור כדי לדמוקרטיזציה של חקר הבעיה של יישור מודלים של שפות גדולות. הפצת מידע זה לקהילה האקדמית נובעת מקמפיין רחב היקף של מיקור המונים ופתוח, שמטרתו לעודד לימודים מגוונים יותר בתחום חשוב זה.
חוקרים מעריכים את מערך הנתונים ביסודיות, תוך התחשבות בחששות אתיים ובטיחותיים. החוקרים גם מכווננים ומפיצים מודלים רבים של סיוע והעדפות כדי לקדם ולספק גישה ולימוד בתחום זה. כתוצאה מפתיחות זו, החפצים המשוחררים עשויים להשתפר באמצעות מחזורים איטרטיביים, שיובילו לאווירת מחקר שיתופית ומסבירת פנים יותר.
איסוף נתונים ומבנהו
עץ שיחה (CT) הוא מבנה הנתונים העיקרי, כאשר הצמתים שלו עומדים בפני חילופי שיחה בודדים. צומת השורש של ה-CT מייצג את ההנחיה הראשונית של הפרומפטר. חוקרים נתנו שמות לתפקידי מנחה הדיון והעוזר כדי לספק בהירות. משתמש אנושי או מחשב יכולים לשחק את התפקידים של מנחה ועוזר. בגלל זה, אנחנו יכולים לשמור "משתמשים" עבור העוזרים האנושיים שלנו.
יותר מ-13,000 אנשים תרמו לפרויקט מיקור המונים כדי לאסוף את הנתונים ששימשו ליצירת מערך הנתונים של OpenAssistant Conversations. לאסוף הנתונים נעשה שימוש בממשק של אפליקציית אינטרנט5. זה פישט את ההליך לחמישה שלבים: הנחיה, תיוג הנחיות, הוספת הודעות תשובה כשודר או עוזר, תיוג תשובות וציון תשובות עוזר. ניהול תוכן וסינון דואר זבל היו חלק בלתי נפרד מזרימת העבודה של ההערות ששימשה לאצור את מערך הנתונים, מה שמבטיח את האיכות והאבטחה הגבוהים שלו.
עצי הודעות כלולים באיסוף נתונים זה. כל עץ הודעות מתחיל בהודעת הנחיה בשורש שלו ויכול להתרחב כך שיכלול כל מספר של הודעות צאצא המייצגות תגובות. "Assistant" ו-"Prompter" הם ערכים אפשריים עבור תכונת התפקיד של הודעה. מהנחיה לצומת עלים, האחריות של "מנחה" ו"עוזר" נכבות באופן קבוע.
מגבלות
בעיות עם מערך הנתונים כוללות חלוקה לא שוויונית של תרומות בין משתמשים, מידע שעלול להיות מסוכן, והסובייקטיביות הטבועה של הכותבים ודעות קדומות תרבותיות.
בשל שקיפות המחקר, יהיו קשיים חדשים בהסרת הטיות כלשהן מהנתונים. כותבים מרקעים סוציו-אקונומיים ותרבותיים שונים מאכלסים את האוסף.
הערות ממשתמשים פעילים יותר נוטות להטות את מערך הנתונים כך שישקף את העדפותיהם של אותם משתמשים. כתוצאה מכך, למערך הנתונים עשוי להיות חסר מגוון הדעות שנבע מהתפלגות אחידה יותר של תרומות.
אמנם ננקטו אמצעים לאיתור הערות פוגעניות ולהסרתן ממערך הנתונים, אך המערכת חייבת להיות מאובטחת לחלוטין. עדיין יש סיכוי שמערך הנתונים מכיל נתונים רגישים שעלולים לגרום נזק.
ההכרה בכך שהליכי היישור הקיימים אינם ללא רבב ויכולים להגביר הטיות מסוימות היא משמעותית מכיוון שהיישור של LLMs הוא מרכיב בסיסי במחקר בינה מלאכותית.
חוקרים מבינים שלמודלים שפה מתוחכמים מאוד עשויים להיות השפעות מרחיקות לכת על החברה. כתוצאה מכך, הם חשים חיוני לתמוך בפתיחות ובדאגות אתיות בזמן יצירה והטמעה של מודלים כאלה. מודלים אלה עלולים ליצור מידע לא מדויק על אנשים, מיקומים או עובדות (הידוע לפעמים בשם "הזיות"). בנוסף ליצירת מידע מזיק או שפל, LLMs יכולים גם להפר את הגבולות שנקבעו על ידי המשתמשים שלהם. למרות שטכניקות כמו RLHF יכולות לעזור עם כמה חסרונות, הן עלולות להחמיר אחרות. כדי לעורר את חקר היישור ב-LLMs, החוקרים סיפקו את מערך הנתונים של OpenAssistant Conversations.
ניתן למצוא כאן מגוון דגמים והנתונים הקשורים אליהם : https://huggingface.co/datasets/OpenAssistant/oasst1
מודל ChatGPT מראה כי התאמת מודלים של שפה גדולה (LLMs) להעדפות אנושיות משפרת משמעותית את השימושיות ומניעה אימוץ מהיר. כדי להפוך את ה-LLM לנגישים ושימושיים יותר במגוון רחב של תחומים, פותחו גישות יישור כמו כוונון עדין מפוקח (SFT) ולמידת חיזוק ממשוב אנושי (RLHF).
טכניקות יישור מתקדמות כמו RLHF דורשות נתוני משוב אנושי באיכות גבוהה, אך הנתונים הללו יקרים ובדרך כלל נשמרים בסוד. חוקרים פרסמו את OpenAssistant Conversations, קורפוס צ'אט בסגנון עוזרים שנוצר על ידי אנוש ומוסרים על ידי אדם, כדי לדמוקרטיזציה של מחקר על יישור בקנה מידה גדול.