#MiniGPT-4
מודל GPT-4 הוא מודל השפה הגדולה האחרונה ש-OpenAI פרסמה.
האופי הרב-מודאלי שלו מייחד אותו מכל ה-LLMs שהוצגו בעבר. ארכיטקטורת השנאים של GPT היא הטכנולוגיה שמאחורי ה-ChatGPT הידועה שמאפשרת לו לחקות בני אדם על ידי הבנת שפה טבעית טובה במיוחד.מודל GPT-4 הראה ביצועים עצומים בפתרון משימות כמו הפקת תיאורי תמונה מפורטים ומדויקים, הסבר תופעות ויזואליות חריגות, פיתוח אתרים באמצעות הוראות טקסט בכתב יד, וכן הלאה. חלק מהמשתמשים אפילו השתמשו בו כדי לבנות משחקי וידאו ותוספי Chrome וכדי להסביר שאלות חשיבה מסובכות.
הסיבה מאחורי הביצועים יוצאי הדופן של GPT-4 אינה מובנת במלואה.
מחברי מאמר מחקר שפורסם לאחרונה מאמינים כי היכולות המתקדמות של GPT-4 עשויות לנבוע משימוש במודל שפה גדול יותר מתקדם. מחקר קודם הראה כיצד LLMs מורכבים מפוטנציאל גדול, אשר לרוב אינו קיים בדגמים קטנים יותר.
המחברים הציעו אפוא מודל חדש בשם MiniGPT-4 כדי לחקור את ההשערה בפירוט. MiniGPT-4 הוא מודל קוד פתוח המסוגל לבצע משימות מורכבות בשפת הראייה בדיוק כמו GPT-4.
פותח על ידי צוות של Ph.D. סטודנטים מאוניברסיטת המלך עבדאללה למדע וטכנולוגיה, ערב הסעודית, MiniGPT-4 מורכב מיכולות דומות לאלו המתוארות על ידי GPT-4, כגון יצירת תיאור תמונה מפורט ויצירת אתר מתוך טיוטות בכתב יד.
מודל MiniGPT-4 משתמש ב-LLM מתקדם בשם Vicuna כמפענח השפה, אשר בנוי על LLaMA ומדווח כי הוא משיג 90% מהאיכות של ChatGPT כפי שהוערכה על ידי GPT-4. MiniGPT-4 השתמש ברכיב הראייה המאומנת מראש של BLIP-2 (אימון מקדים של שפה-תמונה) והוסיף שכבת הקרנה אחת כדי ליישר את התכונות החזותיות המקודדות עם מודל השפה של Vicuna על ידי הקפאת כל שאר רכיבי הראייה והשפה.
מודל MiniGPT-4 הראה תוצאות מצוינות כאשר התבקש לזהות בעיות מקלט תמונה. הוא סיפק פתרון המבוסס על קלט תמונה שסופק על צמח חולה על ידי משתמש עם הנחיה ששואלת מה לא בסדר בצמח. היא אפילו גילתה תוכן יוצא דופן בתמונה, כתבה פרסומות למוצר, יצרה מתכונים מפורטים על ידי התבוננות בתמונות אוכל טעימות, המציאה שירי ראפ בהשראת תמונות, ושלפה עובדות על אנשים, סרטים או אמנות ישירות מתמונות.
לפי המחקר שלהם, הצוות הזכיר שאימון שכבת הקרנה אחת יכול ליישר ביעילות את התכונות החזותיות עם ה-LLM. MiniGPT-4 דורש הכשרה של 10 שעות בלבד על 4 A100 GPUs. כמו כן, הצוות שיתף כיצד פיתוח מודל MiniGPT-4 בעל ביצועים גבוהים קשה רק על ידי יישור תכונות חזותיות עם LLMs באמצעות צמדי תמונה-טקסט גולמיים ממערכי נתונים ציבוריים, מכיוון שהדבר עלול לגרום לביטויים חוזרים או משפטים מפוצלים. כדי להתגבר על מגבלה זו, יש לאמן את MiniGPT-4 באמצעות מערך נתונים איכותי ומיושר היטב, ובכך לשפר את השימושיות של המודל על ידי יצירת פלטי שפה טבעיים וקוהרנטיים יותר.
מודל MiniGPT-4 נראה כמו פיתוח מבטיח בשל יכולות הדור הרב-מודאלי המדהימות שלו. אחת התכונות החשובות ביותר היא היעילות החישובית הגבוהה שלו והעובדה שהוא דורש רק כ-5 מיליון זוגות תמונה-טקסט מיושרים לאימון שכבת הקרנה. הקוד, המודל שהוכשר מראש ומערך הנתונים שנאסף זמינים
קראו את :
Enhancing Vision-Language Understanding with
Advanced Large Language Models