top of page

Visual ChatGPT: דיבור, ציור ועריכה עם Visual Foundation Models כתבת : אור מנור , 16.04.2023

  • תמונת הסופר/ת: Or Manor
    Or Manor
  • 16 באפר׳ 2023
  • זמן קריאה 1 דקות

מודל ChatGPT מושך עניין חוצה תחומים מכיוון שהוא מספק ממשק שפה עם יכולת שיחה ייחודית ויכולות חשיבה על פני תחומים רבים. עם זאת, מכיוון ש-ChatGPT מאומן בשפות, הוא אינו מסוגל כרגע לעבד או ליצור תמונות מהעולם החזותי.


יחד עם זאת, מודלים של Visual Foundation, כגון Visual Transformers או Stable Diffusion, למרות שמראים הבנה ויזואלית ויכולות יצירה נהדרות, הם רק מומחים למשימות ספציפיות עם כניסות ויציאות קבועות בסיבוב אחד.



לשם כך, נבנתה מערכת בשם \textbf{Visual ChatGPT}, המשלבת מודלים שונים של Visual Foundation, כדי לאפשר למשתמש ליצור אינטראקציה עם ChatGPT על ידי :

  1. שליחה וקבלה לא רק של שפות אלא גם תמונות

  2. מתן שאלות ויזואליות מורכבות או ויזואליות הוראות עריכה הדורשות שיתוף פעולה של דגמי AI מרובים עם ריבוי שלבים.

  3. מתן משוב ובקשת תוצאות מתוקנות.


עיצוב סדרה של הנחיות להחדרת מידע על המודל החזותי ל-ChatGPT, תוך התחשבות במודלים של מספר כניסות/יציאות ומודלים הדורשים משוב חזותי.

ניסויים מראים ש-Visual ChatGPT פותח את הדלת לחקור את התפקידים החזותיים של ChatGPT בעזרת Visual Foundation Models. המערכת שלנו זמינה לציבור בכתובת \url{ https URL זה }.


להורדת המסמך המלא :


לפירוט הקוד :

 
 
 

פוסטים אחרונים

הצג הכול

תגובות


Innovation Social Club

©2023 by Innovation Social Club. Proudly created with Wix.com

bottom of page