הטקסט למטה הוא מסמך שדלף לאחרונה, ששותף על ידי אדם אנונימי בשרת דיסקורד ציבורי שהעניק אישור לפרסום שלו מחדש. מקורו של חוקר בגוגל. אימתנו את האותנטיות שלו. השינויים היחידים הם עיצוב והסרת קישורים לדפי אינטרנט פנימיים. המסמך הוא רק דעתו של עובד גוגל, לא כל המשרד.
אנחנו לא בפוזיציה לנצח במירוץ הזה
וגם לא OpenAI
עשינו הרבה צפייה מעבר לכתפינו ב-OpenAI. מי יעבור את אבן הדרך הבאה? מה יהיה המהלך הבא?
אבל האמת הלא נוחה היא, שאנחנו לא במצב לנצח במירוץ החימוש הזה וגם לא OpenAI. בזמן שאנחנו מתקוטטים, גורם שלישי אכל בשקט את ארוחת הצהריים שלנו..
אני מדבר, כמובן, על קוד פתוח. במילים פשוטות, . דברים שאנו מחשיבים כ"בעיות פתוחות עיקריות" נפתרים ונמצאים בידיים של אנשים כיום.
רק כדי להזכיר כמה:
הרצת LLMs בטלפון: אנשים מריצים דגמי יסוד ב-Pixel 6 דרך Alpaca בקצב של 5 אסימונים לשנייה.
בינה מלאכותית אישית ניתנת להרחבה: Scalable Personal AI: אפשר לכוונן AI מותאם אישית במחשב הנייד שלך בערב.
שחרור אחראי: זה לא "נפתר" אלא "מבוטל". ישנם אתרים שלמים מלאים בדגמי אמנות ללא הגבלות כלשהן , והטקסט , אינו רחוק מאחור
רב-מודאליות: Multimodality: ה-ScienceQA SOTA המולטי-מודאלי הנוכחי הוכשר תוך שעה
בעוד שהדגמים שלנו עדיין מחזיקים ביתרון קל מבחינת איכות, הפער נסגר במהירות מדהימה. מודלים של קוד פתוח מהירים יותר, ניתנים להתאמה אישית, פרטיים יותר ובעלי יכולת גבוהה יותר של פאונד תמורת פאונד. הם . עושים דברים עם פרמטרים של 100 ו-13 מיליארד דולר שאנחנו נאבקים איתם ב-10 מיליון דולר ו-540 מיליארד דולר. והם עושים זאת בשבועות, לא חודשים.
יש לכך השלכות עמוקות עלינו:
אין לנו מתכון סודי. We have no secret sauce. התקווה הטובה ביותר שלנו היא ללמוד ממה שאחרים עושים מחוץ ל-Google ולשתף פעולה עם זה. עלינו לתת עדיפות להפעלת אינטגרציות 3P .
אנשים לא ישלמו עבור מודל מוגבל כאשר חלופות חינמיות ובלתי מוגבלות דומות באיכותן. עלינו לשקול היכן באמת נמצא הערך המוסף שלנו
מודלי ענק מאטים אותנו. בטווח הארוך, הדגמים הטובים ביותר הם אלה שניתן לחזור עליה במהירות. אנחנו צריכים ליצור גרסאות קטנות יותר ממחשבה שלאחר מכן, עכשיו כשאנחנו יודעים מה אפשרי במשטר הפרמטרים
מקור התמונה : https://lmsys.org/blog/2023-03-30-vicuna/https://lmsys.org/blog/2023-03-30-vicuna/
מה בדיוק קרה ?
בתחילת מרץ קהילת הקוד הפתוח השיגה את ידה על מודל הבסיס הראשון והיכולת באמת שלהם, כאשר ה-LLaMA של Meta הודלף לציבור. לא היו לו הוראה או כוונון שיחה, ולא RLHF. אף על פי כן, הקהילה הבינה מיד את המשמעות של מה שניתן להם.
לאחר מכן הגיעה זרם אדיר של חדשנות, עם ימים ספורים בין התפתחויות גדולות (ראה ציר הזמן לפירוט המלא). הנה אנחנו כאן, בקושי חודש לאחר מכן, ויש וריאנטים עם כוונון הוראות instruction tuning, , קוונטיזציה quantization, , שיפורי איכות quality improvements, , הערכות אנושיות human evals, , מולטימודאליות multimodality, , וכו' וכו', שרבות מהן בונות זו על זו.
והכי חשוב, הם פתרו את בעיית קנה המידה עד כדי כך שכל אחד יכול להתעסק. רבים מהרעיונות החדשים הם מאנשים רגילים. מחסום הכניסה לאימונים ולניסויים ירד מהתפוקה הכוללת של ארגון מחקר גדול לאדם אחד, ערב ומחשב נייד בשרני.
למה יכולנו לראות את זה מגיע?
במובנים רבים, זה לא אמור להפתיע אף אחד. הרנסנס הנוכחי ב-LLMs בקוד פתוח מגיע לוהט בעקבות רנסנס ביצירת תמונות.
קווי הדמיון אינם הולכים לאיבוד בקהילה, כאשר רבים מכנים זאת “רגע ההתפזרות היציבה Stable Diffusion moment" עבור LLMs.
מעורבות ציבורית בעלות נמוכה התאפשרה על ידי מנגנון זול בהרבה לכוונון עדין הנקרא אדפטציה בדרג נמוך low rank adaptation, או LoRA, בשילוב עם פריצת דרך משמעותית בקנה מידה (דיפוזיה סמויה latent diffusion לסינתזת תמונה, Chinchilla עבור LLMs).
גישה למודל איכותי מספיק פתחה שפע של רעיונות ואיטרציה של אנשים ומוסדות ברחבי העולם. זה עלה במהירות על השחקנים הגדולים.
תרומות אלו היו מרכזיות במרחב יצירת התמונות, והציבו את ה-Stable Diffusion על נתיב שונה מ-Dall-E. מודל פתוח הוביל לאינטגרציות מוצרים product integrations, , מקומות שוק marketplaces, ממשקי משתמש וחידושים שלא , התרחשו user interfacesעבור , Dall-E.innovations .
ההשפעה הייתה מוחשית:: שליטה מהירה rapid dominationבמונחים של השפעה תרבותית לעומת פתרון OpenAI, שהפך יותר ויותר לא רלוונטי. האם אותו דבר יקרה עבור LLMs נותר לראות, אבל האלמנטים המבניים הרחבים זהים.
מה פספסנו?
החידושים שהניעו את ההצלחות האחרונות של הקוד הפתוח פותרים ישירות בעיות שאנו עדיין נאבקים בהן. תשומת לב רבה יותר לעבודתם יכולה לעזור לנו להימנע מהמצאת הגלגל מחדש.
טכניקה עוצמתית להפליא שאנחנו כנראה צריכים לשים לב אליה יותר היא LoRA
טכניקת LoRA פועלת על ידי ייצוג עדכוני מודל כפקטוריזציות בדרגה נמוכה, מה שמקטין את גודל מטריצות העדכון בפקטור של עד כמה אלפים. זה מאפשר כוונון עדין של הדגם בחלק מהעלות והזמן. היכולת להתאים אישית מודל שפה תוך מספר שעות בחומרה לצרכן היא עניין גדול, במיוחד עבור שאיפות הכוללות שילוב ידע חדש ומגוון כמעט בזמן אמת
העובדה שהטכנולוגיה הזו קיימת ומנוצלת בצורה לא נכונה בתוך גוגל, למרות שהיא משפיעה ישירות על כמה מהפרויקטים השאפתניים ביותר שלנו..
הסבה מחדש של דגמים מאפס היא הדרך הקשה
חלק ממה שהופך את LoRA לכל כך יעיל הוא - כמו צורות אחרות של כוונון עדין - ניתן לאסוף. ניתן ליישם שיפורים כמו כוונון הוראות ולאחר מכן למנף כאשר תורמים אחרים מוסיפים דיאלוג, הנמקה, או שימוש בכלים. בעוד שהכוונונים העדינים הבודדים הם בדרגה נמוכה, הסכום שלהם לא צריך להיות, מה שמאפשר לעדכונים בדרגה מלאה להצטבר עם הזמן .
משמעות הדבר היא שכאשר מערכי נתונים ומשימות חדשות וטובות יותר הופכים לזמינים, ניתן לשמור על המודל מעודכן בזול, מבלי לשלם את העלות של רן מלא a full run.
לעומת זאת, אימון דגמי ענק מאפס לא רק זורק את ההכשרה המוקדמת, אלא גם כל שיפורים איטרטיביים שנעשו למעלה. בעולם הקוד הפתוח, לא לוקח הרבה זמן עד שהשיפורים האלה ישלטו, מה שהופך את ההכשרה המלאה ליקרה מאוד.By contrast, training giant
עלינו לחשוב אם כל יישום או רעיון חדש באמת זקוק לדגם חדש לגמרי. אם באמת יש לנו שיפורים ארכיטקטוניים גדולים המונעים שימוש חוזר ישירות במשקלי מודל, אז עלינו להשקיע בצורות זיקוק אגרסיביות יותר המאפשרות לנו לשמור כמה שיותר מהיכולות של הדור הקודם
דגמים גדולים אינם מסוגלים יותר בטווח הארוך , אם נוכל לחזור מהר יותר על דגמים קטנים
עדכוני LoRA זולים מאוד לייצור (~100$) עבור גדלי הדגמים הפופולריים ביותר. זה אומר שכמעט כל אחד עם רעיון יכול ליצור אחד ולהפיץ אותו. זמני אימון מתחת ליום הם הנורמה. בקצב הזה, לא יעבור זמן רב עד שהאפקט המצטבר של כל הכוונון העדין הזה יתגבר החל בחסרון גודל. ואכן, במונחים של שעות מהנדס, קצב השיפור מהדגמים האלה עולה בהרבה על מה שאנחנו יכולים לעשות עם הגרסאות הגדולות ביותר שלנו, וכבר לא ניתן להבחין בין הטובים ביותר לבין אינטגרציות של ChatGPT .
התמקדות בתחזוקת כמה מהדגמים הגדולים ביותר על פני כדור הארץ למעשה מציבה אותנו בעמדת נחיתות.
איכות הנתונים משתנה טוב יותר מגודל הנתונים
רבים מהפרויקטים הללו חוסכים זמן על ידי הכשרה על מערכי נתונים קטנים ואצורים במיוחד .
זה מרמז על גמישות מסוימת בחוקי קנה המידה של הנתונים.
קיומם של מערכי נתונים כאלה נובע מקו החשיבה ב- . Data Doesn't Do What You Think, והם הופכים במהירות לדרך הסטנדרטית לבצע הדרכה מחוץ לגוגל.
מערכי נתונים אלה נבנים באמצעות שיטות סינתטיות (למשל סינון התגובות הטובות ביותר ממודל קיים) וניקוי מפרויקטים אחרים, שאף אחד מהם אינו דומיננטי בגוגל.
למרבה המזל, מערכי הנתונים האיכותיים הללו הם קוד פתוח, כך שהם חופשיים לשימוש.
תחרות ישירה עם קוד פתוח היא הצעה מפסידה
להתקדמות האחרונה הזו יש השלכות ישירות ומיידיות על האסטרטגיה העסקית שלנו מי ישלם עבור מוצר של גוגל עם הגבלות שימוש אם יש חלופה חינמית ואיכותית בלעדיהם?
ואסור לנו לצפות להצליח להדביק את הפער. יש סיבה שהאינטרנט המודרני פועל על קוד פתוח .לקוד פתוח יש כמה יתרונות משמעותיים שאנחנו לא יכולים לשכפל.
אנחנו צריכים אותם יותר ממה שהם צריכים אותנו
שמירת הטכנולוגיה שלנו בסוד הייתה תמיד הצעה קלושה. חוקרי גוגל עוזבים לחברות אחרות בקצב קבוע, אז אנחנו יכולים להניח שהם יודעים את כל מה שאנחנו יודעים, וימשיכו כך כל עוד הצינור הזה פתוח
אבל החזקת יתרון תחרותי בטכנולוגיה הופכת קשה עוד יותר כעת, כאשר מחקר חדשני בלימודי LLM הוא סביר. מוסדות מחקר בכל רחבי העולם בונים זה על עבודתו של זה, בוחנים את מרחב הפתרונות בצורה רחבה, העולה בהרבה על היכולת שלנו. אנחנו יכולים לנסות להחזיק בחוזקה את הסודות שלנו בעוד חדשנות מבחוץ מדללת את ערכם, או שאנחנו יכולים לנסות ללמוד אחד מהשני
אנשים אינם מוגבלים ברישיונות באותה מידה כמו תאגידיםt
חלק גדול מהחידוש הזה מתרחש על גבי משקולות הדגם שדלפו מבית Meta. אמנם זה ישתנה בהכרח ככל שהדגמים הפתוחים באמת truly open modelsישתפרו, אבל הנקודה היא שהם לא צריכים לחכות. הכיסוי המשפטי שמעניק "שימוש אישי" וחוסר המעשיות של העמדת אנשים לדין פירושו שאנשים מקבלים גישה לטכנולוגיות הללו בעודן חמות.
.
להיות עסק עם לקוחות משלך פירושו שאתה מבין את מקרה השימוש
בדפדוף בין הדגמים שאנשים יוצרים במרחב יצירת התמונות, ישנה שפע עצום של יצירתיות, ממחוללי אנימה ועד לנופי HDR. מודלים אלה משמשים ונוצרים על ידי אנשים שקועים עמוק בתת הז'אנר המסוים שלהם, ומעניקים עומק של ידע ואמפתיה שאיננו יכולים לקוות להשוות.
בעלות על האקוסיסטם: לתת לקוד פתוח לעבוד עבורנו
באופן פרדוקסלי, המנצח הברור היחיד בכל זה הוא Meta. מכיוון שהמודל שדלף היה שלהם, הם צברו למעשה עבודה חינם של כוכב שלם. מכיוון שרוב חדשנות הקוד הפתוח מתרחשת על גבי הארכיטקטורה שלהם, אין שום דבר שמפריע להם לשלב אותה ישירות במוצרים שלהם.
לא ניתן להפריז בערך של בעלות על האקוסיסטם.גוגל עצמה השתמשה בהצלחה בפרדיגמה הזו בהצעות הקוד הפתוח שלה, כמו כרום ואנדרואיד. על ידי הבעלים של הפלטפורמה שבה מתרחשת חדשנות, גוגל מעצימה את עצמה כמובילת מחשבות וקובעת כיוון, ומרוויחה את היכולת לעצב את הנרטיב על רעיונות שגדולים ממנה.
ככל שאנו שולטים בצורה הדוקה יותר במודלים שלנו, כך אנו הופכים אלטרנטיבות פתוחות יותר. The more tightly we control our models, the more attractive we make open alternatives. גוגל ו-OpenAI נמשכו שתיהן בהגנה לעבר דפוסי שחרור המאפשרים להן לשמור על שליטה הדוקה על אופן השימוש במודלים שלהן. אבל השליטה הזו היא פיקציה. כל מי שמבקש להשתמש ב-LLM למטרות לא מאושרות יכול פשוט לבחור את הדגמים הזמינים באופן חופשי
גוגל צריכה לבסס את עצמה כמובילה בקהילת הקוד הפתוח, לקחת את ההובלה על ידי שיתוף פעולה עם השיחה הרחבה יותר מאשר התעלמות. זה כנראה אומר נקיטת כמה צעדים לא נוחים, כמו פרסום משקלי הדגם עבור גרסאות ULM קטנות. זה בהכרח אומר לוותר על שליטה מסוימת על הדגמים שלנו. אבל הפשרה הזו היא בלתי נמנעת. אנחנו לא יכולים לקוות גם להניע חדשנות וגם לשלוט בה.Google
אפילוג: מה לגבי OpenAI?
כל הדיבורים האלה על קוד פתוח יכולים להרגיש לא הוגנים בהתחשב במדיניות הסגורה הנוכחית של OpenAI. למה אנחנו צריכים לשתף, אם הם לא? אבל עובדה היא שאנחנו כבר חולקים איתם הכל בצורה של זרימה מתמדת של חוקרים בכירים מושחתים. עד שנבלום את הגאות הזו, הסודיות היא נקודה שנויה במחלוקת.
ובסופו של דבר, OpenAI לא משנה. הם עושים את אותן טעויות שאנחנו בעמדה שלהם ביחס לקוד פתוח, והיכולת שלהם לשמור על יתרון בהכרח מוטלת בספק. חלופות קוד פתוח יכולות ובסופו של דבר להאפיל עליהן אלא אם כן ישנו את עמדתן. מבחינה זו, לפחות, נוכל לעשות את הצעד הראשון.
ציר הזמן
24 בפברואר 2023 - LLaMA הושק
חברת Meta משיקה את LLaMA, מקורות פתוחים לקוד. בשלב זה, LLaMA אינו מכוון להוראה או שיחה. כמו דגמים עכשוויים רבים, מדובר בדגם קטן יחסית (זמין בפרמטרים 7B, 13B, 33B ו-65B) שהוכשר במשך זמן רב יחסית, ולכן הוא מסוגל למדי ביחס לגודלו.,
3 במרץ 2023 - הבלתי נמנע קורה
תוך שבוע, , LLaMA מודלפה לציבור . אי אפשר להפריז בהשפעה על הקהילה. הרישיונות הקיימים מונעים ממנו שימוש למטרות מסחריות, אבל פתאום כל אחד יכול להתנסות. מנקודה זו והלאה, החידושים מגיעים קשה ומהר..
12 במרץ 2023 - דגמי שפה על טוסטר
קצת יותר משבוע לאחר מכן, Artem Andreenko מקבל את הדגם ועובד על Raspberry. בשלב זה המודל פועל לאט מדי מכדי להיות פרקטי, כי המשקולות חייבות להיכנס ולהוציא מהזיכרון. אף על פי כן, זה מכין את הבמה למתקפה של מאמצי הקטנה..
13 במרץ 2023 - כוונון עדין במחשב נייד
למחרת, סטנפורד משחרר את Alpaca, שמוסיף כוונון הוראות ל-LAMA. עם זאת, חשוב יותר מהמשקולות האמיתיות, הריפו של אלפקה-לורה של אריק וואנג alpaca-lora, שהשתמש בכוונון עדין בדרגה נמוכה כדי לבצע אימון זה "בתוך שעות על RTX 4090 יחיד".
לפתע, כל אחד יכול היה לכוונן את המודל כך שיעשה כל דבר, ולהתחיל במירוץ בפרויקטים של כוונון עדין בתקציב נמוך. ניירות מתארים בגאווה את ההוצאה הכוללת שלהם של כמה מאות דולרים. יתרה מכך, ניתן להפיץ את עדכוני הדרגה הנמוכה בקלות ובנפרד מהמשקלים המקוריים, מה שהופך אותם לבלתי תלויים ברישיון המקורי מבית Meta. כל אחד יכול לשתף וליישם אותם
18 במרץ 2023 - עכשיו זה מהיר
גיאורגי גרגנוב Georgi Gerganov משתמש בקוונטיזציה של 4 סיביות כדי להריץ את LLaMA על מעבד MacBook. זהו פתרון "ללא GPU" הראשון שהוא מהיר מספיק כדי להיות מעשי.
19 במרץ 2023 - מודל 13B משיג "שוויון" עם בארד
למחרת, שיתוף פעולה חוצה אוניברסיטאות משחרר את Vicuna Vicuna, ומשתמש ב-eval המופעל על ידי GPT-4 כדי לספק השוואות איכותיות של תפוקות מודל. בעוד ששיטת ההערכה חשודה, המודל טוב מהותית מאשר גרסאות קודמות. , עלות הדרכה:. $300.
יש לציין שהם הצליחו להשתמש בנתונים מ-ChatGPT תוך עקיפת הגבלות על ה-API שלו - הם פשוט דגמו דוגמאות של דיאלוג "מרשים" של ChatGPT שפורסמו באתרים כמו ShareGPT..
25 במרץ 2023 - בחר דגם משלך
Nomic יוצר את GPT4All GPT4All, , וגם, יותר חשוב, אקוסיסטם בפעם הראשונה, אנו רואים דוגמאות (כולל ויקונה) מתאספות יחד במקום אחד
עלות הדרכה: $100.
28 במרץ 2023 - קוד פתוח
ה Cerebras (לא להתבלבל עם Cerebra שלנו) מאמן את ארכיטקטורת GPT-3 תוך שימוש בלוח הזמנים האופטימלי של החישוב המרומז על ידי צ'ינצ'ילה, ובקנה המידה האופטימלי המשתמע μ-פרמטריזציה . זה עולה על שיבוטים קיימים של GPT-3 בפער רחב, ומייצג את השימוש המאושר הראשון בפרמטריזציה של μ "בטבע". מודלים אלה מאומנים מאפס, כלומר הקהילה כבר לא תלויה ב-LAMA..
28 במרץ 2023 - אימון רב-מודאלי בשעה אחת
באמצעות טכניקת פרמטר יעיל עדין (PEFT) חדשנית, , LLaMA-Adapterמציג כוונון הוראות ורב-מודאליות בשעה אחת של אימון. באופן מרשים, הם עושים זאת עם 1.2 מיליון פרמטרים הניתנים ללמידה בלבד. המודל משיג SOTA חדש על ScienceQA רב-מודאלי.
3 באפריל 2023 - בני אדם אמיתיים לא יכולים להבדיל בין מודל פתוח 13B לבין ChatGPT
ברקלי משיקה את Berkeley launches Koala Koala, מודל דיאלוג שאומן כולו באמצעות נתונים זמינים באופן חופשי.,
הם עושים את הצעד המכריע של מדידת העדפות אנושיות אמיתיות בין המודל שלהם לבין ChatGPT. בעוד של-ChatGPT עדיין יש יתרון קל, יותר מ-50% מהמקרים משתמשים מעדיפים קואלה או שאין להם העדפה
עלות ההדרכה: $100.
15 באפריל, 2023 - קוד פתוח RLHF ברמות של ChatGPT
חברת Open Assistant משיקה launches מודל, וחשוב מכך, מערך נתונים עבור Alignment באמצעות RLHF. המודל שלהם קרוב (48.3% לעומת 51.7%) ל-ChatGPT מבחינת העדפה אנושית. בנוסף ל-LLaMA, הם מראים שניתן ליישם את מערך הנתונים הזה על Pythia-12B, מה שנותן לאנשים את האפשרות להשתמש בערימה פתוחה לחלוטין כדי להפעיל את המודל. יתרה מכך, מכיוון שמערך הנתונים זמין לציבור, הוא לוקח RLHF מבלתי ניתן להשגה לזול וקל עבור נסיינים קטנים.