אחת החוויות המשמעותיות ביותר שהיו לי ב Google I/O Connect באמסטרדם, היא התנסות על MediaPipe , כפי שניתן לראות כאן בתמונה :
בתמונה, המערכת קוראת את תווי הפנים שלי : עיננים ואזור הפה. לאחר מכן יכולתי להשתמש בשתי מערכות ללא צורך בשימוש בידיים, אלה רק באמצעות הזזת הפה והעיניים-
מה עשיתי שם ?
הדגמת משחק web אינטראקטיבי באמצעות MediaPipe Machine Learning Library
שיחקתי במשחק שבו באמצעות שימוש בתנועות הפה שלי בלבד גרמתי לדינוזאור לקפוץ לנוע , ובפיתוח אחר - ממש כתבתי משפטים במסך דרך שימוש בעיניים שלי בלבד (!)
תכונות למידת מכונה חדשניות. MediaPipe מכיל את כל מה שצריך כדי להתאים אישית ולפרוס לנייד (אנדרואיד, iOS), אינטרנט, שולחן עבודה, מכשירי קצה ו-IoT, ללא מאמץ.
מה אפשר לעשות עם היכולות האלו?
לפתח אפליקציית web אינטראקטיבית באמצעות Mediapipe Hands JS Solution API ומחוות אנושיות פשוטות כדי לספק אינטראקציות מושלמות ללא מגע עם ממשקים.
האפליקציה תציג פאנל עסקאות מוגדל בתצוגה מקדימה על המסך, המאפשר למשתמשים לבצע פעולות CRUD חיוניות של פריטים באמצעות מחוות מותאמות אישית פשוטות לשימוש, ללא מגע פיזי.
גם מחוות שהוגדרו בהתאמה אישית וגם מחוות מאומנות מראש מהממשק API של Mediapipe, tasks-vision, ישמשו כדי לסווג מחוות ולהפעיל אירועים בממשק.
הפרויקט מכוון לרוב הפלטפורמות, בעיקר למסכים גדולים, ועשוי לפעול במכשירים ניידים סלקטיביים עם מודול מצלמה להזנת קלט.
כל הנתונים שנלקחו באמצעות הזנת וידאו קלט נמחקים לאחר החזרת הסקת מסקנות ומחושבים ישירות בצד הלקוח, מה שהופך אותו לתואם GDPR. לאחר השלמתו, אפליקציית האינטרנט תועלה ל-Codepen ו/או תיפרס ב-Vercel.
כל הנתונים שנלקחו באמצעות הזנת וידאו קלט נמחקים לאחר החזרת הסקת מסקנות ומחושבים ישירות בצד הלקוח, מה שהופך אותו לתואם GDPR.
לאחר השלמתו, אפליקציית ה web תועלה ל-Codepen ו/או תיפרס ב-Vercel.
כל הנתונים שנלקחו באמצעות הזנת וידאו קלט נמחקים לאחר החזרת הסקת מסקנות ומחושבים ישירות בצד הלקוח, מה שהופך אותו לתואם GDPR. לאחר השלמתו, אפליקציית האינטרנט תועלה ל-Codepen ו/או תיפרס ב-Vercel.
קל לשימוש
פתרונות ML בשירות עצמי עם הפשטות פשוטות לשימוש. השתמש בממשקי API בעלי קוד נמוך או בסטודיו ללא קוד כדי להתאים אישית, להעריך, ליצור אב טיפוס ולפרוס.
חדשני
פתרונות ML מתקדמים למשימות פופולריות, שנוצרו עם מומחיות ML של Google.
מהר, ממש מהר
אופטימיזציה מקצה לקצה, כולל האצת חומרה, והכל תוך קל משקל מספיק כדי לפעול היטב במכשירים המופעלים על ידי סוללה.
יצירת פתרונות ML חדשניים במכשיר, בקלות
שימוש בלמידת מכונה במכשיר יכול להיות תהליך קשה. MediaPipe Solutions מקל על זה. דרך התאמת פתרונות מתקדמים לצרכים שלך, במהירות ובצורה חלקה. כלים גמישים אלה בנויים על גבי TensorFlow Lite עבור ביצועי ML וחומרה מקצה לקצה הטובים ביותר במכשיר.
סטודיו No-Code
התאמה אישית, אימן, העריך, צפה בתצוגה מקדימה, השוואת ביצועים ופריסה בכמה לחיצות בלבד.
ממשקי API בעלי Low-Code
התאם אישית ופרוס פתרונות למידת מכונה במכשיר עם מספר שורות קוד בלבד.
פתרונות לאתגרים נפוצים
Vision
נתח דברים בתמונות ובסרטונים.
Natural language
הבן משמעויות מאחורי טקסט.
Audio
הקשב וזיהוי צלילים.
צינורות ML מהירים וגמישים
מתחת למכסה המנוע, MediaPipe Framework מתזמר דגמים מולטי-מודאליים, עיבוד ML ולא ML, והאצת חומרה עם שליטה מקסימלית.
בשנים האחרונות נעשה שימוש נרחב במודלים של דיפוזיה בהצלחה יוצאת דופן ביצירת טקסט לתמונה, מה שהוביל לשיפורים משמעותיים באיכות התמונה, בביצועי ההסקה ובהיקף האפשרויות היצירתיות שלנו. עם זאת, ניהול דור יעיל נותר אתגר, במיוחד בתנאים שקשה להגדיר במילים.
תוספי פיזור MediaPipe, שפותחו על ידי חוקרי גוגל, מאפשרים לבצע יצירת טקסט לתמונה במכשיר בשליטה של המשתמש. במחקר זה, אנו מרחיבים את עבודתנו הקודמת על הסקת GPU עבור דגמים יצירתיים גדולים במכשיר עצמו, ואנו מציגים פתרונות בעלות נמוכה ליצירת טקסט לתמונה הניתנים לתכנות שניתן לשלב בדגמי דיפוזיה קיימים והתאמתם לדרג נמוך. (LoRA) וריאציות.
הפלאגינ של MediaPipe dispersion מיועד לייצור תמונה במודלים של דיפוזיה. כל איטרציה של מודל הדיפוזיה מתחילה בתמונה מזוהמת ברעש ומסתיימת בתמונה של מושג המטרה. הבנת השפה באמצעות הנחיות טקסט שיפרה משמעותית את תהליך יצירת התמונה. הטבעת הטקסט מקושרת למודל להפקת טקסט לתמונה באמצעות שכבות תשומת לב צולבת. עם זאת, המיקום והתנוחה של אובייקט הם שתי דוגמאות לפרטים שיכולים להיות מאתגרים יותר להעביר באמצעות הנחיות טקסט. חוקרים מציגים מידע בקרה מתמונת מצב לתוך דיפוזיה תוך שימוש במודלים נוספים.
השיטות Plug-and-Play, ControlNet ומתאם T2I משמשות לעתים קרובות ליצירת פלט מבוקר של טקסט לתמונה.
כדי לקודד את המצב מתמונת קלט, Plug-and-Play משתמש בעותק של מודל הדיפוזיה (860 מיליון פרמטרים עבור Stable Diffusion 1.5) וגישת היפוך מודל דיפוזיה מרומז (DDIM) בשימוש נרחב, שהופכת את תהליך היצירה מ- תמונת קלט כדי להפיק קלט רעש ראשוני. המאפיינים המרחביים עם תשומת לב עצמית נשלפים מהדיפוזיה המועתקת ומוזרקים לפיזור הטקסט לתמונה באמצעות Plug-and-Play. ControlNet בונה כפיל שניתן לאמן של המקודד של מודל דיפוזיה ומחבר אותו באמצעות שכבת קונבולוציה עם פרמטרים מאותחלים לאפס כדי לקודד מידע התניה שמועבר לאחר מכן לשכבות המפענח.
לצערי, זה הוביל לגידול משמעותי בגודל - כ-450 מיליון פרמטרים עבור Stable Diffusion 1.5 - חצי ממודל הדיפוזיה עצמו. מתאם T2I מספק תוצאות דומות בדור מבוקר למרות היותו רשת קטנה יותר (77 מיליון פרמטרים). תמונת המצב היא הקלט היחיד למתאם T2I, והתוצאה משמשת בכל מחזורי הדיפוזיה הבאים. עם זאת, סגנון מתאם זה אינו מיועד לגאדג'טים ניידים.
תוסף MediaPipe diffusion הוא רשת עצמאית שפיתחנו כדי להפוך את הדור המותנה ליעיל, גמיש וניתן להרחבה.
מתחבר פשוט למודל בסיס מאומן; ניתן לחיבור.
אימון מבוסס אפס פירושו שלא נעשה שימוש במשקולות מהדגם המקורי.
הוא נייד מכיוון שניתן להפעיל אותו ללא תלות בדגם הבסיס במכשירים ניידים כמעט ללא עלות נוספת.
התוסף הוא הרשת שלו, שאת תוצאותיו ניתן לשלב במודל קיים להמרת טקסט לתמונות. שכבת ההורדה המקבילה של מודל הדיפוזיה (כחול) מקבלת את התכונות שאוחזרו מהפלאגין.
פרדיגמה ניידת במכשיר ליצירת טקסט לתמונה, תוסף פיזור MediaPipe זמין להורדה בחינם. הוא לוקח תמונה מותנית ומשתמש בחילוץ תכונות מרובי-קנה מידה כדי להוסיף תכונות בקנה מידה המתאים למקודד של מודל דיפוזיה. בשילוב עם מודל פיזור טקסט לתמונה, מודל הפלאגין מוסיף אות מיזוג להפקת התמונה. אנו מתכוונים שלרשת הפלאגין יהיו רק 6M פרמטרים, מה שהופך אותה לדגם פשוט יחסית. כדי להשיג הסקה מהירה במכשירים ניידים, MobileNetv2 משתמשת בפיתולי עומק ובצווארי בקבוק הפוכים.
מאפיינים בסיסיים
הפשטות קלות להבנה ללמידת מכונה בשירות עצמי. לשינוי, בדיקה, אבטיפוס ושחרור של יישום, השתמש ב-API בקוד נמוך או בסטודיו ללא קוד.
גישות למידת מכונה חדשנית (ML) לבעיות נפוצות, שפותחו תוך שימוש בידע ה-ML של גוגל.
אופטימיזציה מלאה, כולל האצת חומרה, תוך שמירה קטנה ויעילה מספיק כדי לפעול בצורה חלקה בסמארטפונים הפועלים על סוללה.
עיינו בדף הפרויקט ובבלוג של גוגל . אל תשכח להצטרף ל - Innovation Social Club , שבו אנו חולקים את החדשות האחרונות של מחקרי טרנדים טכנולוגיים.
אם יש לך שאלות כלשהן בנוגע למאמר לעיל או אם פספסנו משהו, אל תהסס לשלוח לנו דוא"ל לכתובת Or@ormanor.tech