גוגל משיקה כלים למפתחים לבניית למידת מכונה ובינה מלאכותית במוצרים שלהם
לַחֲלוֹק
חברת Google LLC מוציאה מספר כלים למפתחים לבניית למידת מכונה ובינה מלאכותית באפליקציות שלהם תוך שימוש במודלים ופתרונות בינה מלאכותית בעלי ביצועים גבוהים. ב-Google I/O, כנס המפתחים השנתי של החברה, הוכרזו היום מספר כלים חדשים עבור TensorFlow. TensorFlow היא ספריית תוכנה חינמית בקוד פתוח ללמידת מכונה ובינה מלאכותית המתמקדת במיוחד באימון והסקת רשתות עצביות על פני ארכיטקטורות רבות ושונות, משרתים ועד ניידים.
גוגל מוסיפה תמיכה מוגברת במודלים של בינה מלאכותית, כולל מודלים של בינה מלאכותית ויצירת תמונות, באמצעות TensorFlow למפתחים כדי שיוכלו לשלב אותם בקלות רבה יותר ביישומים שלהם באמצעות הספרייה. בינה מלאכותית גנרטיבית הפכה לפופולרית מאוד לאחרונה עם הצגת הצ'אטבוט ChatGPT של OpenAI LP, המסוגל לנהל שיחות אנושיות לכאורה, ו-AI Stable Diffusion מחולל האמנות, המסוגל ליצור יצירות אמנות יפהפיות וסוריאליסטיות.
גם Keras, ספריית Python ברמה גבוהה לאינטראקציה עם TensorFlow, מקבלת שני עדכונים שמטרתם להפוך את זה לפשוט יותר עבור מפתחים להוסיף יכולות AI לאפליקציות שלהם עם כמה שורות קוד בלבד. הראשון הוא KerasCV, לראייה ממוחשבת, והשני הוא KerasNLP, לעיבוד שפה טבעית. בין אם מפתח רוצה להתקשר ל-AI שיוצר טקסט או ל-AI של יצירת תמונות, הם יכולים להשתמש ב-KerasCV או KerasNLP, ועם כמה שורות קוד בלבד, הם יכולים לספק הנחיה ולקבל פלט ישירות באפליקציה שלהם. מכיוון שהתוספות החדשות הללו הן חלק מ-Keras, יש לה גישה מלאה למערכת האקולוגית של TensorFlow.
גוגל גם עדכנה את DTensor , כלי מיוחד לאימון מודלים של AI בקנה מידה המאפשר קנה מידה מקביל.
ככל שדגמי בינה מלאכותית הולכים וגדלים, ההכשרה נעשית קשה יותר מכיוון שלא ניתן לאמן אותם במכשיר אחד ובאופן מסורתי מפתחים היו צריכים לפרק אותם, או לפרק אותם, על פני מספר מעבדים, בין אם מדובר ביחידות עיבוד גרפיות או יחידות עיבוד טנזור. עם עדכון זה, DTensor מאפשר הכשרה גדולה וביצועית יותר וכוונון עדין, והוא משתווה לאמות מידה בתעשייה לאימון מערכי נתונים גדולים. כתוצאה מכך, מפתחים יכולים להיות בטוחים שהם יכולים להכין את דגמי הבינה המלאכותית שלהם במהירות וביעילות רבה יותר.
מכיוון שהרבה עבודה של למידת מכונה מתחילה במחקר, גוגל גם הקלה על החוקרים לקבל את הפיתוח שלהם לתוך TensorFlow על ידי העברת המודלים שלהם מ-JAX , מסגרת רבת עוצמה להפיכת פונקציות מספריות, אל TensorFlow באמצעות ממשק תכנות יישומים בשם JAX2TF. זה אומר שחוקרים שמפתחים דגמים חדשים לגמרי יכולים להמשיך לעשות זאת, וכשהם מוכנים ללכת לייצור, הם יכולים להעביר את זה דרך ה-API והם מוכנים ללכת.
גוגל גם משיקה מרחב בניית פתרונות למידת מכונה ו-AI בשם ML Hub.
במרכז זה, מפתחים, מהנדסים ובעלי עניין יכולים להגדיר מה הם רוצים לעשות ואת מקרי השימוש שלהם וגוגל תספק להם את ההשכלה, התבניות, המודולים והכלים לבניית פתרונות AI מותאמים אישית מהאקולוגית של גוגל. לגוגל יש מספר רב של כלים שונים להכנסת למידת מכונה ובינה מלאכותית לאפליקציות מפתחים, אבל זה מאוד מורכב ומפוזר, מה שעלול להקשות על גילוי מה מפתח עשוי לרצות כדי להגיע לתוצאה רצויה מסוימת.
הכרזה נוספת MediaPipe מקל על פריסת למידת מכונה בנייד לא כל AI מתרחש בחוות שרתים ענקיות. דגמים מסוימים קטנים מספיק כדי לרוץ על מכשירי מחשוב מוגבלים בהרבה כמו טלפונים ניידים, וכדי להקל על כך, גוגל שדרגה את MediaPipe . MediaPipe מקלה על בנייה, התאמה אישית ופריסה של פתרונות למידת מכונה במכשיר עבור מחשוב נייד, מבוסס-קצה, כגון אלה שעשויים לפעול במכשיר נייד, שולחן עבודה או אינטרנט. על ידי שימוש ביכולות במכשיר, למידת מכונה יכולה לבצע זיהוי מחוות, כגון צפייה בתנועות ידיים ופנים, ובתמורה מאפשרת יכולות חזקות למכשירים. זה יכול לשמש גם עבור יכולות רבות אחרות כגון תרגום אוטומטי, טשטוש רקעים ושימושים רבים אחרים.
מקרה שימוש מסוים אחד עבור MediaPipe ודגמי AI קטנים יותר הוא כיצד ניתן להשתמש בו לצורך נגישות - במיוחד עבור אנשים שאין להם את היכולת להשתמש בגפיים שלהם כדי לגשת למכשירים. לשם כך, גוגל פיתחה את " Project Gameface ", ממשק שליטה במחשב המשתמש בהבעות פנים שיכולות לשלוט בתנועות העכבר במשחקי וידאו כדי לסייע לגיימרים נכים.
גוגל התחברה עם לאנס קאר, גיימר עם צורה נדירה של ניוון שרירים. הבית שלו נשרף, מה שהרס את הציוד שבו השתמש בדרך כלל כדי לשחק במשחקים כמו "וורלד אוף וורקראפט". מהנדסים בגוגל החלו להשתמש ב-MediaPipe כדי לאפשר למצלמת אינטרנט לשלוט בחוויית המשחק שלו - למשל הרמת גבות כדי ללחוץ ולגרור פה נפתח או עווית שפה לצד אחד כדי להזיז סמן.
כל זה יכול להיעשות במכונה אחת, ללא צורך בשום דבר חזק במיוחד וזה החזיר את היכולת של קאר לחזור למשחקים ולטוס שוב ברחבי Azeroth.
ה Project Gameface מייצג רק אחת מהאפשרויות הפוטנציאליות הרבות של AI נייד, אבל היא חזקה מאוד. "אני שולט במחשב שלי עם פרצופים מצחיקים? זה די מדהים, "אמר קאר.
MediaPipe: Google’s Open Source Framework for ML solutions
צריכים ראייה ממוחשבת? Viso Suite הוא הפתרון הכל-באחד עבור צוותים לבנייה, אספקה, התאמה של יישומי ראייה ממוחשבת ללא קוד.
ואילו MediaPipe היא מסגרת צינור חוצה פלטפורמות לבניית פתרונות למידת מכונה מותאמים אישית עבור מדיה חיה וזרימה. המסגרת הייתה בקוד פתוח על ידי גוגל ונמצאת כעת בשלב אלפא.
מה זה MediaPipe?
למידת מכונה במכשיר לכולם: פתרון ML בקוד פתוח, חוצה פלטפורמות, הניתן להתאמה אישית עבור מדיה חיה וזרימה.
היכולות של MediaPipe Solutions מספקת חבילה של ספריות וכלים ליישום מהיר של בינה מלאכותית (AI) ולמידת מכונה (ML) ביישומים שלך. אפשר לחבר את הפתרונות האלה ליישומים שלך באופן מיידי, להתאים אותם לצרכים שלך ולהשתמש בהם על פני פלטפורמות פיתוח מרובות. MediaPipe Solutions הוא חלק מפרויקט הקוד הפתוח של MediaPipe , כך שתוכל להתאים אישית את קוד הפתרונות כדי לענות על צרכי היישום שלך. חבילת MediaPipe Solutions כוללת את הדברים הבאים:
ספריות ומשאבים אלה מספקים את פונקציונליות הליבה עבור כל פתרון MediaPipe:
יכולות MediaPipe Tasks : ממשקי API וספריות חוצי פלטפורמות לפריסת פתרונות. למד.י עוד
דגמי MediaPipe : דגמים מוכנים להפעלה שהוכשרו מראש לשימוש עם כל פתרון.
כלים אלה מאפשרים לך להתאים אישית ולהעריך פתרונות:
מודל MediaPipe Model Maker : התאם אישית מודלים לפתרונות עם הנתונים שלך. למד.י עוד
סטודיו MediaPipe Studio : הדמיין, העריך והשוואת פתרונות בדפדפן שלך. למד.י עוד
פתרונות זמינים
פתרונות MediaPipe זמינים במספר פלטפורמות. כל פתרון כולל דגם אחד או יותר, וניתן להתאים דגמים גם לכמה פתרונות. הרשימה הבאה מציגה אילו פתרונות זמינים עבור כל פלטפורמה נתמכת ואם אתה יכול להשתמש ב-Model Maker כדי להתאים אישית את הדגם:
זיהוי אובייקטים : משימת MediaPipe Object Detector מאפשרת לך לזהות את הנוכחות והמיקום של מחלקות מרובות של אובייקטים בתוך תמונות או סרטונים. לדוגמה, גלאי אובייקטים יכול לאתר כלבים בתוך תמונה. משימה זו פועלת על נתוני תמונה עם מודל למידת מכונה (ML), מקבלת נתונים סטטיים או זרם וידאו רציף כקלט ומוציאה רשימה של תוצאות זיהוי. כל תוצאת זיהוי מייצגת אובייקט המופיע בתוך התמונה או הסרטון.
המדריך המלא : https://developers.google.com/mediapipe/solutions/vision/object_detector
סיווג תמונה : משימת MediaPipe Image Classifier מאפשרת לך לבצע סיווג על תמונות. אתה יכול להשתמש במשימה זו כדי לזהות מה תמונה מייצגת בין קבוצה של קטגוריות שהוגדרו בזמן האימון. משימה זו פועלת על נתוני תמונה עם מודל למידת מכונה (ML) כנתונים סטטיים או זרם רציף ומוציאה רשימה של קטגוריות פוטנציאליות המדורגות לפי ציון הסתברות יורד.
המדריך המלא : https://developers.google.com/mediapipe/solutions/vision/image_classifier
פילוח תמונה : המשימה MediaPipe Image Segmenter מאפשרת לך לחלק תמונות לאזורים על סמך קטגוריות מוגדרות מראש. אתה יכול להשתמש בפונקציונליות זו כדי לזהות אובייקטים או מרקמים ספציפיים, ולאחר מכן להחיל אפקטים חזותיים כגון טשטוש רקע. משימה זו כוללת מספר מודלים שהוכשרו במיוחד לפילוח אנשים ותכונותיהם בתוך נתוני תמונה, כולל:
המדריך המלא : https://developers.google.com/mediapipe/solutions/vision/image_segmenter
פילוח אינטראקטיבי : המשימה MediaPipe Interactive Image Segmenter מאפשרת לך לחלק תמונה לשני אזורים: אובייקט נבחר וכל השאר. המשימה לוקחת מיקום בתמונה, מעריכה את הגבולות של אובייקט במיקום זה ומחזירה נתוני תמונה המגדירים את שטח האובייקט. אתה יכול להשתמש במשימה זו כדי לבחור אובייקט בתמונה באופן אינטראקטיבי ולהשתמש בפלט כדי להחיל אפקטים על התמונה, כגון שכבות צבע המדגישות את האובייקט או טשטוש הרקע סביבו. משימה זו פועלת על נתוני תמונה עם מודל למידת מכונה (ML) ואתה יכול להשתמש בה על תמונות בודדות, קבצי וידאו או זרם וידאו רציף.
המדריך המלא : https://developers.google.com/mediapipe/solutions/vision/interactive_segmenter
זיהוי ציוני./ סמני דרך ביד : המשימה של MediaPipe Hand Landmarker מאפשרת לך לזהות את ציוני הדרך של הידיים בתמונה. אתה יכול להשתמש במשימה זו כדי לאתר נקודות מפתח של הידיים ולעבד אפקטים חזותיים על הידיים. משימה זו פועלת על נתוני תמונה עם מודל למידת מכונה (ML) כנתונים סטטיים או זרם רציף ומוציאה ציוני דרך בקואורדינטות של תמונה, ציוני דרך בקואורדינטות עולמיות וידידות (יד שמאל/ימין) של מספר ידיים שזוהו.
המדריך המלא : https://developers.google.com/mediapipe/solutions/vision/hand_landmarker
זיהוי מחוות : המשימה של MediaPipe Gesture Recognizer מאפשרת לך לזהות תנועות ידיים בזמן אמת, ומספקת את תוצאות תנועות היד המזוהות יחד עם ציוני הדרך של הידיים שזוהו. אתה יכול להשתמש במשימה זו כדי לזהות תנועות ידיים ספציפיות ממשתמש, ולהפעיל תכונות יישום המתאימות למחוות אלו.
המדריך המלא : https://developers.google.com/mediapipe/solutions/vision/gesture_recognizer
הטבעת תמונה : המשימה MediaPipe Image Embedder מאפשרת לך ליצור ייצוג מספרי של תמונה, דבר שימושי בביצוע משימות תמונה שונות המבוססות על ML. פונקציונליות זו משמשת לעתים קרובות כדי להשוות את הדמיון של שתי תמונות באמצעות טכניקות השוואה מתמטית כגון דמיון קוסינוס. משימה זו פועלת על נתוני תמונה עם מודל למידת מכונה (ML) כנתונים סטטיים או זרם רציף, ומוציאה ייצוג מספרי של נתוני התמונה כרשימה של וקטורי תכונה בעלי מימד גבוה, הידועים גם בתור וקטורים הטמעים, בכל אחד מהם צף -נקודה או צורה כמותית.
המדריך המלא : https://developers.google.com/mediapipe/solutions/vision/image_embedder
זיהוי פנים : משימת MediaPipe Face Detector מאפשרת לך לזהות פרצופים בתמונה או בסרטון. אתה יכול להשתמש במשימה זו כדי לאתר פנים ותווי פנים בתוך מסגרת. משימה זו משתמשת במודל למידת מכונה (ML) שעובד עם תמונות בודדות או זרם רציף של תמונות. המשימה מציגה את מיקומי הפנים, יחד עם נקודות המפתח הבאות לפנים: עין שמאל, עין ימין, קצה האף, פה, טראגיית עין שמאל וטראגיית עין ימין.
המדריך המלא : https://developers.google.com/mediapipe/solutions/vision/face_detector
ציוני דרך של זיהוי פנים : משימת MediaPipe Face Landmarker מאפשרת לך לזהות ציוני דרך והבעות פנים בתמונות ובסרטונים. אתה יכול להשתמש במשימה זו כדי לזהות הבעות פנים אנושיות, להחיל מסנני פנים ואפקטים וליצור אווטרים וירטואליים. משימה זו משתמשת במודלים של למידת מכונה (ML) שיכולים לעבוד עם תמונות בודדות או זרם רציף של תמונות. המשימה מפיקה ציוני דרך תלת מימדיים, ציוני צורת blendshape (מקדמים המייצגים הבעת פנים) כדי להסיק משטחי פנים מפורטים בזמן אמת, ומטריצות טרנספורמציה לביצוע הטרנספורמציות הנדרשות לעיבוד אפקטים.
המדריך המלא : https://developers.google.com/mediapipe/solutions/vision/face_landmarker
זיהוי ציוני דרך של תנוחה : משימת MediaPipe Pose Landmarker מאפשרת לך לזהות ציוני דרך של גופים אנושיים בתמונה או בסרטון. אתה יכול להשתמש במשימה זו כדי לזהות מיקומי גוף מרכזיים, לנתח יציבה ולסווג תנועות. משימה זו משתמשת במודלים של למידת מכונה (ML) שעובדים עם תמונות בודדות או וידאו. המשימה מוציאה ציוני דרך של תנוחות הגוף בקואורדינטות תמונה ובקואורדינטות עולם תלת מימדיות.
המדריך המלא :
סיווג טקסט : משימת MediaPipe Text Classifier מאפשרת לך לסווג טקסט לקבוצה של קטגוריות מוגדרות, כגון סנטימנט חיובי או שלילי. הקטגוריות מוגדרות במהלך הכשרת המודל. משימה זו פועלת על נתוני טקסט עם מודל למידת מכונה (ML) כנתונים סטטיים ומוציאה רשימה של קטגוריות וציוני הסבירות שלהן.
המדריך המלא : https://developers.google.com/mediapipe/solutions/text/text_classifier
הטמעת טקסט : משימת MediaPipe Text Embedder מאפשרת לך ליצור ייצוג מספרי של נתוני טקסט כדי ללכוד את המשמעות הסמנטית שלהם. פונקציונליות זו משמשת לעתים קרובות כדי להשוות את הדמיון הסמנטי של שני קטעי טקסט באמצעות טכניקות השוואה מתמטית כגון דמיון קוסינוס. משימה זו פועלת על נתוני טקסט עם מודל למידת מכונה (ML), ומוציאה ייצוג מספרי של נתוני הטקסט כרשימה של וקטורי תכונה בעלי מימדים גבוהים, הידועים גם בתור וקטורים הטבעה, בנקודה צפה או בצורה כמותית.
המדריך המלא :
גלאי שפה : משימת MediaPipe Language Detector מאפשרת לך לזהות את השפה של קטע טקסט. משימה זו פועלת על נתוני טקסט עם מודל למידת מכונה (ML) ומוציאה רשימה של חיזויים, כאשר כל חיזוי מורכב מקוד שפה ISO 639-1 והסתברות.
המדריך המלא : https://developers.google.com/mediapipe/solutions/text/language_detector
סיווג אודיו : המשימה MediaPipe Audio Classifier מאפשרת לך לסווג קטעי אודיו לקבוצה של קטגוריות מוגדרות, כגון מוזיקת גיטרה, משרוקית רכבת או שירת ציפור. הקטגוריות מוגדרות במהלך הכשרת המודל. משימה זו פועלת על נתוני אודיו עם מודל למידת מכונה (ML) כקטעי אודיו עצמאיים או זרם רציף ומוציאה רשימה של קטגוריות פוטנציאליות המדורגות לפי ציון הסתברות יורד.
המדריך המלא : https://developers.google.com/mediapipe/solutions/audio/audio_classifier