חברת Google DeepMind הבריטית, השיקה גרסה חדשה למודל ה- AI שלה ליצירת עולמות וירטואליים – Genie 3.
מדובר במודל מתקדם המסוגל לבנות סביבות תלת-ממד אינטראקטיביות בזמן אמת, בהן יכולים לפעול גם משתמשים וגם סוכני AI. בגוגל מבטיחים חוויית משחק ארוכה ורציפה יותר מבעבר, עם יכולת מרשימה של המערכת "לזכור" את מיקום האובייקטים גם כשאינם נמצאים בשדה הראייה של המשתמש.
מודלי עולמות (World Models) הם סוג של מערכות AI המסוגלות לדמות סביבות וירטואליות לתחומי החינוך, בידור או לאימון רובוטים וסוכני AI. במקום לעצב עולמות ידנית עם נכסים תלת-ממדיים, המודלים הללו יוצרים סביבות דינמיות בזמן אמת על סמך פקודה טקסטואלית – בדומה לחוויית משחק מחשב אינטראקטיבית.
גוגל משקיעה מאמצים רבים בתחום הזה – בדצמבר 2024 היא הציגה את Genie 2, שידע להפיק עולמות אינטראקטיביים מתוך תמונה אחת בלבד. כעת, היא בונה צוות ייעודי למודלים האלה, בהובלת בכיר לשעבר מ- OpenAI שהיה שותף לפיתוח סורה (Sora).
למרות ההתקדמות המרשימה, למודלי העולמות הווירטואליים יש לא מעט מגבלות – Genie 2 למשל, איפשר לשחק בעולמות שהוא יצר רק במשך דקה אחת בלבד. גם פתרונות דומים של חברות אחרות נמצאים בימים אלה בשלבי פיתוח – ניסוי שנערך לאחרונה בטכנולוגיית "וידאו אינטראקטיבי" של חברה הנתמכת על ידי מייסד פיקסאר, תואר כחוויה מטושטשת המזכירה את Google Street View, אך בזו האובייקטים משתנים ומתעוותים באופן בלתי צפוי בזמן תנועה.
המודל Genie 3 עשוי לסמן קפיצת מדרגה משמעותית בתחום יצירת העולמות הווירטואליים באמצעות בינה מלאכותית. לפי מאמר שהתפרסם באתר Deepmind, המודל מאפשר למשתמשים ליצור סביבות אינטראקטיביות שיתמכו בכמה דקות של פעולה רציפה. מדובר בשיפור ניכר לעומת Genie 2, שאיפשר אינטראקציה של 10-20 שניות בלבד.
ל- Genie 3 יש גם יכולתי לשמור חללים בזיכרון הוויזואלי במשך כדקה. כלומר, אם תסתכלו על חפץ כלשהו, תסובבו את הראש ואז תסתכלו אליו שוב, דברים כמו צבע על קיר או טקסט על לוח יישארו באותו מקום. העולמות יהיו גם ברזולוציה של 720p ויפעלו ב- 24 פריימים לשנייה.
המודל החדש מציע גם פיצ'ר חדש שנקרא "אירועים ניתנים לשליטה באמצעות פרומפט" (“Promptable world events”), שיאפשר למשתמשים לבצע שינויים בתנאי הסביבה בעולם הווירטואלי, כמו שינוי מזג האוויר או הוספת דמויות חדשות באמצעות הנחיית טקסט (פרומפט) פשוטה.
למרבה הצער, המודל Genie 3 כנראה לא יהיה זמין לציבור הרחב בשלב זה. הוא יושק תחילה כ- "תצוגה מקדימה מוגבלת למחקר" ויועמד לרשות קבוצה מצומצמת של חוקרים ויוצרים בלבד. זאת במטרה לאפשר לחוקרים לבחון את הסיכונים ולגבש מנגנוני הגנה מתאימים, כך נמסר מגוגל.
בשלב ההשקה יוטלו גם מגבלות רבות על אופן השימוש במודל, כולל אינטראקציה מוגבלת עם הסביבות שנוצרות וטקסט קריא שיופיע רק כאשר יסופק על ידי המשתמש באופן מפורש בתיאור העולם.
בגוגל מרגיעים ואומרים כי הם שוקלים להרחיב את הגישה למשתמשים נוספים בעתיד.