עד לא מזמן לא היה פשוט לדבר עם AI בשפה טבעית ולבקש ממנו לבצע משימות מורכבות, וגם לא הייתה פלטפורמה אחת שאיפשרה ליצור ולערוך וידאו, טקסטים ותמונות תחת קורת גג אחת, עד שהגיע ג'מיני אומני (Gemini Omni). מודל שמסוגל להבין, לעבד וליצור סוגי תוכן שונים.
גוגל ניצלה את במת אירוע המפתחים השנתי שלה Google I/O 2026, כדי לחשוף את אומני, שהוגדר על ידה כמודל "Any-to-Any". כלומר כזה שמסוגל לקבל כמעט כל סוג של תוכן ולהמיר אותו לכל סוג תוכן אחר. הדגם הראשון בסדרה, Gemini Omni Flash, מביא איתו יכולת אחת מסקרנת במיוחד: עריכת וידאו באמצעות שיחה טבעית, כך שמשתמשים יכולים ליצור, לערוך ולשלב קטעי וידאו באמצעות פקודות טקסט או קול, בלי צורך להשתמש בתוכנות עריכה מורכבות.
מה זה ג'מיני אומני ?
אומני הוא למעשה המודל המולטימודלי ה- "נייטיבי" הראשון של Google DeepMind ליצירת מדיה, כזה שנבנה מראש לעבוד עם כמה סוגי תוכן במקביל. גרסת ה- Flash הראשונה כבר זמינה לשימוש בתוך אפליקציית ג'מיני ובניגוד לגישות קודמות שבהן כל סוג מדיה טופל בנפרד, כאן המודל מסוגל לקבל טקסט, תמונות, אודיו ווידאו, ולהפיק מהם פלט וידאו אחד אחיד. המשמעות היא שאין צורך לעבור בין פלטפורמות ומודלים שונים במהלך העבודה, אלא יש מודל אחד מתקדם שמבצע את כל המשימה מקצה לקצה.
עד שאומני הושק, גוגל עבדה בגישה שבה כל סוג מדיה מטופל בנפרד: מודל Veo טיפל בווידאו, Imagen יצר תמונות ומודלים אחרים טיפלו באודיו. אומני מציע כל היכולות הללו בתוך מערכת אחת, מה שמאפשר למודל "לחשוב" על כל סוגי המדיה בו-זמנית ולהפיק תוצאה טובה יותר. בפועל, זה עשוי להתבטא בעריכות וידאו חלקות יותר, פחות שגיאות שנוצרות במעבר בין שלבים שונים בתהליך העריכה, וקבלת תהליך יצירה אחיד שמתבצע כולו במקום אחד.
מה מיוחד באומני ?
ג'מיני אומני מציג גישה חדשה ליצירת ועריכת וידאו באמצעות AI, בשילוב יכולות שכבר הכרנו מכלים ליצירת תמונות, אבל לראשונה גם בתחום הווידאו. מה שמייחד את המודל הזה הוא לא רק התכונות המתקדמות שהוא מציע, אלא הדרך שבה אפשר לתקשר איתו: שיחה טבעית ומתן הנחיות אחת אחרי השנייה. מעבר לכך, הוא זוכר את כל השינויים ומבין את כל הסצנה המלאה שמתפתחת במהלך השיחה.
כמו לשוחח עם עורך וידאו
במקום לעבוד עם ציר זמן (טיימליין) מורכב או כל מיני אפליקציות, תוכנות וכלים מקצועיים, המשתמש פשוט מעלה וידאו – בין אם כזה שהוא צילם בעצמו או בין בין זה וידאו שנוצר על ידי AI, ומתחיל לשוחח עם אומני. הוא יכול לבקש ממנו "להפוך את התאורה לחמה יותר", "לשנות את זווית הצילום למעוף הציפור" או אפילו "להעלים את העציץ שעל השולחן" ואומני מיד יערוך את הווידאו בהתאם לבקשה. כל שינוי שנעשה נשמר כחלק מהשיחה, כך שההנחיות מצטברות והסצנה ממשיכה להתפתח במקום להתאפס בכל שלב מחדש.

משרטוט ראשוני לסרטון מלא
אחת היכולות המסקרנות של Gemini Omni היא האפשרות להפוך סקיצות ושרבוטים פשוטים לווידאו מלא ומציאותי. במקום להתייחס לציור כאל תוצאה סופית, המודל משתמש בו כהנחיה לתנועה ולמבנה של הסצנה, בעוד שהמראה הוויזואלי עצמו נבנה מחדש בצורה מציאותית לחלוטין. המשמעות היא שגם רעיונות גולמיים על נייר יכולים להפוך להדמיה חיה בתוך שניות, מה שהופך את הכלי לשימושי במיוחד בשלבי ההפקה המוקדמים. מעבר לכך, היכולת הזו פותחת דלת גם לקהל צעיר יותר, שיכול לראות כיצד הדמיון שלו, אפילו כזה שהוא צייר על הנייר, מתעורר לחיים על המסך.
המודל שיודע פיזיקה
אחד הדגשים המרכזיים של גוגל בהשקת המודל הוא ההבנה של פיזיקה מהעולם האמיתי. לפי החברה, אומני מבין את חוקי הטבע כמו כוח הכבידה, אנרגיה קינטית ודינמיקה של נוזלים, כדי שהתנועה בסרטונים תיראה טבעית ואמינה יותר. למרות ההצהרות של גוגל, לפי דוגמאות שהוצגו ונוצרו על ידי גרסת ה- Flash הראשונית, נראה כי התוצאות עדיין לא תמיד משכנעות לחלוטין מבחינת ריאליזם פיזיקלי.
בחברה ציינו כי מדובר רק בשלב ראשוני וכי גרסאות מתקדמות יותר כמו אומני פרו (Omni Pro) צפויות לשפר משמעותית את הדיוק והעקביות – כדי להתחרות ישירות במודלים מתקדמים אחרים כמו Seedance 2.0.
כדי להתמודד עם אתגרים הקשורים לאותנטיות ותוכן שנוצר על ידי AI, כל וידאו שאומני יוצר מגיע עם שתי שכבות של אימות מקור. הראשונה היא SynthID – סימן מים בלתי נראה שמוטמע ישירות בתוך הפיקסלים בזמן יצירת התוכן, ואינו ניתן לזיהוי בעין אנושית, אך מתוכנן לשרוד חיתוך, פילטרים וקידוד מחדש. ושכבת C2PA, הכוללת חתימה קריפטוגרפית המצורפת לקובץ ומאפשרת לאמת את מקור התוכן וההיסטוריה שלו.
השילוב בין שתי השיטות מבטיח שגם אם מסירים את המטא-דאטה מהקובץ, עדיין ניתן לזהות שמדובר בתוכן שנוצר על ידי AI.

כל כלי היצירה תחת קורת גג אחת
עד עכשיו, יצירת מדיה באמצעותה בינה מלאכותית גנרטיבית התבצעה בכמה שלבים שונים, כאשר בכל שלב מערכת המטפלת בתוכן מסוג מסוים העבירה את התוצר למערכת ייעודית אחריה: טקסט עבר למודל אחד, תמונה הועברה למודל אחר, משם לווידאו, ובהמשך גם לאודיו. כל מעבר כזה בין מערכות יצר נקודת חולשה אפשרית – מקום שבו האיכות של התוצר הסופי עלולה להיפגע. מה שטוב באומני זה שהוא מבצע את כל העיבוד הזה בתוך מודל אחד אחיד, שמסוגל “לחשוב” בו-זמנית גם על הטקסט, גם על התמונה, גם על האודיו וגם על הוידאו באותו תהליך.
גוגל עדכנה כי היא עובדת בימים אלה על גרסה מלאה וחזקה יותר של אומני, שתיועד עבור חברות וארגונים גדולים. מודל כזה עשוי להפוך לכלי מרכזי בהפקת מדיה מקצועית, אוטומציה של תהליכי יצירה, ושילוב עמוק יותר של AI בתוך מגוון רחב של תהליכי עבודה הקשורים ליצירה.





