בלי לעבור בין כלים: ג'מיני אומני מטפל בטקסט, תמונות, אודיו ווידאו

Yossi Demri
פורסם ב- 26/05/2026 11:52
עודכן לאחרונה: 26/05/2026 13:17

עד לא מזמן לא היה פשוט לדבר עם AI בשפה טבעית ולבקש ממנו לבצע משימות מורכבות, וגם לא הייתה פלטפורמה אחת שאיפשרה ליצור ולערוך וידאו, טקסטים ותמונות תחת קורת גג אחת, עד שהגיע ג'מיני אומני (Gemini Omni). מודל שמסוגל להבין, לעבד וליצור סוגי תוכן שונים.

גוגל ניצלה את במת אירוע המפתחים השנתי שלה Google I/O 2026, כדי לחשוף את אומני, שהוגדר על ידה כמודל "Any-to-Any". כלומר כזה שמסוגל לקבל כמעט כל סוג של תוכן ולהמיר אותו לכל סוג תוכן אחר. הדגם הראשון בסדרה, Gemini Omni Flash, מביא איתו יכולת אחת מסקרנת במיוחד: עריכת וידאו באמצעות שיחה טבעית, כך שמשתמשים יכולים ליצור, לערוך ולשלב קטעי וידאו באמצעות פקודות טקסט או קול, בלי צורך להשתמש בתוכנות עריכה מורכבות.

מה זה ג'מיני אומני ?

אומני הוא למעשה המודל המולטימודלי ה- "נייטיבי" הראשון של Google DeepMind ליצירת מדיה, כזה שנבנה מראש לעבוד עם כמה סוגי תוכן במקביל. גרסת ה- Flash הראשונה כבר זמינה לשימוש בתוך אפליקציית ג'מיני ובניגוד לגישות קודמות שבהן כל סוג מדיה טופל בנפרד, כאן המודל מסוגל לקבל טקסט, תמונות, אודיו ווידאו, ולהפיק מהם פלט וידאו אחד אחיד. המשמעות היא שאין צורך לעבור בין פלטפורמות ומודלים שונים במהלך העבודה, אלא יש מודל אחד מתקדם שמבצע את כל המשימה מקצה לקצה.

עד שאומני הושק, גוגל עבדה בגישה שבה כל סוג מדיה מטופל בנפרד: מודל Veo טיפל בווידאו, Imagen יצר תמונות ומודלים אחרים טיפלו באודיו. אומני מציע כל היכולות הללו בתוך מערכת אחת, מה שמאפשר למודל "לחשוב" על כל סוגי המדיה בו-זמנית ולהפיק תוצאה טובה יותר. בפועל, זה עשוי להתבטא בעריכות וידאו חלקות יותר, פחות שגיאות שנוצרות במעבר בין שלבים שונים בתהליך העריכה, וקבלת תהליך יצירה אחיד שמתבצע כולו במקום אחד.

מה מיוחד באומני ?

ג'מיני אומני מציג גישה חדשה ליצירת ועריכת וידאו באמצעות AI, בשילוב יכולות שכבר הכרנו מכלים ליצירת תמונות, אבל לראשונה גם בתחום הווידאו. מה שמייחד את המודל הזה הוא לא רק התכונות המתקדמות שהוא מציע, אלא הדרך שבה אפשר לתקשר איתו: שיחה טבעית ומתן הנחיות אחת אחרי השנייה. מעבר לכך, הוא זוכר את כל השינויים ומבין את כל הסצנה המלאה שמתפתחת במהלך השיחה.

כמו לשוחח עם עורך וידאו

במקום לעבוד עם ציר זמן (טיימליין) מורכב או כל מיני אפליקציות, תוכנות וכלים מקצועיים, המשתמש פשוט מעלה וידאו – בין אם כזה שהוא צילם בעצמו או בין בין זה וידאו שנוצר על ידי AI, ומתחיל לשוחח עם אומני. הוא יכול לבקש ממנו "להפוך את התאורה לחמה יותר", "לשנות את זווית הצילום למעוף הציפור" או אפילו "להעלים את העציץ שעל השולחן" ואומני מיד יערוך את הווידאו בהתאם לבקשה. כל שינוי שנעשה נשמר כחלק מהשיחה, כך שההנחיות מצטברות והסצנה ממשיכה להתפתח במקום להתאפס בכל שלב מחדש.

**סצנה שנוצרה על ידי אומני בשיחה טבעית. קרדיט: Google**

משרטוט ראשוני לסרטון מלא

אחת היכולות המסקרנות של Gemini Omni היא האפשרות להפוך סקיצות ושרבוטים פשוטים לווידאו מלא ומציאותי. במקום להתייחס לציור כאל תוצאה סופית, המודל משתמש בו כהנחיה לתנועה ולמבנה של הסצנה, בעוד שהמראה הוויזואלי עצמו נבנה מחדש בצורה מציאותית לחלוטין. המשמעות היא שגם רעיונות ראשוניים שנכתבו על נייר יכולים להפוך להדמיה חיה בתוך שניות, מה שהופך את הכלי לשימושי במיוחד בשלבי ההפקה המוקדמים.

מעבר לכך, היכולת הזו פותחת דלת גם ליוצרים צעירים, שיכולים לראות כיצד סתם רעיון שעלה להם בראש מתעורר פתאום לחיים.

המודל שיודע פיזיקה

אחד הדגשים המרכזיים של גוגל בהשקת המודל הוא ההבנה של פיזיקה מהעולם האמיתי. לפי החברה, אומני מבין את חוקי הטבע כמו כוח הכבידה, אנרגיה קינטית ודינמיקה של נוזלים, כדי שהתנועה בסרטונים תיראה טבעית ואמינה יותר. עם זאת, לפי דוגמאות שהוצגו ונוצרו על ידי גרסת ה- Flash הראשונית, נראה כי חלק מהתוצאות עדיין לא כל כך משכנעות לחלוטין מבחינת ריאליזם פיזיקלי.

בחברה ציינו כי מדובר רק בשלב ראשוני וכי גרסאות מתקדמות יותר כמו אומני פרו (Omni Pro) צפויות לשפר משמעותית את הדיוק והעקביות, ויתחרו ישירות במודלים מתקדמים אחרים כמו Seedance 2.0.

יש גם סימנים בלתי נראים

כדי להתמודד עם אתגרים הקשורים לאותנטיות ותוכן שנוצר על ידי AI, כל וידאו שאומני יוצר מגיע עם שתי שכבות של אימות מקור. הראשונה היא SynthID – סימן מים בלתי נראה שמוטמע ישירות בתוך הפיקסלים בזמן יצירת התוכן, ואינו ניתן לזיהוי בעין אנושית, אך מתוכנן לשרוד חיתוך, פילטרים וקידוד מחדש. ושכבת C2PA, הכוללת חתימה קריפטוגרפית המצורפת לקובץ ומאפשרת לאמת את מקור התוכן וההיסטוריה שלו.

השילוב בין שתי השיטות מבטיח שגם אם מסירים את המטא-דאטה מהקובץ, עדיין יהיה ניתן לזהות שמדובר בתוכן שנוצר על ידי AI.

אומני יודע לייצר וידאו בסגנונות שונים — **אומני יודע ליצור וידאו בסגנונות שונים. קרדיט: Google**

כל הכלים הנחוצים ליצירה תחת קורת גג אחת

כאמור, היתרון הגדול ביותר שמביא איתו אומני הוא בגישה החדשה שמאפשרת לכל תהליך הווידאו להתבצע במקום אחד. המעבר בין הפלטפורמות השונות יצר כל מיני שלבים מיותרים בדרך שלעיתים פגעו בתוצר הסופי. אומני מבצע את כל התהליך הזה לבד, הודות ליכולת החשיבה שגוגל העניקה לו שמאפשרת לו להבין את הטקסט, התמונה, האודיו והוידאו, ולחבר מהם סרטון שלם ברמה גבוהה.

גוגל עדכנה כי היא עובדת בימים אלה על גרסה מתקדמת ועוצמתית יותר של אומני, שמיועדת עבור חברות וארגונים גדולים. מודל כזה עשוי להפוך לכלי מרכזי בהפקת מדיה מקצועית, אוטומציה של תהליכי יצירה, ושילוב עמוק יותר של AI בתוך מגוון תהליכי עבודה הקשורים ליצירה.