חברת OpenAI הכריזה אמש (שלישי, 21.04) על השקת ChatGPT Images 2.0, עדכון מאסיבי ליכולות יצירת התמונות של החברה שנועד להתחרות ישירות במודל ה-Nano Banana 2 (Gemini 3.1 Flash Image) של גוגל. הדגם החדש מהווה קפיצת מדרגה משמעותית לעומת גרסה 1.5 ששוחררה בסוף השנה שעברה, והוא מתמקד בשיפור הדיוק הקומפוזיציוני והיכולת לעקוב אחר הנחיות מורכבות במיוחד.

אחד השדרוגים הבולטים שהוצגו במהלך השידור החי של החברה הוא היכולת לייצר תמונות הכוללות טקסט קטן ומדויק. סם אלטמן, מנכ"ל OpenAI, הדגים כיצד המודל יכול לייצר ממשק משתמש של macOS או חלונות צ'אט שבהם כל מילה ואייקון מרונדרים בצורה מושלמת, ללא העיוותים שהיו נפוצים עד כה בתחום.
שני מסלולי יצירה: אינסטנט מול חשיבה
OpenAI הציגה שתי גרסאות נפרדות למודל החדש. הראשונה היא ChatGPT Images 2.0 Instant, הזמינה כעת לכלל המשתמשים ומספקת תוצאות מהירות ואיכותיות. הגרסה השנייה והמסקרנת יותר היא גרסת ה-Thinking, השמורה למנויי הפלוס והפרו. גרסה זו מסוגלת לחשוב לפני שהיא מייצרת את התמונה, היא יכולה לגלוש באינטרנט כדי למצוא מידע עדכני הרלוונטי לבקשה, לייצר מספר וריאציות שונות מאותו פרומפט ואף לבצע בדיקה עצמית לתוצרים כדי לוודא שהם עומדים במפרט שביקש המשתמש.



בנוסף, המודל החדש גמיש בהרבה מבחינת הפורמט. הוא מאפשר יצירת תמונות ביחסים שנעים בין 3:1 (רחב במיוחד) ל-1:3 (גבוה במיוחד), וכל זאת ברזולוציית 2K. השיפור בתמיכה הרב לשונית ניכר גם הוא, עם יכולת משופרת משמעותית בכתיבת טקסט בשפות כמו יפנית, קוריאנית, סינית והינדי.
זמינות ותמחור למפתחים
עבור קהילת המפתחים, מודל ה-gpt-image-2 זמין כעת דרך ה-API. התמחור נקבע על 8 דולר למיליון טוקנים של קלט (Input) ו-30 דולר למיליון טוקנים של פלט (Output). מפתחים יוכלו לנצל את היכולות החדשות כדי להטמיע יצירת תמונות מדויקת בתוך אפליקציות וכלים עסקיים הדורשים נאמנות גבוהה למציאות.
למרות הקפיצה ביכולות היצירתיות, ב-OpenAI מדגישים כי המודל כולל שכבות הגנה חדשות. ככל שהבינה המלאכותית הופכת למדויקת יותר, כך עולה החשיבות של אבטחת סייבר ומניעת שימוש במודלים הללו ליצירת תוכן מזויף (Deepfake) או הונאות ויזואליות. החברה הטמיעה מנגנוני זיהוי מובנים שנועדו למנוע יצירת תמונות פוגעניות או מטעות בקנה מידה רחב.
