מודל האודיו החדש של OpenAI צפוי להיחשף באופן רשמי עד סוף הרבעון הראשון של השנה, כך עולה מדיווח חדש של The Information. לפי המקור, ענקית ה-AI מכוונת להשקה עד סוף חודש מרץ, כאשר המטרה העיקרית היא יצירת מודל שמסוגל לנהל שיחות קוליות בזמן אמת בצורה טבעית, מהירה ומשכנעת הרבה יותר מהפתרונות הקיימים כיום בשוק.
קפיצת מדרגה באינטראקציה הקולית
הפיתוח החדש נועד לפתור את אחת הבעיות המרכזיות של מודלים קוליים נוכחיים, השהיה (Latency) ותחושת הרובוטיות. בעוד המודלים הנוכחיים של החברה, כמו GPT-realtime, מבוססים על ארכיטקטורת ה-Transformer המוכרת, לא ברור עדיין אם המודל החדש יציג ארכיטקטורה שונה לחלוטין או אופטימיזציה אגרסיבית של הטכנולוגיה הקיימת.

כחלק מהמאמץ, איחדה OpenAI מספר צוותי מחקר והנדסה תחת הובלתו של קונדאן קומאר (Kundan Kumar), חוקר בכיר שהצטרף לחברה לאחר שעבד ב-Character.AI. המטרה היא לייצר מודל ש"מבין" אודיו בצורה ישירה, בדומה למודלים מתקדמים, ולא בהכרח ממיר אותו לגרפים (ספקטרוגרמות) לפני העיבוד, כפי שעושה מודל ה-Whisper הוותיק יותר. שינוי כזה עשוי לאפשר תגובות מיידיות ושינויי טון עדינים במהלך שיחה.
התחרות מול Suno וגוגל
המהלך של OpenAI לא מתרחש בחלל ריק. החברה לוטשת עיניים לשוק הבידור והמוזיקה, שם שחקניות כמו Suno Inc כבר מגלגלות הכנסות של כ-200 מיליון דולר בשנה מיצירת שירים מבוססי AI. היכולת לייצר אודיו איכותי אינה מוגבלת רק לדיבור; היא פותחת דלת לשוק צרכני רחב יותר של יצירת תוכן ומדיה.
במקביל, המתחרה הגדולה גוגל (Google) כבר הטמיעה מודלים מקומיים ("על המכשיר") כמו Gemini Nano בסדרת הפיקסל שלה. היכולת לעבד אודיו באופן מקומי על המכשיר חוסכת עלויות ענן ומאיצה את התגובה, יתרון ש-OpenAI חייבת להדביק אם ברצונה להיכנס לשוק החומרה.
מתי מודל האודיו החדש של OpenAI ישולב בחומרה?
השאלה הגדולה היא לא רק מתי המודל יושק, אלא מתי נראה אותו בתוך מכשירים פיזיים. לפי הדיווחים, המודל החדש הוא אבן פינה בדרך להשקת "מכשיר אישי מבוסס אודיו" (Audio-first device) בעוד כשנה.

החברה עובדת בשיתוף פעולה הדוק עם המעצב האגדי ג'וני אייב (Jony Ive) וסטארטאפ העיצוב שלו, LoveFrom, על פיתוח מכשיר ייעודי. השמועות מדברות על מכשיר שולחני או לביש שנועד להחליף את האינטראקציה מבוססת המסך. כדי שמכשיר כזה יצליח, הוא חייב מודל אודיו שמרגיש "אנושי" לחלוטין, וזה בדיוק מה ש-OpenAI מנסה להשיג ברבעון הקרוב.
האם מדובר במהפכה או שדרוג?
עדיין לא ברור אם החברה תשיק גרסה אחת או מספר גרסאות ברמות איכות שונות (בדומה למודל ה-Whisper). מה שבטוח הוא שהשילוב בין מודל אודיו מהיר לבין חומרה ייעודית מסמן את השלב הבא באבולוציה של ה-AI, המעבר מצ'אט טקסטואלי לשיחה קולית זורמת.
