דיווח: חברת OpenAI תשיק את מודל האודיו החדש שלה כבר ברבעון הקרוב

OpenAI רוצה לגרום לכם לדבר עם המחשב כמו אל חבר, ולא להסתפק רק בהקלדת טקסט.

אבי דוד
מאת אבי דוד
3 דקות קריאה
תמונה: OpenAI
תמונה: OpenAI
אמ;לק
  • החברה מתכננת להשיק את המודל עד סוף חודש מרץ עם יכולות שיחה טבעיות יותר
  • המהלך מובל על ידי צוותים משולבים תחת קונדאן קומאר במטרה לשפר אינטראקציות בזמן אמת
  • המודל צפוי להוות בסיס למכשיר החומרה העתידי שמתכננת החברה עם המעצב ג'וני אייב

מודל האודיו החדש של OpenAI צפוי להיחשף באופן רשמי עד סוף הרבעון הראשון של השנה, כך עולה מדיווח חדש של The Information. לפי המקור, ענקית ה-AI מכוונת להשקה עד סוף חודש מרץ, כאשר המטרה העיקרית היא יצירת מודל שמסוגל לנהל שיחות קוליות בזמן אמת בצורה טבעית, מהירה ומשכנעת הרבה יותר מהפתרונות הקיימים כיום בשוק.

עקבו אחרינו ב-Google הוסיפו כמקור מועדף

קפיצת מדרגה באינטראקציה הקולית

הפיתוח החדש נועד לפתור את אחת הבעיות המרכזיות של מודלים קוליים נוכחיים, השהיה (Latency) ותחושת הרובוטיות. בעוד המודלים הנוכחיים של החברה, כמו GPT-realtime, מבוססים על ארכיטקטורת ה-Transformer המוכרת, לא ברור עדיין אם המודל החדש יציג ארכיטקטורה שונה לחלוטין או אופטימיזציה אגרסיבית של הטכנולוגיה הקיימת.

מחברים אתכם לטכנולוגיה. עכשיו יותר מתמיד.

האפליקציה הרשמית של The Verifier

Download on App Store Download on App Store

כחלק מהמאמץ, איחדה OpenAI מספר צוותי מחקר והנדסה תחת הובלתו של קונדאן קומאר (Kundan Kumar), חוקר בכיר שהצטרף לחברה לאחר שעבד ב-Character.AI. המטרה היא לייצר מודל ש"מבין" אודיו בצורה ישירה, בדומה למודלים מתקדמים, ולא בהכרח ממיר אותו לגרפים (ספקטרוגרמות) לפני העיבוד, כפי שעושה מודל ה-Whisper הוותיק יותר. שינוי כזה עשוי לאפשר תגובות מיידיות ושינויי טון עדינים במהלך שיחה.

התחרות מול Suno וגוגל

המהלך של OpenAI לא מתרחש בחלל ריק. החברה לוטשת עיניים לשוק הבידור והמוזיקה, שם שחקניות כמו Suno Inc כבר מגלגלות הכנסות של כ-200 מיליון דולר בשנה מיצירת שירים מבוססי AI. היכולת לייצר אודיו איכותי אינה מוגבלת רק לדיבור; היא פותחת דלת לשוק צרכני רחב יותר של יצירת תוכן ומדיה.

עקבו אחרינו ב-Google הוסיפו כמקור מועדף

במקביל, המתחרה הגדולה גוגל (Google) כבר הטמיעה מודלים מקומיים ("על המכשיר") כמו Gemini Nano בסדרת הפיקסל שלה. היכולת לעבד אודיו באופן מקומי על המכשיר חוסכת עלויות ענן ומאיצה את התגובה, יתרון ש-OpenAI חייבת להדביק אם ברצונה להיכנס לשוק החומרה.

מתי מודל האודיו החדש של OpenAI ישולב בחומרה?

השאלה הגדולה היא לא רק מתי המודל יושק, אלא מתי נראה אותו בתוך מכשירים פיזיים. לפי הדיווחים, המודל החדש הוא אבן פינה בדרך להשקת "מכשיר אישי מבוסס אודיו" (Audio-first device) בעוד כשנה.

החברה עובדת בשיתוף פעולה הדוק עם המעצב האגדי ג'וני אייב (Jony Ive) וסטארטאפ העיצוב שלו, LoveFrom, על פיתוח מכשיר ייעודי. השמועות מדברות על מכשיר שולחני או לביש שנועד להחליף את האינטראקציה מבוססת המסך. כדי שמכשיר כזה יצליח, הוא חייב מודל אודיו שמרגיש "אנושי" לחלוטין, וזה בדיוק מה ש-OpenAI מנסה להשיג ברבעון הקרוב.

האם מדובר במהפכה או שדרוג?

עדיין לא ברור אם החברה תשיק גרסה אחת או מספר גרסאות ברמות איכות שונות (בדומה למודל ה-Whisper). מה שבטוח הוא שהשילוב בין מודל אודיו מהיר לבין חומרה ייעודית מסמן את השלב הבא באבולוציה של ה-AI, המעבר מצ'אט טקסטואלי לשיחה קולית זורמת.

שתפו כתבה
עורך משנה
מעקב
ממקימי האתר ועורך משנה | פנבוי של אפל אבל שומר חסד נעורים למיקרוסופט. מומחה SEO והתמיכה הטכנית של הצוות באתר. לאבי ניסיון רב בכתיבה טכנית ועבודה בתחום - בין היתר היה שותף ב-GSM-Israel ובעל אתר טכנולוגי עצמאי בשם TechIT. | סלולרי: iPhone 16 Pro Max מחשב: MacBook Air 13 M4" טאבלט: iPad Pro 11" שעון חכם: Apple Watch Ultra
אין תגובות

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *