חדשות ואירועים

סטודנטים מ-HIT יצרו רובוט שמגיש בקולו של שאול אמסטרדמסקי


הפרויקט זיכה את הסטודנטים בתחרות מטעם תאגיד השידור הציבורי מקסים מליכוב וטוני חסון, סטודנטים שנה שלישית לתואר ראשון בבית הספר למדעי המחשב בראשותו של ד"ר יונתן שלר, יצרו מערכת של עיבוד טקסט לקול, עבור הפודקאסט, "חיות כיס" מבית תאגיד השידור הציבורי.

 

בתמונה: הסטודנטים מקסים מליכוב וטוני חסון

בתמונה: הסטודנטים מקסים מליכוב וטוני חסון

 

הכל החל לפני 3 חודשים כאשר מערכת ההסכת הכלכלי הפופולארי פרסמה מודעה שבה היא הזניקה תחרות להגשת מערכות עיבוד קול שיצליחו לדמות את קולו של המגיש והעיתונאי, שאול אמסטרדמסקי.


חסון, סטודנט בקורס הבחירה "עיבוד קול למערכות תבוניות Voice Processing for Intelligent Systems" שמובילה ד"ר נאווה שקד יחד עם אנג' יורי יורצ'נקו, ראה את המודעה באינסטגרם והחליט שהוא פונה לחברו לכיתה, ומי שמתעניין לא פחות ממנו בבינה מלאכותית- מקסים מלכוב ויחד הם ייגשו לתחרות של תאגיד השידור הציבורי.


"אחד מתחומי הבינה המלאכותית הוא עיבוד קול ודיבור. מדובר בקורס מתקדם המציע הבנה תיאורטית משולבת בהתנסות מעשית של איך אות הדיבור האנושי יכול להיות מעובד על ידי מחשב. התחומים שאנו מכסים הם: זיהוי דיבור ASR, סינתזה דיבור TTS, זיהוי דובר ביומטרי, זיהוי רגש דיבור, ניתוח שפה בדיבור ועוד", מספרת ד"ר שקד ומוסיפה, "בשנים האחרונות התחום מהווה מרכיב חיוני בכל ממשק אדם-מכונה כחלק מיישומים/אפליקציות, מוצרי IoT, מחשוב לביש ורובוטים חברתיים - תחום חדש ומתפתח שנקרא Conversational Interaction. גם ליורי וגם לי ניסיון רב בתעשייה ביישום פרויקטי מסוג זה ואותם אנו מנחילים לסטודנטים."


במסגרת הקורס "עיבוד קול", השניים כבר יצרו בוט McOrder יישום אינטרנט ידידותי למשתמש המפעיל טכנולוגיית זיהוי דיבור כדי לבצע הזמנות בקלות ב- McDonald's Drive-Thru באופן אוטומטי לחלוטין ואף ביצעו ניסויים בפועל לעמידה ביעדי הפעלה ומהירות תגובה. 


טוני ומקסים מספרים כי הדרך ל"רובו-שאול" הייתה לא פשוטה בכלל מכיוון שהם הבינו מאד מהר כי העובדה שההסכת הוא בעברית, היא אתגר בכל הקשור לטכנולוגיות מתקדמות שכאלה. "מערכת קיימת שתעבד טקסט באנגלית לקול (אות דיבור) איננה דבר חדש. אנחנו כולנו זוכרים את סרטוני הפייק בקולם של נשיאי ארה"ב לשעבר, ברק אובמה ודונאלד טראמפ" מספר חסון. "הטכנולוגיה לא הייתה קיימת בעברית כיוון שכל שפה מצריכה פיתוח מודל שלה. באנגלית קשה יותר לבטא את הצליל ח' ובשפה העברית יש ניקוד ועוד הבדלים שמהווים אתגר".


בפני השניים היו למעשה שתי אופציות לתהליך עבודה. האחד הוא לכתוב מערכת חדשה לחלוטין או לקחת מודל דומה שעובד באנגלית ולעשות עבורו את האדפטציה המתאימה לעברית. "מצאנו מודל דומה שעובד בצורה הזו אבל הוא היה מאד מיושן ולמעשה, היינו צריכים לחדש אותו ולגרום לו לעבוד עם העברית ועם הקול הספציפי של שאול" אומר מליכוב. "זוהי למעשה פעם ראשונה שמישהו משנינו עושה משהו כזה. עבדנו על זה כחודש בערך שבמהלכו במשך המון שעות חקרנו ובדקו את הנושא ומודלים שקשורים ב"דיפ פייק".


לבסוף השניים הצליחו לבנות מערכת שממירה טקסט באנגלית לטקסט עברי עם ניקוד ואותו היא הופכת אותו לסאונד בקולו של המגיש אמסטרדמסקי. השניים התארחו בפרק של "חיות כיס", הפעם עם המגיש בשר ודם, כדי לחגוג את המאורע. "לא האמנתי שזה פשוט יקרה בסוף" מספר בהתלהבות טוני. "כששמעתי את הניסיון הראשון שעשינו עם שאול בהתחלה הייתי בהלם אבל אני מאמין גדול שהטכנולוגיה תשפר את החיים של האדם אז אני מניח שזה אפילו יכול עוד להשתפר".


מליכוב וחסון בשנה האחרונה ללימודיהם וכבר נראה כי מחכה להם עתיד מזהיר בתחום הבינה המלאכותית.. חסון כבר עובד במשרת סטודנט בחברת NCR בישראל, היא שלוחה של ענקית החומרה והתוכנה האמריקנית שמייצרת קופות בשירות עצמי ומליכוב עדיין מחפש את המשרה המתאימה לו אבל כפי הנראה כעת, החברה שתזכה בו - תרוויח.