עברית שפה קשה

עברית, בדגש קל על עברית מדוברת בת זמננו

1.10.08

סדיסטיקה

הנושא חורג מעט מגבולות הדיון הרגילים שלנו, אבל לאור התגובות לגבי התרגום של גוגל מעברית ולעברית חשבתי שאולי כדאי לתת מעט קישורים לקריאה נוספת בעניין.

באופן כללי התרגום של גוגל מבוסס על מה שמכונה תרגום מכונה סטטיסטי. הרעיון מאחורי שיטה זו פשוט: בעזרת מודלים סטטיסטיים של שתי השפות מחפשים טקסט שההסתברות שהוא התרגום של הטקסט הנתון היא מקסימאלית. המימוש הוא הרבה יותר מורכב ומתוחכם, כמובן.

גוגל מסבירים בקצרה את הרעיון ב FAQ של מערכת התרגום שלהם. בזמנו שמעתי הרצאה של מנהל המחקר שלהם שסיפר איך הם פיתחו בכמה ימים את התרגום מערבית - מבלי שאיש בצוות ידע ערבית... יש להניח שהתוצאה לא הייתה מושלמת!

בכדי שהתרגום יהיה מוצלח המודל הסטטיסטי צריך להיות מבוסס על קורפוס גדול ככל האפשר. יש להניח שזו אחת הסיבות לכך שהם מאפשרים היום להציע תיקוני תרגום. גוגל אף פתחו אתר לשידוך בין מתרגמים ללקוחות, שייתכן שהוקם למטרות דומות.

למי שרוצה לדעת הרבה יותר: רשימת הפניות למאמרים, והסבר כללי על הטכינקות של תרגום מכונה סטטיסטי, כולל הפניות למאמרים.

תוויות: , ,

5 תגובות

Anonymous אנונימי כתב

נשאלת השאלה אם ככה, מדוע התרגום לעברית מגיע רק בשלב הזה? הרי אם לא באמת צריך לדעת את השפה, והכל מבוסס יותר על מאגר מילים וסטטיסטיקה, אז על מה כל המהומה?

1:03 PM  
Blogger אהוד כתב

ה"מהומה" היא קודם כל על זה שיש עכשיו מנוע תרגום חופשי לעברית, ושגוגל עומדת מאחוריו ובוודאי תפעל כדי לשפר אותו.

עניינית, לא "הכל" מבוסס על סטטיסטיקה. השטן מצוי בפרטים, ושם יש בהחלט מקום לכוונון שתלוי באופי של השפה.

היה מעניין אם מישהו מגוגל היה מספר לנו יותר, ועוד יותר מכך לשמוע עוד כשנה לקחים ומסקנות, אבל אני בספק אם נזכה לכך.

10:39 PM  
Anonymous אנונימי כתב

הסתמכות על קורפוס גדול, למשל מערכת התרגומים של הנאומים בפרלמנט הקנדי, בין אנגלית וצרפתית, הוא רק אחד הכלים.
אפשרות נוספת, היא מערכת גזירה של השפה ותרגומה מ/אל שפה אוניברסלית.

1:21 PM  
Blogger אהוד כתב

ירון, האם אתה מתכוון למערכת ספציפית זו?

8:12 PM  
Anonymous אנונימי כתב

אהוד, קראתי לי אז באתי.
קודם כל, צריך קורפוס מוצלב מספיק גדול, ולוקח זמן לאסוף אותו.
שנית, אכן השטן מצוי בפרטים ולכל שפה יש את השטיקים שלה שצריך לסדר לתוך המערכת. לשם כך צריך למצוא מהנדס שגם יודע עברית וגם מבין את המפלצת הענקית של תוכנה שהיא מערכת התרגום של גוגל וגם מבין משהו בעיבוד שפות טבעיות. לוקח זמן עד שאחד כזה מגיע.
סביר להניח שגוגל לא רוצים לצאת עם שפות חדשות עד שהן לא עומדות בסטנדרט שלהם ושיש מישהו שלוקח "בעלות" עליהן. סביר שרק אחרי שהן עומדות בסטנדרטים החמורים שלהם גוגל משיקה את השפה החדשה. יש יותר נזק בלצאת עם שפה שהתרגום מחורבן מאשר תועלת.
ידוע שלגוגל יש מדיניות מאוד מחמירה של חשאיות לכן לא סביר שמסקנות ופרטים "מעניינים" יותר יפורסמו בחוץ.
 

10:49 PM  

הוסף רשומת תגובה

<< Home