סדיסטיקה
הנושא חורג מעט מגבולות הדיון הרגילים שלנו, אבל לאור התגובות לגבי התרגום של גוגל מעברית ולעברית חשבתי שאולי כדאי לתת מעט קישורים לקריאה נוספת בעניין.
באופן כללי התרגום של גוגל מבוסס על מה שמכונה תרגום מכונה סטטיסטי. הרעיון מאחורי שיטה זו פשוט: בעזרת מודלים סטטיסטיים של שתי השפות מחפשים טקסט שההסתברות שהוא התרגום של הטקסט הנתון היא מקסימאלית. המימוש הוא הרבה יותר מורכב ומתוחכם, כמובן.
גוגל מסבירים בקצרה את הרעיון ב FAQ של מערכת התרגום שלהם. בזמנו שמעתי הרצאה של מנהל המחקר שלהם שסיפר איך הם פיתחו בכמה ימים את התרגום מערבית - מבלי שאיש בצוות ידע ערבית... יש להניח שהתוצאה לא הייתה מושלמת!
בכדי שהתרגום יהיה מוצלח המודל הסטטיסטי צריך להיות מבוסס על קורפוס גדול ככל האפשר. יש להניח שזו אחת הסיבות לכך שהם מאפשרים היום להציע תיקוני תרגום. גוגל אף פתחו אתר לשידוך בין מתרגמים ללקוחות, שייתכן שהוקם למטרות דומות.
למי שרוצה לדעת הרבה יותר: רשימת הפניות למאמרים, והסבר כללי על הטכינקות של תרגום מכונה סטטיסטי, כולל הפניות למאמרים.
באופן כללי התרגום של גוגל מבוסס על מה שמכונה תרגום מכונה סטטיסטי. הרעיון מאחורי שיטה זו פשוט: בעזרת מודלים סטטיסטיים של שתי השפות מחפשים טקסט שההסתברות שהוא התרגום של הטקסט הנתון היא מקסימאלית. המימוש הוא הרבה יותר מורכב ומתוחכם, כמובן.
גוגל מסבירים בקצרה את הרעיון ב FAQ של מערכת התרגום שלהם. בזמנו שמעתי הרצאה של מנהל המחקר שלהם שסיפר איך הם פיתחו בכמה ימים את התרגום מערבית - מבלי שאיש בצוות ידע ערבית... יש להניח שהתוצאה לא הייתה מושלמת!
בכדי שהתרגום יהיה מוצלח המודל הסטטיסטי צריך להיות מבוסס על קורפוס גדול ככל האפשר. יש להניח שזו אחת הסיבות לכך שהם מאפשרים היום להציע תיקוני תרגום. גוגל אף פתחו אתר לשידוך בין מתרגמים ללקוחות, שייתכן שהוקם למטרות דומות.
למי שרוצה לדעת הרבה יותר: רשימת הפניות למאמרים, והסבר כללי על הטכינקות של תרגום מכונה סטטיסטי, כולל הפניות למאמרים.
תוויות: גוגל, עיבוד שפה טבעית, תרגום
5 תגובות
נשאלת השאלה אם ככה, מדוע התרגום לעברית מגיע רק בשלב הזה? הרי אם לא באמת צריך לדעת את השפה, והכל מבוסס יותר על מאגר מילים וסטטיסטיקה, אז על מה כל המהומה?
ה"מהומה" היא קודם כל על זה שיש עכשיו מנוע תרגום חופשי לעברית, ושגוגל עומדת מאחוריו ובוודאי תפעל כדי לשפר אותו.
עניינית, לא "הכל" מבוסס על סטטיסטיקה. השטן מצוי בפרטים, ושם יש בהחלט מקום לכוונון שתלוי באופי של השפה.
היה מעניין אם מישהו מגוגל היה מספר לנו יותר, ועוד יותר מכך לשמוע עוד כשנה לקחים ומסקנות, אבל אני בספק אם נזכה לכך.
הסתמכות על קורפוס גדול, למשל מערכת התרגומים של הנאומים בפרלמנט הקנדי, בין אנגלית וצרפתית, הוא רק אחד הכלים.
אפשרות נוספת, היא מערכת גזירה של השפה ותרגומה מ/אל שפה אוניברסלית.
ירון, האם אתה מתכוון למערכת ספציפית זו?
אהוד, קראתי לי אז באתי.
קודם כל, צריך קורפוס מוצלב מספיק גדול, ולוקח זמן לאסוף אותו.
שנית, אכן השטן מצוי בפרטים ולכל שפה יש את השטיקים שלה שצריך לסדר לתוך המערכת. לשם כך צריך למצוא מהנדס שגם יודע עברית וגם מבין את המפלצת הענקית של תוכנה שהיא מערכת התרגום של גוגל וגם מבין משהו בעיבוד שפות טבעיות. לוקח זמן עד שאחד כזה מגיע.
סביר להניח שגוגל לא רוצים לצאת עם שפות חדשות עד שהן לא עומדות בסטנדרט שלהם ושיש מישהו שלוקח "בעלות" עליהן. סביר שרק אחרי שהן עומדות בסטנדרטים החמורים שלהם גוגל משיקה את השפה החדשה. יש יותר נזק בלצאת עם שפה שהתרגום מחורבן מאשר תועלת.
ידוע שלגוגל יש מדיניות מאוד מחמירה של חשאיות לכן לא סביר שמסקנות ופרטים "מעניינים" יותר יפורסמו בחוץ.
הוסף רשומת תגובה
<< Home