השוואה: איזה מודל שפה הכי טוב בעברית
עד היום השתמשתי בעיקר בקלוד, אבל בעקבות ההשקה של ג'מיניי חשבתי שהגיע זמן לערוך השוואה מחודשת כדי להבין עם איזה מודל הכי מומלץ לעבוד בעברית
הקדמה קצרה לפני שמתחילים: זוהי השוואה מדגמית שכוללת חמישה מבחנים שאני הגדרתי ונשמעו לי מעניינים. חשוב לי להדגיש שזוהי לא השוואה מחקרית שקובעת מי המודל הכי טוב באופן מוחלט ולכן אני מציע לכם להסתכל על זה יותר כחומר למחשבה שיתן לכם מוטיבציה לנסות את שלושתם ולהחליט בעצמכם.
המודלים שבדקתי:
ג’יפיטי - ChatGPT 4 (הגרסה בתשלום)
ג’מיניי Gemini Advanced (הגרסה בתשלום)
קלוד - Claude 2.0 (גרסה חינמית)
אתגר ראשון: תרגום טקטס מאנגלית לעברית.
על מנת לוודא שהמודלים אכן יתרגמו את הקטסט ולא יכירו אותו מלפני היה לי חשוב למצוא טקסט מאד עדכני, לכן שלחתי לכל אחד מהם את העדכון האחרון של בארד. הנה התוצאות:
ג’יפיטי 4:
קלוד:
ג’מיניי:
סיכום התוצאות:
ג’מיניי לקח פה בגדול. הוא היה הכי מהיר, ניסח בצורה הכי יפה, ידע לשלב עברית ואנגלית ובנוסף הוא היחיד שתומך בRTL.
אחריו היה קלוד שגם תרגם יפה היה פחות אלגרנטי ויותר איטי מג’מיניי בהרבה.
ובמקום האחרון ג’יפיטי 4 שגם כתב הכי לאט, גם התעייף באמצע פעמיים והייתי צריך לבקש שימשיך וגם עשה קצת בלאגן עם האנגלית והעברית.
2.כתיבת שיר בחרוזים.
מטרת המבחן: לבדוק האם המודלים מבינים את השפה לעומק ומסוגלים להבין הברות וצלילים של מילים.
והתוצאות:
ג'מיניי:
ציון: נכשל! אין פה חרוזים בכלל.
קלוד:
ציון: גם נכשל! אין פה חרוזים בכלל.
ג'יפיטי:
ציון: 80. מפתיע! הוא היחיד שהצליח בכלל למצוא חרוזים. עם זאת עדיין יש הרבה מקום לשיפור:
כמעט כל החרוזים נגמרים עם האותו “ם” והוא פשוט המציא את המילה “צ’ופס”, שזה נושא מעניין בפני עצמו ואולי בכלל אפשר לחשוב על זה כפיצ’ר ולא כבאג.
3.פירוש מילים קשות מהפסיכומטרי.
מטרת המבחן: להבין לאיזה מודל יש את אוצר המילים הכי גדול.
לקחתי 10 מילים רנדומליות מהפסיכומטרי וביקשתי מכל אחד מהמודלים להסביר אותן:
אלה המילים:
אופנסיבה - מתקפה, ויטאלי - חיוני, טרד - גרש, הרחיק, גבין - גבה, טולרנטי - סובלני, שכוי - תרנגול, חבוש - כלוא, אסור, אדוה - גל קטן, גוויל - דף בספר עתיק, חלמאי - טיפש
והתוצאות:
ג'יפיטי 4: ענה נכון על 3/10
קלוד: ענה נכון על 4/10
ג'מיניי: ענה נכון על 5/10
תוצאה: ניצחון נוסף לג’מיניי 🎉 זה כמובן מדגמי וייתכן שאם הייתי בוחר במילים אחרות התוצאות היו שונות.
4. לכתוב בדיחה עם משחק מילים.
מטרת המבחן: לבדוק הבנה עמוקה של השפה והקשרים בין מילים שונות.
ג’יפיטי 4:
ציון: נכשל. את הבדיחה הראשונה אני מודה שלא הבנתי והשניה נחמדה אבל היא לא ייחודית לעברית.
קלוד:
ציון: נכשל. אפילו לא מספיק טוב כבדיחות קרש 😅
ג’מיניי:
ציון: 80. הבדיחה הראשונה מעולה! הוא הבין את הקשר בין עגבניה למטבוחה. הבדיחה השניה היא קצת בדיחת קרש ויכלה לעבוד גם באנגלית, אבל לפחות היא הגיונית.
5. כתיבת פוסט אותנטי ללינקדאין
רציתי לבדוק עד כמה המודלים מסוגלים לכתוב בשפה אנושית ואותנטית. והנה התוצאות:
ג’יפיטי 4:
קלוד:
תוצאות:
נתחיל בזה ששלושת המודלים כתבו פוסט גנרי שבחיים לא הייתי מפרסם, אבל אני שם בצד את בחירת הנושא שאפשר גם לשנות בהתאם לפרומפט ומתייחס לכתיבה עצמה.
גם כאן אני חושב שג’מיניי כתב הכי יפה משלושתם. ג’יפיטי הפתיע אותי לטובה וכתב בשפה טובה וקלוד קצת איכזב בזה שהשתמש במילים גבוהות מדי שנשמעות מוזר כמו “מדוע” ו”עמיתים לעבודה” שנשמעות מוזר בפוסטים.
סיכום ומה למדתי מהניסוי:
המנצח הגדול הוא ללא ספק ידידנו החדש Gemini Advanced 🎉🎉🎉
מעבר לזה שהוא ניצח ב 4/5 מהמבחנים הוא גם היה הכי מהיר בצורה משמעותית והיחיד שתומך בRTL ומסדר את הטקסט בצורה יפה בעמוד.
עד היום תמיד עבדתי בעברית רק עם קלוד ומעכשיו אני מתכוון לעבור לג’מיניי, אלא אם אצטרך שיר בחרוזים ואז אבחר בג’יפיטי :)
אשמח לשמוע מה דעתכם והאם החוויה שלכם בעברית גם דומה או שונה.
וואלה, אהבתי!
השוואה מעניינת מאוד ות׳כלס עושה חשק ללכת לנסות.