איך מזהים טקסט שנכתב בעזרת צ'אטג'יפיטי
אהלן חברים! השבוע הניוזלטר בפורמט מקוצר כי היה לי שבוע קצת עמוס. בנוסף בשבועים הבאים אהיה במילואים אז לא בטוח שאספיק לשלוח.
אגב, אם אתם רוצים לקרוא ניוזלטרים קודמים תוכלו למצוא את כולם כאן
איך מזהים טקסט שנכתב בעזרת ChatGPT?
באחד הפוסטים הקודמים כתבתי שהרבה פעמים אני מצליח לזהות אימיילים ופוסטים שנכתבו על ידי ChatGPT רק לפי סגנון הכתיבה. בעקבות הפוסט אחד הקוראים שאל אותי האם יש "סימנים מפלילים" ספיצפיים שאני מחפש או שזה אינטואטיבי.
אמנם היו לי כמה דוגמאות, אבל היה לי קשה לשים את האצבע על משהו מדוייק, אז החלטתי לחקור את התופעה קצת יותר לעומק...
והתוצאות - מפתיעות👀
מסתבר שזו תופעה מוכרת ויש ת'רדים שלמים ברדיט עם דוגמאות ל" Overused ChatGPT Phrases" - מילים וביטויים שChatGPT משתמש בהם בתדירות גבוהה לעומת בני אדם. זו גם אחת הסיבות לכך שכשאנחנו קוראים את הטקסטים האלה הוא מרגישים לנו מוזר ולא תמיד יודעים למה…
הנה כמה דוגמאות שחזרו על עצמם:
I hope this email finds you well
It's important to note
Embark on a journey
First and foremost
Take a dive into
Testament to
Courtesy of
Delve into
Navigate
Tapestry
Bustling
Realm
מתחיל לצלצל לכם מוכר?
משתמש אחד בשם Jordan Gibbs לקח את זה אפילו צעד קדימה: הוא החליט לערוך ניסוי שיבדוק מה המילים והביטויים שהכי חוזרים על עצמם ביחד לטקסטים אנושיים.
הוא כתב קוד שיצר לו 2,500 פרומפטים בנושאים שונים ואז שולח אותם לצ'אט וקיבל בחזרה קובץ טקסט עצום של של 1.2 מיליון מילים שנוצרו ע"י ChatGPT. על מנת להשוות את התוצאות לטקסט של בני אדם הוא השתמש בקורפוס עצום של טקסטים מהאינטרנט באורך 97 מיליון מילים. בהמשך כך הוא כתב סקריפט שמחפש ביטויים ומילים שחוזרים על עצמם בתדירות גבוהה בכל אחד מהטקטסים במטרה לענות על השאלה:
איזה מילים וביטויים מופיעים בטקסט המלאכותי בתדירות הכי גבוהה ביחס לטקסטים האנושי?
הנה למשל הביטויים של 3 ו4 מילים שמופיעים בטקסט של ג'יפיטי בסבירות של פי 1,000 או יותר מאשר בטקסטים אנושיים:
ובקטגורית המילים הבודדות, המילים המובילות שיצאו הן:
אז למה זה קורה?
אני לא באמת יודע, אבל לפי ההגיון שלי זה פשוט מילים שהופיעו בתדירות גבוהה בטקסטים שהמודל אומן עליו. ייתכן למשל שהאימון הבתצע על טקסט יותר ספרותי, אקדמי או בשפה מיושנת יותר מהשפה המדוברת בה אנחנו משתמשים כיום.
אז מה אפשר לעשות לגבי זה?
קודם כל - להיות מודעים לתופעה. לשים לב אם בה לך הכתיבה עם הצ'אט אתם רואים את הביטויים האלה או ביטויים אחרים שנשמעים לכם קצת תלושים או בשפה גבוהה מדי וכאשר זה קורה לבקש מהצ'אט שיחליף אותך או לערוך בעצמכם.
דרך קצת מתחכמת שאני לא בטוח עדיין מה אני חושב עליה היא להוסיף לCustom instructions הנחיה לא להשתמש במילים הספיציפיות האלה. אני לא מתלהב מהרעיון כי אין מספיק מקום להכניס לשם את כל המילים והביטויים וזה גם קצת בזבוז של הפיצ'ר הזה כי יש דברים הרבה יותר מועילים שאפשר לכתוב שם, אבל זה לפוסט שיגיע בהמשך :)
אפשר לנסות לשנות את סגנון הכתיבה בצורה גורפת, בעזרת משפטים כמו:
“Avoid unnecessary jargon unless it is industry-specific and necessary for clarity”
או ממש ללמד אותו את סגנון הכתיבה שלכם כפי שתיארתי בפוסט הקודם.
יש גם כל מיני כלים ואתרים שמתיימרים לזהות טקסטים שנכתבו ע"י בינה מלאכותית ואפשר להעתיק אליהם את הטקסט כדי לבדוק, אבל לדעתי זה לא פתרון פרקטי וגם קראתי בכמה מקומות שהאחוזי הצלחה שלהם לא משהו.
רשימת מקורות:
המקור לגרפים שבתמונה (הת'רד המקורי ברדיט):
https://www.reddit.com/r/OpenAI/comments/18ho014/chatgpt_is_1000x_more_likely_to_use_the_word/
https://www.reddit.com/r/OpenAI/comments/18ie4pd/comment/kdcix9h/
הבלוג שמסביר איך בוצע הניסוי:
https://medium.com/@jordan_gibbs/which-phrases-are-the-most-chatgpt-of-all-b0911e3faf6b
עוד כמה עדכונים:
אם עדיין לא יצא לכם לשחק עם Suno ועם Udio אני ממליץ לכם להשקיע כמה דקות ולנסות. הכלים האלה משנים את עולם המוזיקה מתחת לאף שלנו וכבר היום אפשר לייצר שם שירים שנמעים אמיתיים לגמרי. אם אתם רוצים הצצה מהירה ליכולות בלי להירשם פשוט היכנסו ל”רדיו” של סונו שבו תוכלו לבחור סגנונות שונים ולהתרשם:
https://suno.com/explore
מה שעוד יותר הפתיע אותי זו רמת העברית שיש בSuno. הנה שיר שיצרתי בעברית לדוגמא:
מיקרוסופט פרסמו השבוע כלי שמסוגל להפוך תמונה יחידה לוידאו אנושי לגמרי. הכלי עדיין לא זמין לציבור ואני מקווה שגם לא יהיה זמין בקרוב, כי זה כלי שיכול לעשות הרבה נזק בידיים הלא נכונות.
גם בתחום הוידאו יש התפתחות מעניינת Adobe הודיעה שתשלב כלים ליצירת וידאו מובילים כמו Runway, Pika ואפילו Sora בתוכנת עריכת הוידאו שלה Premiere.
עד כאן להיום!
שיהיה חג שמח וסופ”ש רגוע ומהנה.
אמיתי