האבולוציה של הצ'אט

וגם: איך שני סטודנטים הצליחו להפוך את המשקפיים של מטא למשקפי ריגול, האם זה אפשרי לכתוב פוסטים באוטומציות, מוצרים חדשים שיצאו השבוע ועוד עדכונים

Amitay Boneh

Oct 10, 2024

אהלן חברים,

כאן אמיתי בונה עם הניוזלטר בנושא AI ופרודקוטיביות, השבוע בתוכנית:

ה-UI החדש של ה-AI: הכירו את ChatGPT Canvas.
איך שני סטודנטים מהרווארד הצליחו להפוך את המשקפיים של מטא למשקפי מעקב חכמות?
האם זה אפשרי לכתוב פוסטים מעניינים בעזרת אוטומציית AI בלבד?
עוד עדכונים.

* אם העברית לא מיושרת אצלכם אני ממליץ לקרוא את הניוזלטר בגרסת ה- Web דרך הבלוג.

ה-UI החדש של ה-AI: הכירו את ChatGPT Canvas.

מאז ש-ChatGPT נכנס לחיינו לפני שנתיים, התרגלנו לעבוד עם מודלי שפה דרך ממשק של צ’אט.

אבל האם זה באמת הממשק הכי טוב כדי להפיק את המירב מהכלים האלה?

לממשק הצ'אט יש יתרונות ברורים: הוא קל לתפעול, לא מצריך הדרכה ומייצר ערך מיידי בפרק זמן קצר.

זו גם אחת הסיבות שהוא הצליח כל כך ובדיעבד נראה שהבחירה של OpenAI לצאת בממשק הזה היתה נכונה.

מצד שני, כשחושבים על המאפיינים של סביבת העבודה המודרנית, כנראה שצ’אט הוא לא הממשק האידיאלי.

לאחרונה אנחנו עדים לאבולוציה בממשקי ה-AI הפופולריים, מצ'אטים פשוטים - למערכות מתוחכמות יותר שמתאימות לקולבורציה ולעבודה בסביבה של פרוייקטים מורכבים:

גוגל השיקה את NotebookLM, קלוד הוסיפו את Artifacts ו-Projects, מיקרוסופט השיקה את-Pages ועכשיו קיבלנו את התשובה של OpenAI: ממשק ה-Canvas החדש.

אז מה זה בעצם Canvas ולאיזה שימושים הוא טוב?

שני השימושים בהם הוא מהווה יתרון משמעותי הם כתיבה של טקסטים ארוכים ועבודה עם קוד.

נתחיל מכתיבה:

עד היום היינו עושים פחות או יותר את הפלואו הזה:

כותבים פרומפט > שולחים לצ’אט> מקבלים תוצאה > מעתיקים למסמך וממשיכים לערוך שם.

הממשק החדש מאפשר לנו לעבוד בצורה הרבה יותר יעילה ולחסוך את השלב האחרון.

היכולת הכי משמעותית ב-Canvas היא האפשרות לערוך טקסטים ופסקאות ספיציפיות בגוף הטקסט - מבלי לשנות כל שאר הטקסט.

הנה סרטון להמחשה:

בזכות היכולות האחה הזה אנחנו גם נמנעים מ-Context Switch וגם יכולים לנצל את יכולות ה-AI לעריכה של חלקים מהטקסט מבלי לשנות את כל המסמך. (זה דיי מייתר כלים משלימים שהשתמשתי בהם עד היום כמו Wordtune ו-Grammarly.)

בנוסף, הם הוסיפו סרגל כלים עם קיצורי דרך ליכולות מובנות ושימושיות שאפשר ליישם בקליק כמו:
הצעות עריכה, שינוי אורך המסמך, התאמה לקהלים שונים, הגהה והוספת Emojis.

גם בתחום הקוד, הוא מציע יתרונות דומים:
עריכה של קטעי קוד ספיצפיים (קצת מזכיר את Cursor) וקיצורי דרך לשימושים מאד מעניינים כמו: תיקון באגים, הוספת לוגים, הוספת Comments ,לעשות לנו Code review ואפילו לתרגם את הקוד לשפת תכנות אחרת.

הנה הדמו של OpenAI שמדגים איך אפשר להשתמש בו לעבודה עם קוד:

הפרטים הטכניים שאתם צריכים לדעת:

כרגע זמין רק למשתמשים בגרסאות בתשלום.
עובד רק עם מודל GPT4-o ולא עם המודל החדש o1. (אבל כן עובד עם GPTs!)
כדי להפעיל אותו צריך פשוט לבחור אותו בתפריט המודלים.

לסיכום: מדובר בממשק מעולה שמשפר את העבודה עם הצ’אט בכל מה שקשור לכתיבה ולקוד.

כנראה שיקח לנו קצת זמן להתרגל אליו, אבל ממה שיצא לי להתנסות אני חושב שזו בשורה גדולה שתביא איתה שדרוג משמעותי לפרודוקטיביות בעבודה עם הצ’אט.

זהירות, עוקבים אחריכם.

איך שני סטודנטים מהרווארד הצליחו להפוך את המשקפיים של מטא למשקפי מעקב חכמות?

בשבוע שעבר מטא הכריזה על גרסה חדשה ומשודרגת למשקפי ה-Ray-Ban בשילוב AR והדגימה איך אפשר להשתמש בהן כדי לקבל מידע בזמן אמת על הסביבה שלכם, כמו לזהות פרחים למשל.

שני סטודנטים מהרווארד החליטו לקחת את הטכנולוגיה הזו לקצה ולהראות כהם יצרו אפליקציה בשם I-XRAY שהופכת את משקפי ה-Ray-Ban החדשות של מטא למכונת ריגול.

בעזרת חיבור של 5 טכנולוגיות שונות הם הצליחו להוציא שמות, כתובות ומספרי טלפון של אנשים תמימים ברחוב — הכל פשוט מלהסתכל על מישהו עם המשקפיים.

הנה סרטון ההדגמה שלהם ששבר את הרשת:

אז איך זה עובד?

המשקפיים יכולות להקליט עד שלוש דקות של וידאו .
הוידאו והתמונות מוזרמים בזמן אמת לאינסטגרם בטלפון שלהם.
האפליקציה משתמשת בשירות לזיהוי פנים בשם PimEyes כדי להתאים את הפנים לתמונות ציבוריות, ואז משתמשת ב-AI כדי לחפש פרטים אישיים במאגרי מידע ציבוריים על האנשים שבתמונות.

לטענתם, מטרת הפרויקט היתה להראות כמה קל לעשות את זה ולכן הם לא משחררים את הכלי, אבל כנראה שאם שני סטודנטים הצליחו לעשות את זה - עוד אנשים יכולים.

חשוב להגיד: מטא הגיבה לסרטון והדגישה שגם לפני שהם הוציאו את משקפיים אפשר היה לעשות בדיוק אותו התהליך - למשל עם המצלמה של הטלפון או מצלמת סטרימינג נסתרת.

כלומר,ף - מה שחדש פה זה החיבור של כל הכלים האלה ביחד לטכנולוגיית AR לבישה.

לכן, אם צריך לשים את האצבע על ה"בעיה" שהסרטון הזה מעלה, מדובר בעיקר ביכולת לצלם אנשים מבלי שהם מודעים (וגם זה לא לגמרי מדוייק כי המשקפיים מפעילות אור אדום בוהק בזמן שהן מצלמות…)

לסיכום: זו באמת סוגיה מטרידה שצפויה להשפיע על הפרטיות שלנו בשנים הקרובות. לדעתי לחברות הגדולות שמשיקות את המוצרים האלה יש אחריות למנוע שימושים כאלה והן צריכות לחשוב על מנגנוני הגנה.

האם הן יצליחו? אני בספק.

ברגע שמשקפי AR או טכנולוגיות לבישות אחרות יכנסו למיינסטרים זה רק עניין של זמן עד יצאו הרבה חיקויים זולים שניתן לפרוץ.

בשלב מסויים הרחוב יהיה מלא באנשים שמשתמשים בהם וכנראה שנצטרך להשלים עם העובדה שכל רגע נתון ייתכן שמישהו מצלם אותנו…

אז אילו צעדים ניתן לנקוט כדי להגן על הפרטיות שלנו?

הדרך הכי בטוחה להגן על עצמכם היא למחוק כל איזכור שלכם מהאינטרנט, כולל רשתות חברתיות ומאגרי מידע של שירותים שהשתמשתם בהם, אבל זה כנראה לא פרקטי לרוב האנשים.

צעד אחר שכן ניתן לעשות כדי להקטין את הסיכויים שיזהו אתכם ברחוב עם הטכנולוגיה הזאת הוא למחוק עצמכם מהמאגרי זיהוי הפנים כמו PimEyes, ע"י הגשת בקשה מקוונת באתר שלהם.

איך עושים את זה?

אז החדשות הטובות הן ששני הסטודנטים מהסרטון כנראה הרגישו קצת לא נעים מכל הסיפור ופרסמו מסמך מפורט שמפרט את כל המאגרים האלה וגם קישורים והוראות איך למחוק את עצמכם מהם - הנה הקישור.

האם אפשרי ליצור פוסטים מעניינים בעזרת אוטומציית AI ללא מגע יד אדם?

הנושא של אוטומציות AI לכתיבת תוכן הוא עדיין תעלומה מבחינתי.

מצד אחד שמעתי מכמה אנשים, כולל כאלה שאני מעריך, שהם משתמשים באוטומציות לכתיבת תוכן ברשתות וזה עובד להם.

מצד שני, אני לרוב מזהה פוסטים כאלה והם תמיד נשמעים גנריים מדי, ללא ערך אמיתי ובשורה התחתונה - אין להם אינגייג'מנט.

השבוע נתקלתי בפוסט של נוי רובינשטיין בו הוא הסביר איך לבנות אוטומציה ב-Make שמחפשת עבורנו חדשות בתחום ה-AI ומסכמת אותן והחלטתי לנסות לבנות משהו כזה בעצמי אבל בדרך קצת שונה.

במקום להשתמש בMake החלטתי לנסות לבנות את אותה האוטומציה בדיוק - אבל בקוד. או יותר נכון - בעזרת Replit Agent וכלי AI נוספים שיכתבו אותו בשבילי.

ניגשתי לעבודה:

שלחתי את הפוסט של נוי כמו שהוא לג'יפיטי עם המודל -o1-preview וביקשתי שיתכנן לי את אותה האוטומציה בדיוק אבל בקוד ועם ממשק משתמש כולל מבנה התיקיות והקבצים (טיפ שקראתי איפשהו ועובד מעולה).
את התוכנית שהוא כתב שלחתי ל-Replit Agent וביקשתי שיבנה לי את זה כמוצר.
עם Replit Agent הגעתי יחסית מהר לתוצאה שעובדת. הבעיה היא שבשלב כלשהו הוא נתקע ולא הסכים להוסיף לי פילטר שקובע באיזה אורך אני רוצה את הפוסט.
בשלב הזה חיברתי את Cursor לאותו פרוייקט והמשכתי לעבוד דרכו. מאז הכל עבד חלק וגם ההעלאה לפרוקדשן (זה היתרון הגדול של עבודה עם Replit).

הבהרה חשובה: למרות שזה נשמע מסובך וארוך, כל התהליך לקח לי פחות משעתיים ולא הצריך ממני שום ידע בתכנות!
באופן קצת אבסורדי, הגענו למצב שבניה של מוצרים קטנים ואוטומציות בקוד עם AI הפכה ליעילה ומהירה יותר משימוש בכלי No-code, גם עבור מי שלא יודע לתכנת.

אז מה המוצר שבניתי יודע לעשות?

המשתמש כותב נושא (למשל פי'צר חדש שיצא) והכלי משתמש ב-Serp API ו ב-Firecrawl כדי למצוא את 3 הכתבות הראשונות עליו בגוגל, להוציא את התוכן שלהן ואז בעזרת GPT4o הוא מסכם אותן וכותב פוסט. כך זה נראה בפועל:

זו עדיין לא אוטומציה מלאה - כי המשתמש צריך להכניס את הנושא, אבל זה משהו שאפשר להוסיף בהמשך יחסית בקלות כולל גם העלאה אוטומטית ללינקדאין.

האתגר הכי גדול? היה דווקא הפרומפט.

ניסיתי כל מיני פרומפטים כדי שהפוסט ישמע אנושי ובאמת יהיה מעניין ולמרות שראיתי שיפור משמעותי, עדיין היה חסר שם משהו.

אני חושב שהכיוון של שימוש בכתבות מאתרי חדשות מובילים הוא כיוון טוב כי בסך הכל כי זה "חומר גלם" טוב, אבל למרות זאת הפוסטים שהוא כתב הרגישו לי רובוטיים מדי וחסרי מעוף.

לסיכום: ההתנסות הקצרה שלי היא מאד ראשונית ולא מעידה על היכולות או על המגבלות בתחום. אני בטוח שיש צוותים שלמים שעובדים קשה על לפתור את הנושא כבר חודשים ואין לי ספק שהם שהגיעו לתוצאות הרבה יותר טובות ממני.

עם זאת, מהמחקר שעשיתי באינטרנט, שיחות עם כמה תותחים בתחום וגם מהתגובות לפוסט שפירסמתי - עדיין לא הצלחתי למצוא דוגמאות לפוסטים ברמה גבוהה שנכתבו בצורה אוטומטית לחלוטין וללא מגע יד אדם (אם אתם חושבים אחרת אשמח לשמוע!).

המסקנה שהגעתי אליה בינתיים היא שהאוטומציות מתאימות יותר לאיסוף של רעיונות וחומרי גלם לפוסטים ובשיפור של הפוסטים אחרי שסיימתם לכתוב - אבל עדיין לא ליצירה של תוכן ברמה גבוהה מספיק.

עם זאת, אני מאמין שעם קצב ההתקדמות המטורף של ה-AI, תוך שנים בודדות נגיע למצב שתוכן שנכתב על ידי AI יצליח להיראות אנושי לגמרי ואפילו טוב יותר משל כותבים מקצועיים.

קחו למשל את הפודקאסטים של NotebookLM - האם לפני שהאזנתם להם האמנתם ש-AI מסוגל לייצר תוכן כזה?

זה כנראה לא יתאים לכל סוגי התוכן ואני לא חושב שזה יחליף את הכתיבה האנושית שמגיעה ממקום של שיתוף ורגש.

אבל בכל מה שקשור לתוכן מקצועי ותוכן שיווקי, לדעתי אנחנו בדרך לשם - ומי שיצליחו לפצח את זה ראשונים ירוויח בגדול.

בינתיים, אשמח ללמוד מכם:

האם אתם משתמשים באוטומציות לכתיבת פוסטים או טיוטות?
אם כן - מה ה-workflow הכי טוב שמצאתם?
תוכלו להכווין אותי לפוסטים מוצלחים שנוצרו בעזרת AI בלבד וקיבלו אינגייג'מנט?

עוד עדכונים:

לדבר עם המחשב: בשבוע שעבר כתבתי על ההשקה של Realtime API שמאפשר להתשמש במודל הקולי של OpenAI דרך ה-API ולשלב אותו במוצרים.
בשבוע האחרון כמה משתמשים מהטוויטר כבר הספיק לבנות איתו כמה דברים מעניינים כמו למשל אפליקציה לגלישה בדפדפן באמצעות קול ואפליקציה שמסוגלת “לדבר” עם כל אתר באינטרנט.
חברת Black Forest Labs השיקה השבוע את מודל FLUX 1.1. מדובר בגרסה חדשה למודל שלהם שהיא גם מהירה יותר וגם מצליחה לשבור את תקרת הריאלזים שהכרנו.
כרגע ניתן לנסות אותו ב-Fal.ai (בתשלום) או באתר הזה בחינם לשימוש מוגבל.
יש גם איזה האק נחמד שרץ בטוויטר: אם מוסיפים לפרומפט משהו בסגנון של “IMG_1018.CR2” זה גורם לו להוציא תוצרים ריאלסטיים במיוחד, הנה כמה דוגמאות.
שיטת תמחור חדשה: אנתרופיק משיקה את Batches API , שיטת תמחור חדשה המאפשרת להשתמש במודל שלהם ב-50% הנחה - אם אתם מוכנים לחכות 24 שעות לתשובה.
זה כנראה משתלם להם כי הם יודעים לנצל את הכוח המחשוב הפנוי שלהם בשעות שאין עומס וזה יכול להיות פתרון מעניין להרבה מערכות שלא צריכות עבודה בזמן אמת.
בשבוע שעבר חברה בשם StackBlitz השיקה Agent חדש לכתיבת קוד בשם bolt שעושה גלים בטוויטר וכבר הספיק לקבל את הכינוי Cursor Killer.
מדובר במתחרה ישיר ל-Replit Agent עם יכולות דומות (אבל כנראה עובד חלק יותר) והחדשות הטובות הן שיש לו גם גרסה חינמית!
עוד לא הספקתי לנסות אותו אבל שמעתי מכמה אנשים שניסו שמדובר במוצר מעולה, אני מתכוון לנסות אותו בעצמי ולעדכן.
חברת Hailuo הסינית שהציגה לפני כחודשיים את מודל הוידיאו Minimax הכניסה אפשרות חדשה ליצירת וידיאו מתמונה, מה שמאפשר שליטה הרבה יותר גבוהה בתוצאות.
הסרטונים שהוא מייצר ממש מרשימים, הנה דוגמה אחת בה המודל הצליח לקחת את הMeme המפורסם לרמות שעוד לא הכרנו.
לסיום, קצת הומור: איך לינקדאין היתה נראית בחיים האמיתיים?

עד כאן להיום!

כרגיל, אם קיבלתם ערך מהניוזלטר אני מזמין אתכם לשתף עם חברים שיכולים להנות גם.

אמיתי