הג׳יפיטי מומנט של התמונות

וגם המודל החדש של גוגל, מפיגמה לפרוטוטייפ חי וסיכום חדשות הטוויטר

Mar 29, 2025

אהלן, כאן אמיתי בונה עם הניוזלטר על AI ופרודוקטיביות, השבוע בתוכנית:

ה-ChatGPT Moment של יצירת התמונות
גוגל משיקה את Gemini 2.5
מ-Figma לפרוטוטייפ חי
סיכום חדשות הטוויטר

ה-ChatGPT Moment של יצירת התמונות

אחרי שגוגל הוציאו את היכולות המולטימודליות של Gemini בשבוע שעבר, השבוע גם OpenAI שיחררו יכולות חדשות ומדהימות ליצירה ועריכה של תמונות כחלק מ-GPT-4o.

להזכירכם - עד היום כשביקשנו מ-ChatGPT ליצור לנו תמונות הוא כתב את הפרומפט ושלח אותו למודל נפרד שנקרא Dall-e ולמרות שכביכול קיבלנו את התמונה בתוך ממשק הצ׳אט - אלה היו שני מודלים נפרדים.

השינוי שקרה עכשיו הוא שמעכשיו אותו המודל שמייצר את הטקסט (GPT4o) מייצר גם את התמונות. חשוב לציין שזו יכולת שהיתה קיימת במודל הזה מאז שיצא, פשוט עכשיו הם החליטו לפתוח אותה למשתמשים.

אחרי שניסיתי אותו בעצמי וראיתי המון דוגמאות - אני משוכנע שנכון לעכשיו הוא מודל התמונות הכי טוב שיש, עד כדי כך שכלים כמו Midjourney או Ideogram עלולים בקרוב לאבד רלוונטיות למשתמשים הפשוטים.

מה שהכי הדהים אותי זו היכולת לקחת דמויות מתמונות קיימות ולשנות אותן בקלות – להחליף רקע, להפוך לילדים, לקריקטורות ועוד; דברים שבעבר דרשו תהליכים מורכבים כמו LoRA או פייפליינים מסובכים.

מעבר לרמת התמונות, הוא מבין את הבקשה שלנו בצורה הרבה יותר טובה וגם מסוגל לשמור על קונטקסט לאורך התהליך, מה שמאפשר ליצור דמויות עקביות או לבצע מספר איטרציות על אותה התמונה.

אחד הדוגמאות לכך טרנד הג׳יבלי שכבש את הטוויטר בסערה - מעלים תמונות לצ׳אט ומבקשים ממנו להפוך אותן לתמונות בסגנון Studio Ghibli (אנימציה יפנית).

זה תפס מאד חזק גם בארץ ורוב הסיכויים שהוא קפץ לכם בפיד של רשת חברתית, גם אם לא הייתם מודעים עליו (ראיתי כאלה גם בעמוד של ארץ נהדרת וכאן 11)

הוא כל הצליח עד שסם אלטמן, שהתחיל את הטרנד הזה בעצמו ששינה את תמונת הפרופיל שלו, כתב בטוויטר שהGPUs שלהם ״נמסים״ מרוב תמונות ג׳יבלי שאנשים מייצרים:

הטייק שלי:

למרות שזה אולי מרגיש כמו עוד גל התלהבות מוגזמת מכלי AI חדש,

בעיניי המודל החדש של OpenAI הוא עדיין Under-hyped, ואנחנו אפילו לא קרובים לגרד את מלוא הפוטנציאל שלו.

להערכתי, GPT-4o והכלים שייבנו עליו יהפכו בקרוב מאוד לכלי העבודה המרכזי של מעצבים גרפיים ואנשי קריאטיב.

אם עדיין לא ניסיתם, קחו אותו לסיבוב קצר – ותבינו מיד למה אני מתכוון.

אז איך משתמשים?

אופציה ראשונה: בממשק הצ׳אט פשוט לבקש תמונה.
אופציה שניה: דרך Sora.

*שימו לב שכרגע זמין רק למנויים משלמים של ChatGPT. אם הוא מסרב להוראות שלכם שווה לנסות גם ב-Sora.

ומה אפשר לעשות איתו?

הנה כמה רעיונות ששווה לנסות בעצמכם:

שלחו תמונה משפחתית ובקשו לייצר אותה בסגנונות שונים: פיקסאר, סימפסונס, וודסטוק, וכמובן – ג׳יבלי.
בחרו דמות מוכרת מהעבר והכניסו אותה לסיטואציה חדשה לגמרי.
שלחו תמונה של דמות ומוצר, ובקשו מהמודל שהדמות תחזיק את המוצר.
נסו לקחת תמונה שלכם או של סלב ולשנות בה פרט ספציפי אחד: תסרוקת, רקע או אובייקט.
צרו מודעה מעוצבת תוך דקות: הכניסו בריף, טקסטים, ובחרו סגנון ויזואלי.
וזה באמת רק קצה הקרחון – כמות השימושים היא פשוט מטורפת.

בזכות המודל החדש, אחרי תקופה ארוכה שכמעט ולא יצרתי תמונות, השבוע גם אני חזרתי לתחביב הישן - פשוט כי זה הפך להיות קל מידי.

דברים שעד עכשיו שעות של עבודה ושילוב של כמה כלים הפכו להיות קלים ברמה של פרומפט אחד.

הנה כמה ניסיונות שעשיתי השבוע בעזרת פרומפטים יחסית פשוטים:

גרסת הילדים של ה-Memes המפורסמים

פרומפט: change the character(s) in this image to a kid (כן, עד כדי כך פשוט…)

הפכתי תמונה מתוך סדנה שהעברתי השבוע בקרן Vertex לאנימציה בסגנון Ghibli

פרומפט: Restyle this image to Ghibli studio

גברת פלפלת - הסרט

פרומפט: Create a realistic version of this image

*את המילה ״גברת״ הוספתי אחר כך ב-Canva כי הוא לא הצליח לכתוב אותה.

הטרלתי את ברקוני - ושיתפתי בקבוצת הפייסבוק של המעריצים שלו (אל תספרו לאביתר…)
פרומפט: Change his hair to green, and mohawk haircut
התינוק של במבה - אז והיום

פה השתמשתי בתמונה של התינוק בנפרד כדי לייצר את הדמות (הפרומפט היה משהו בסגנון של ״תהפוך אותו לבן אדם מבוגר ריאלסיטי״) ובשלב השני שלחתי לו תמונה של שקית במבה ואת הדמות שיצרתי וביקשתי שיצור אתה הסצנה הזו משתי התמונות.

וזו באמת רק ההתחלה…

יש לי עוד רשימה ארוכה של רעיונות והחלק המדהים הוא שכל מה שאני צריך כדי להפוך אותם למציאות זה כמה פרומפטים - תקופה מדהימה לחיות בה!

גוגל משיקה את Gemini 2.5

השבוע גוגל השיקה את Gemini Pro 2.5, מודל חשיבה חדש שמציג ביצועים מובילים ברוב הבנצ׳רמקים החשובים וזינק למקום הראשון גם באתר Lmarena בוא משתמשים אמיתיים מדרגים מודלים ונחשב למדד שהכי משקף את המציאות.

המודל זמין בחינם דרך AI Studio, ולמשתמשי Gemini Advanced דרך ממשק הצ'אט.

כדי להשתמש בו בחינם נכנסים לGoogle AI Studio ומחליפים למודל שבתמונה:

עדיין לא ניסיתי אותו לעומק, אבל לפי התגובות הראשוניות נראה שמדובר בקפיצת מדרגה רצינית.

כבר כתבתי לאחרונה שלדעתי אנחנו בהתחלה של מהפך בשוק, ואם OpenAI לא ישחררו בקרוב את GPT-5 הם יהיו בבעיה.

מ-Figma לפרוטוטייפ חי

פיגמה היא כלי מעולה לעיצוב, אבל כשמדובר בפרוטוטייפים – כאן העניינים מתחילים להסתבך.

לחבר מסכים וכפתורים ידנית לוקח המון זמן, והתוצר הסופי בדרך כלל משתנה משמעותית במעבר לקוד – מה שהופך את רוב ההשקעה למיותרת.

לא במקרה, רוב המעצבים שדיברתי איתם סיפרו לי שהם מוותרים על יצירת פרוטוטייפ מלא ומסתפקים במשהו חלקי, אם בכלל.

לקראת ההרצאה שהעברתי בשבוע שעבר בכנס Design AI, החלטתי לבדוק -

האם כלי ה-AI Coding החדשים שנכנסו לתחום הפיתוח יכולים לייעל את העבודה שלנו גם בנושא הזה?

בדקתי שלושה כלים שיש להם אינטגרציה עם פיגמה:

הראשון - Lovable עם הפלאגין של Builder io
השני - 0v
השלישי - Bolt

ומה גיליתי?

אז האמת היא שהייתי בטוח שLovable ייקח בגדול בזכות הפלאגין, אבל להפתעתי, אחרי השוואה דיי מקיפה שערכתי בין שלושתם בכמה משימות, הופעתי לגלות ש Bolt התגלה ככלי המדוייק ביותר למשימה הזו,

הוא הצליח לחקות מסכים, דפי נחיתה ודשבורדים בצורה הכי קרובה למקור שראיתי עד היום.

מה שעוד יותר מגניב, זה שגיליתי ש-Bolt בכלל משתמשים במוצר של סטראטאפ ישראלי בשם Anima, שגם השיקו ממש לאחרונה AI builder חדש משלהם ואכתוב עליו בהמשך.

וזה לא נגמר כאן.

מעבר לעובדה שהטכניקה הזו מקצרת לנו את ה-Time to prototype בצורה משמעותית,

היא מאפשרת לנו לייצר פרוטוטייפים הרבה יותר אינטראקטיביים, רספונסיביים וריאליסטיים.

למשל, בסרטון אפשר לראות איך הפכתי עיצוב של תוכנת ניהול משימות מפיגמה לפרוטוטייפ חי שבו אפשר ממש לגרור משימות ממקום - יכולות שהיה לי קשה מאד לסמלץ בפיגמה:

יתרון נוסף ומשמעותי של הגישה הזו, הוא העובדה שמכאן המרחק לשלב הפיתוח מתקצר משמעותית ואני מאמין שבעתיד הלא רחוק נגיע למצב שמעצב כבר יכול להגיש קוד פרונטאנד שמפתחים יכולים להתמש בו.

עם זאת, חשוב לציין: הפתרון הזה לא מתאים לכל תרחיש.

לפרוטוטייפים של מסך בודד או מספר מצומצם של מסכים – זה מעולה. אבל כשניסיתי לבנות איתו פלואוים מורכבים יותר, הוא איבד אוריינטציה והסתבך.

במקרים כאלו - פיגמה עדיין מנצחת.

סיכום חדשות הטוויטר

(נכתב אוטומטית על ידי אייג׳נט)

מוצרים ופיצ׳רים חדשים:

חברת Alibaba משיקה את Qwen2.5-Omni: החברה הודיעה על זמינות הדגם האומני ב-Qwen Chat, עם קוד פתוח ב-Hugging Face. Qwen2.5-Omni תומך כעת בצ’אט קולי ובצ’אט וידאו, ומבין טקסט, תמונות וקול, ומייצר טקסט וקול.
OpenAI מעדכנת את GPT-4o: חברת OpenAI מודיעה על עדכון ל-GPT-4o ב-ChatGPT, עם יכולת טובה יותר לעקוב אחרי הוראות מפורטות, שיפור בפתרון בעיות טכניות וקידוד מורכבות, שיפור באינטואיציה וקריאטיביות, ופחות אימוג’ים.

Figure 02 Humanoid הולך כמו בני אדם: rowancheung מדווח שדגם 02 Humanoid של Figure יכול כעת ללכת כמו בני אדם, באמצעות רשת עצבית סופית שאומנה בסימולציה עם סימולטור פיזיקה ברזולוציה גבוהה.
Ideogram 3.0 מושק עם יכולות גרפיות חדשות: rowancheung מודיע על השקת Ideogram 3.0, עם יכולת ליצור פריסות מורכבות, לוגואים וטיפוגרפיה, והתעלות על Google’s Imagen 3, Flux Pro 1.1, ו-Recraft V3. זמין למשתמשים חינמיים.
xAI משולב ב-Telegram: החשבון rowancheung מדווח ש-xAI הכריזה שהצ’טבוט Grok משולב כעת ישירות באפליקציית המסרים Telegram.

פיתוח ואייג׳נטים

OpenAI Agents SDK תומך ב-MCP: החשבון של OpenAIDevs מפרסם שניתן כעת לחבר שרתי Model Context Protocol (MCP) לאייג’נטים. תמיכה ב-MCP גם ב-OpenAI API ובאפליקציית ChatGPT בקרוב.
LlamaIndex משתמש ב-MCP להרחבת יכולות האייג’נטים: llama_index מציגים כיצד להשתמש ב-LlamaIndex כלקוח לכל שרת MCP, ומאפשרים לאייג’נטים להשתמש בכלי MCP קיימים כדי להגדיל את השימושיות שלהם.
מדריך OpenAI Agents SDK זמין: omarsar0 מפרסם מדריך חינמי ל-OpenAI Agents SDK, עם דוגמאות קוד ופרטים נוספים.
שיפורים ב-LangGraph: LangChainAI ו-hwchase17 מדווחים על שיפורי ביצועים בפלטפורמת LangGraph וב-LangChain, כולל תמיכה באייג’נטים ובכלים חדשים.

מחקרים וחידושים

Anthropic חוקרים את המחשבות של מודלי שפה גדולים: AnthropicAI מציגים מחקר חדש שבו בנו “מיקרוסקופ” כדי לבחון את המתרחש בתוך מודלי AI, ולהבין את המנגנונים הפנימיים של Claude.
Google DeepMind משיקה את TxGemma לסיוע בפיתוח תרופות: GoogleDeepMind מציגים את TxGemma, סדרת מודלים של AI כדי לשפר את תהליך פיתוח התרופות עבור חוקרים ומפתחים
ניתוח תכונות חשיבה במודלים גדולים: rasbt משתף מחקר חדש על ניתוח תכונות חשיבה במודלי שפה גדולים באמצעות Autoencoders דלילים, ומסביר כיצד הדבר יכול לעזור להבין את התנהגות המודלים.

חדשות ודיונים

Anthropic מפרסמת את דו”ח המדד הכלכלי של AI: AnthropicAI מודיעים על פרסום הדו”ח השני של המדד הכלכלי שלהם, כדי לעקוב אחרי השפעת ה-AI על שוק העבודה והכלכלה, ומשתפים מערכי נתונים חדשים.
דיונים על השפעת ה-AI והיכולות שלו: svpino חולק על בעיה תכנותית שה-AI אינו יכול לפתור, ומביע ביטחון שהאנושות עדיין תוכל להתמודד עם אתגרים כאלה.
השפעת ה-AI על שיעור השגיאה והגורמים החברתיים: EMostaque מדבר על הירידה בשיעור השגיאות ב-AI והשפעתה על הגורמים החברתיים והכלכליים.

ממים והומור

עליית הטרנד של תמונות בסגנון ג’יבלי ב-AI: sama מתבדח שאחרי שנים של עבודה על בינה מלאכותית, הוא מקבל עשרות הודעות של אנשים שיצרו תמונות שלו בסגנון ג’יבלי.
“לא ללמוד לקודד“: svpino מתבדח שאנשים לא צריכים ללמוד לקודד, כי מודלים גדולים של שפה יכולים לעשות הכל.
פיתוח אפליקציות ווב ב-2025 כמו להרכיב רהיטי איקאה: karpathy מתאר בהומור את האתגרים בפיתוח אפליקציות ווב מודרניות.

עד כאן להיום!

למצטרפים החדשים, אני מזכיר שתוכלו לקרוא את כל המהדורות הקודמות שפיספסתם בבלוג.

כרגיל - אני מזמין אתכם לשתף עם חברים ועם אנשים שהתוכן הזה יכול לעניין אותם.

מוזמנים גם לשתף בקבוצות ווטסאפ מקצועיות ובערוץ הסלאק בעבודה.

שיהיה סופשבוע שקט,

אמיתי

Discussion about this post

Ready for more?