ה"ג'יפיטי מומנט" של המפתחים

וגם: איך ליצור דמות ריאליסטית עקבית, הנוק אאוט של אידואגרם, עדכונים מקלוד ועוד

Amitay Boneh

Aug 29, 2024

אהלן חברים,

כאן אמיתי בונה עם הניוזלטר השבועי בנושא AI ופרודוקטיביות.

השבוע בתוכנית:

ה"ChatGPT Moment" של המפתחים - כל מה שאתם צריכים לדעת על Cursor.
ניסיון ראשון ליצור קליפ ריאליסטי עם דמות עקבית.
הנוק-אאוט של אידואגרם 2.
הפיצ’ר הכי שווה של קלוד זמין לכולם.
עדכונים לגבי המודלים הבאים של OpenAI ועוד.

אם זו הפעם ראשונה שלכם פה תוכלו למצוא את כל הפרסומים הקודמים לקריאה כבלוג בקישור הזה.

ה- "ChatGPT Moment" של המפתחים

בשבוע האחרון הטוויטר לא מפסיק להתלהב מכלי בשם Cursor שלוקח את הקונספט של שילוב LLMs בתהליך הפיתוח לקצה.

הוא למעשה IDE (אלטרנטיבה לVScode) שמאפשר לכתוב קוד, לערוך אותו, לדבג אותו ולהריץ אותו בממשק שפה טבעית ובצורה מאד נוחה ואינטואיטיבית בעזרת קיצורי מקלדת.

למרות ש-Cursor קיים כבר מעל שנה, לאחרונה הוא השתפר בצורה משמעותית בזכות כמה פיצ'רים חדשים ובעיקר בזכות השילוב שלו עם מודל השפה Sonnet 3.5 של קלוד שמצטיין בכתיבת קוד.

מהתגובות של המשתמשים, עושה רושם שכמעט כל מי שמתחיל להשתמש בו לא יכול לחזור אחורה והטוויטר מלא בפוסטים מתלהבים שמזכירים את הפוסטים שנכתבו על ChatGPT כשהוא רק יצא.

אפילו אנדריי קרפטי, הפאונדר של OpenAI ואחד האנשים המוערכים בתחום מודלי השפה, כתב פוסט ארוך ומפורט שמסביר למה Cursor הוא גיים צ'יינג'ר והרבה יותר טוב מ-Github Copilot.

בסרטון הזה, שצבר כבר מעל 2 מיליון צפיות בטוויטר, תוכלו לראות ילדה בת 8 מפתחת בעזרת Cursor צ'אטבוט בסגנון הארי פוטר, פשוט מדהים!

אז נכון, זה עדיין לא לגמרי שם, לא מתאים למצבים מורכבים או לעבודה בצוותים גדולים, אבל תזכרו שמעכשיו זה רק ילך וישתפר. בקצב הזה נראה שתוך שנים בודדות שפת התכנות הנפוצה בעולם תיהיה - אנגלית.

אז מה הייתי עושה עכשיו אם הייתי מפתח?

מוריד Cursor ומתחיל להשתמש בו, אם לא לעבודה אז לפחות לפרוייקט צד.
משקיע פחות זמן בלימוד של שפות תכנות חדשות וסינטקס ומתחיל להתאמן על תכנות בשפה טבעית.

מה זה אומר בפועל?

להתחיל "להרגיש את השטח" כדי להכיר את הניואנסים: איפה זה עובד טוב, איפה פחות טוב, באיזה מצבים הוא נוטה לפשל ואיך לתקשר בצורה אפקטיבית איתו באנגלית.
אני כותב כבר שנה וחצי את כל השליפות SQL שלי עם צ'אטיפיטי ועם הזמן מאד השתפרתי בשיטות העבודה שלי מולו. למדתי איזה קונקסט לתת לו ואיזה לא חייבים, איך להתנסח בצורה קצרה אבל ממצה, איך לדבג מהר ועוד המון ניואנסים קטנים שחוסכים לי מלא זמן.
תחום נוסף ששווה להתמקצע בו זה העקרונות של הנדסת פרומפטים: ללמוד את הbest practices כמו Chain of thought ולהבין איזה קונטקסט כדאי לתת.

ולמי שלא מתכנת?

אם אתם טכנים ומוכנים ללכלך קצת את הידיים - זה מה שאני עושה וממליץ לכם גם:

להוריד Cursor ולראות יוטיוב קצת שמסביר איך משתמשים בו.
לבנות אפליקציה פשוטה בשפה טבעית ולהעלות אותה על פלטפורמה כמו Streamlit Replit או Vercel. יש המון מדריכים שמראים איך אפשר לעשות את זה בכמה שעות בסופ"ש.

אתמול הורדתי את Cursor ותוך 10 דקות כבר הצלחתי להריץ קוד פייתון בעזרת אנגלית בלבד!

אם אתם רוצים לקבל השראה ורעיונות לדברים שאפשרים לבנות אז כרגע המקום הכי טוב לחפש בו זה הטוויטר, שווה לעקוב אחרי mckaywrigley במיוחד.

הנה סרטון שימושי שמראה איך מחברים את Cursor לReplit בקלות.

איך ליצור דמות ריאליסטית עקבית

בניוזלטר הקודם לימדתי ליצור תמונה ריאליסטית, אבל בת’כלס ברוב המקרים - זה דיי חסר תועלת.

למה? כי זו רק תמונה אחת.

אם אנחנו רוצים ליצור סרטון, קליפ או פרסומת שמספרים סיפור - אנחנו צריכים שתיהיה לנו שליטה על הדמות.

אנחנו צריכים שתיהיה לנו היכולת להראות אותה בסיטואציות שונות, לבוש משתנה, זוויות צילום שונות - מה שנקרא בשפה המקצועית ליצור "דמות עקבית".

הקליפ הזה הוא ניסיון ראשון שלי ליצור דמות כזו.

אז איך עשיתי אותו?

נכון להיום, אין פתרון קל והייתי צריך קצת להתחכם ולשלב כמה כלים ביחד:

יצירתי תמונה ריאליסטית עם Flux (הנה קישור למדריך שהכנתי).
לקחתי אותה למידג'רני (שכרגע חינמי) ובעזרת היכולת ליצור תמונה על בסיס דמות מתמונה קיימת (cref) יצרתי עוד 15 תמונות של אותה הדמות מזוויות שונות, תאורה שונה ורקע שונה.
את התמונות שקיבלתי לקחת לFal ואימנתי מודל Flux חדש עם LoRA של הדמות שיצרתי, בדיוק אותו אופן שמאמנים מודל על התמונות שלכם.

התוצאה: קיבלתי מודל שמאומן על הדמות הריאליסטית שיצרתי ומאפשר לי ליצור אותה בכל סיטואציה שאבחר בעזרת פרומפט.

הנה למשך הדמות (קראתי לו Roy) כסופרמן.

בסוף, כדי להפוך את התמונות לקטעי וידאו קצרים השתמשתי ב-Kling ואת השיר יצרתי עם Suno.

אז נכון, זה לא מושלם ודיי מסורבל. אבל בקצב שהכלים משתפרים אני מאמין שתוך זמן יחסית קצר נקבל את היכולת הזו באופן מובנה במחוללי התמונות המובילים ונוכל ליצור לעצמנו דמויות קבועות.

הנוק אאוט של Ideogram 2

אחד הדברים המרתקים במהפכת ה-Generative AI הוא הקצב המסחרר של השינויים.

בניגוד לעולם הטכנולוגיה שהכרנו, בו החברות המובילות שומרות על מעמדן לאורך שנים, בתחום מוצרי הGenAI ההובלה משתנה בתדירות הרבה יותר גבוהה.

ראינו את זה קורה במודלי השפה עם Claude שעקף את ChatGPT ובשבועיים האחרונים זה קרה פעמיים (!) בתחום התמונות.

זה התחיל עם FLUX שעירער את מעמדה של Midjourney לפני שבועיים (כתבתי על זה לא מעט...) ובשבוע שעבר קיבלנו מהפך נוסף. Ideogram, מחולל התמונות של יוצאי גוגל שעד עכשיו היה כלי חמוד שבעיקר הצטיין בטקסטים, הפתיע אותנו עם גרסה חדשה שהפכה אותו למחולל התמונות הכי אטרקטיבי כיום.

אז למה אני כל כך מתלהב מ-Ideogram 2?

הנה כמה סיבות:

מלך הריאליזם: מה ש-FLUX השיג אחרי אימון נוסף, Ideogram פשוט מוציא כברירת מחדל. התמונות פשוט נראות אמיתיות (שימו לב שאתם על מצב Realism).

מעולה בעיצוב: הוא מפתיע ביכולת ליצור עיצובים למצגות, אתרים ודפי נחיתה כולל טקסטים ברמה שעוד לא ראיתי. נסו את זה - זה ממש אלטרנטיבה ל-Canva.

שימו לב שאם מבקשים ממנו טקסטים ארוכים הוא מאבד את זה, אז השיטה היא לעצב רק עם הכותרות ואחר כך להוסיף את שאר הטקסט.

משדרג פרומפטים: הכלי Magic Prompt שלהם משפר את הפרומפטים של המשתמש מאחורי הקלעים, מה שמוביל לתוצאות מדהימות ומוריד את הצורך לכתוב פרומפטים ארוכים.

פיצ'ר Remix: מאפשר לעשות איטרציות על תמונה שיצרתם קיימת בקלות.

ממשק פשוט, נקי ונוח לשימוש: מתאים גם למי שמעולם לא השתמש במחוללי תמונות ויש פיד של תמונות של אחרים שנותן מלא השראה.

אופציה חינמית לעד 15 תמונות ביום

לסיכום: למרות שלמידג'רני וFLUX עדיין יש יתרונות מסויימים ואולי המשוגעים לתחום יעדיפו אותם לצרכים מסויימים, לרוב האנשים אידאוגרם 2 הוא מחולל התמונות הכי טוב בשוק כרגע.

עם זאת, כמו שכתבתי בתחילת הפוסט, זה ממש לא אומר שזה ישאר כך… מחר בבוקר Midjourney יכולים להוציא גרסה חדשה או שיצא כלי חדש ויטרוף את הקלפים (בקרוב נקבל את IMAGEN 3 של גוגל וגם תזכרו את השם Mystic…)

הפיצ’ר הכי שווה של קלוד זמין לכולם

בשורות מעולות לאוהבי קלוד. השבוע אנתרופיק עדכנו שהפיצ’ר Artifacts שמפאשר לבנות לבנות ולהציג אפליקציות בתוך ממשק הצ’אט יהיה זמין לכל המשתמשים, כולל בגרסה החינמית ובנוסף יהיה זמין גם באפליקציה.

מה שהכי מגניב בזה שהוא גם באפליקציה זה היכולת לבנות “מיני אפליקציות” לעצמנו, כמו בדוגמה הזו.

למקרה שעדיין לא ניסיתים את הפיצ’ר הנה הסרטון שבו אני משתמש בו לבנות אפליקציה ב-2 דקות.

עוד עדכונים מעניינים שלא הספקתי לכתוב עליהם:

לפי המגזין The Information חברת OpenAI צפויה להשיק את המודל הבא שלה שנמצא תחת שם קוד Strawberry ואמור להצטיין במשימות מתמטיקה וקוד בסתיו הקרוב ביחד עם מודל נוסף בשם Orion שצפוי לעקוף את ChatGPT 4. לקריאה.
המודלים של גוגל Gemini pro וGemini Flash ממשיכים לטפס בטבלה שChatbot arena. עדיין יש פער לא מוסבר בין הדירוג שלהם למה ששומעים עליהם בשטח, אבל לדעתי הם סובלים מבעיה תדמיתית בגלל הביצועים והפאדיחות שהם עשו בעבר, ובקרוב נתחיל להשתמש בג’מיניי יותר (במיוחד בגלל חלון הקונטקסט העצום).
גוגל הוציאו סרטון דיי מטורף שנראה כמו משחק DOOM רגיל מאחורי הקלעים יש מנוע וידאו שמג’נרט את המציאות של המשחק בזמן. נשמע שזה כיוון שישפיע מאד על עתיד משחקי המחשב. הנה פוסט מעניין של עמית מנדלבאום בנושא.
חברת Midjourney, שכבר הבנו שהזיזו לה את הגבינה, הודיעה שהיא נכנסת לתחום החומרה ומגייסת מהנדסים, מעניין מה עם מתכננים לנו.
אי אפשר לסיים בלי עוד סרטון AI דבילי שמעלה חיוך לפני הסופ”ש.

עד כאן להיום! אם יש לכם חברים שיאהבו את התוכן הזה אתם מוזמנים לשתף עם חברים.

שיהיה סופשבוע שקט

אמיתי