איך ליצור תמונות מ-מ-ש ריאליסטיות 🤯

סרטון ההדרכה ליצירת סרטונים ריאלסיטיים, ההשקה של גרוק 2, העדכון של ג'יפיטי ועוד.

Aug 15, 2024

אהלן חברים, כאן אמיתי בונה.

ברוכים הבאים לעוד ניוזלטר בנושא AI ופרודוקטיביות. השבוע נלמד איך ליצור תמונות ריאליסטיות וגם אעדכן על התפתחויות מעניינות כמה ההשקה של Grok 2, השדרוג של ChatGPT והכנס של גוגל.

בשבוע האחרון הצטרפו לניוזלטר מעל 300 קוראים חדשים! אם זו הפעם ראשונה שלכם פה תוכלו למצוא את כל הפרסומים הקודמים לקריאה כבלוג בקישור הזה.

תאמינו או לא, אבל התמונות האלה נוצרו באמצעות AI 🤯

הן ללא ספק התמונות הכי ריאליסטיות שראיתי עד היום.

אבל מה שעוד יותר מפתיע, זה שהן לא נוצרו ב-Midjourney, לאונרדו, Dall-e או אחד מהמודלים המוכרים.

הן נוצרו בעזרת מודל תמונות חדש בשם FLUX.1 שיצא בשבוע שעבר ומטריף את האינטרנט.

רק לפני שבועיים כתבתי על Llama 3.1, המודל הפתוח הראשון שהצליח לעקוף את מודלי השפה הסגורים ועל ההשלכות האפשריות של זה על התעשייה, ועכשיו בדיוק אותו הדבר קורה גם בזירת מודלי התמונה.

אחרי תקופה ארוכה בה MidJourney היתה המובילה בתחום, בשבוע שעבר חברה בשם Black Forest Labs הוציאה מודל פתוח בשם FLUX.1 שמצליח ליצור תמונות ברמת ריאליסטיות שטרם נראתה עד היום.

נכון להיום למידג'רני עדיין יש יתרונות ברמת הממשק הנוח והפיצ'רים הנוספים שהם מציעים, אבל עכשיו שהמודל יצא ופתוח לכולם - זה רק עניין של זמן עד שנתחיל לראות מוצרים נוספים שעושים בו שימוש.

בנוסף, מכיוון שמדובר במודל פתוח, כל מי שרוצה יכול לעשות לו Fine tunning ולייצר גרסאות נוספות שלו שאומנו למטרות שונות וזה בדיוק מה שקרה.

התמונות הריאלסטיות האלה, נוצרו בעזר FLUX.1 שאומן להיות אקסטרה ריאליסטי בשיטה שנקראת LoRA והשילוב ביניהם הפך להיות הדבר החם הבא בתחום יצירת התמונות.

איך הסיפור הזה צפוי להשפיע עלינו? הנה כמה דרכים:

כל אחד יכול ליצור בקלות תמונות שנראות ריאליסטיות לחלוטין מהמחשב בבית.
מעכשיו יהיה הרבה יותר זול לייצר תמונות
כל מי שרוצה יוכל להריץ את המודל על המחשב שלו וליצור מה שהוא רוצה ללא צנזורה.

אז מצד אחד זה מגניב שאנחנו כמשתמשים נקבל מוצרים טובים יותר ונשלם פחות, אבל מצד שני יש פה גם סכנות גדולות שאי אפשר להתעלם מהן.

אם תחברו את שלושת ההשפעות האלה ותוסיפו את מה שאתם מכירים על האינטרנט ורשתות חברתיות - אתם מבינים לאן זה הולך…

המדריך ליצירת תמונות מ-מ-ש ריאליסטיות.

אחרי שראיתי את התמונות האלה, הייתי חייב לנסות בעצמי.

מכיוון שאני לא מומחה בסטייבל דיפיוז’ן ומעולם לא ממש התעסקתי בזה, חיפשתי דרך פשוטה להשתמש במודל.

מצאתי ביוטיוב כמה סרטונים שמצריכים להוריד ComfyUI ונראו דיי מורכבים, אבל רציתי משהו פשוט ומהיר שלא מצריך להוריד כלום

ואז… בינגו!

נתקלתי בסרטון יוטיוב שמראה דרך להריץ Flux Realism בצורה פשוטה ומהירה!

כשהתחלתי להתנסות איתו פשוט לא האמנתי - התמונות שיקבלתי לא התקרבו לשום דבר אחר שראיתי לפני כן. הרגשתי כמו ילד שגילה צ’יט במשחק מחשב שאף אחד עדיין לא מכיר ונכנסתי לסשן אינטנסיבי של יצירת תמונות עד השעות הקטנות של הלילה.

הנה כמה דוגמאות:

אבל התמונות הן רק ההתחלה. הקסם האמיתי קורה ברגע שמשתמשים בכלי וידאו כמו Kling או Runway כדי להפוך אותן לוידאו.

אם עוד לא ראיתם, כנסו לראות את הסרטון שיצרתי בעזרים הכלים האלה ונכון לרגעים אלה עומד על 70K צפיות ומעל 50 שיתופים בלינקדאין ממשתמשים בכל העולם.

אה, ואם כבר נכנסתם אז אשמח אם תתנו לייק ותגובה כדי לעזור לי להפיץ אותו :)

אז איך מייצרים סרטון כזה - בואו ניגש לת’כלס.

קודם כל, כמו שהבטחתי, הכנתי מדריך וידאו שמראה איך מריצים אותו שלב אחר שלב ואחר כך גם איך לקחת את התמונות ולהפוך אותם לסרטונים ריאליסטיים. זה הקישור למדריך שהכנתי .

מה יש במדריך?

בגדול: לסרטון מצורפת מחברת של Google Colab שצריך להעתיק לדרייב, עם קוד שמריץ את מודל FLUX אחרי האימון של הLoRA ומאפשר לעבוד איתו בממשק UI של Gradio.

כל מה שצריך זה להריץ את המחברת פעם אחת ואז מקבלים URL שפותח ממשק שאפשר לעבוד בו חופשי ללא הגבלה. העלות היא בעצם רק על הGPU (של גוגל), בהתחלה יש קצת קרדיט בחינם ואחר כך צריך לקנות קרדיט אבל העלות היא מאד נמוכה. בשביל לקבל פרופורציות קניתי 100 יחידות מחשוב ב-32 ש”ח שהספיקו לי בינתיים לעשרות תמונות ואני עדיין לא בחצי.

אחרי שיצרתי את התמונות, השמשתי ב-Kling כדי להנפיש אותן ואז חיברתי את כולן ביחד בעזרת תוכנה לעריכת וידאו והוספתי מוזיקה שיצרתי עם Suno.

זו כל התורה על רגל אחת. להסבר מפורט יותר עם עוד קצת טיפים אז הכל נמצא בסרטון.

אבל רגע, זה לא הסוף! כמו שאתם בטח יודעים, בתחום ה-AI דברים זזים מהר. אתמול בלילה הקלטתי את הסרטון והבוקר גיליתי שנוספה דרך חדשה ופשוטה יותר!

האתרים Fal.ai וגם Freepik הוסיפו ממש אתמול את האפשרות להשתמש ב-Flux Lora Realism.

אחרי שניסיתי את שניהם, אני חייב להודות שאני עדיין מעדיף את הדרך שהראיתי בסרטון כי לדעתי התוצרים שם ריאלסטים יותר (לא יודע להסביר למה, אבל בוודאות הבדל), אבל אם אין לכם כוח לכל ההתעסקות הזו אז שתי האופציות האלה הן גם ממש אחלה.

אז איך משתמשים בהן ?

ב-Fal: דבר ראשון צריך להירשם לאתר. שימו לב שהאופציה היחידה להירשם היא באמצעות חשבון Github, אז אם אין לכם חשבון קיים תצטרכו לפתוח אחד בחינם. אחרי שפתחתם חשבון אתם נכנסים ל” Model Gallery” ואז בחיפוש כותבים Lora ובוחרים במודל “Flux Realism LoRA”. תקבלו קרדיט של דולר שיספיק לכם לבערך 20 תמונות ואם תרצו להמשיך להתשמש תצטרכו לשלם.

ב-Freepik: אתם נרשמים לאתר בוחרים בImage Generator ואז בתוך המודל בוחרים ב-Flux Realism. גם שם מקבלים כמה קרדיטים ואז צריך לשלם.

הערה חשובה לסיום: היכולות האלה אמנם מדהימות, אבל גם עם פוטנציאל לנזק והונאות. אני מבקש ממכם להשתמש בכלי הזה באחריות עם שמירה על אתיקה וגילוי נאות איפה כשצריך.

מהפכה בצמרת הטבלה: ChatGPT משתדרג ו-Grok 2 נכנס לתמונה.

ה-Leaderboard של Chatbot Arena נחשב היום למקום הכי אמין לדירוג והשוואה בין מודלי השפה המובילים.

הוא מתבסס על דירוגים של עשרות אלפי משתמשים שמנסים את המודלים בצורה עיוורת ולכן הוא הרבה יותר קרוב למציאות מהבנצ'מארקים שמתפרסמים ומבוססים על שאלות אמריקאיות.

לאחרונה התחלנו לראות תופעה בה חברות משתמשות בצ'אטבוט ארנה כדרך לבדוק מודלים חדשים לפני שהן משיקות אותן.

לפני שבועיים ראינו גרסה חדשה של ג'מיניי של גוגל שטרם שוחררה לציבור שעלתה לראש הטבלה. אתמול קרו עוד שתי התפתחויות מעניינות בטבלה:

חברת OpenAI שדרגו את ChatGPT4o, המודל הנוכחי והוא עלה שוב לראש הטבלה. יש לציין שזה אמנם הישג חשוב ומתבקש, אבל ביחס להייפ שהם יצרו סביב ההכרזה אתמול בערב וקמפיין התותים המסתורי שהם מריצים בשבוע האחרון בשבילי ובשביל עוד אנשים שעוקבים האחרי הקמפיין שלהם זה היה קצת מאכזב.
לפי מה שהם פרסמו אתמול המודל אמור להיות זמין לכל המשתמשים בתשלום, אבל קצת קשה לדעת שזה קרה בוודאות. ההשפעה הצפויה היא שהמודל יהיה עם הבנה יותר עמוקה ויכולות Reasoning טובות יותר. אני חייב להודות שעוד לא הספקתי לנסות אותו לעומק אז לא יודע לעדכן על ההבדל. אם ניסיתם מוזמנים לכתוב לי. אני עדיין מחכה לעוזר הקולי שהם הבטיחו, ול-Sora…

ההפתעה השניה והמשמעותית יותר היא הכניסה של 2 Grok, מודל השפה של חברת Xai של אילון מאסק למקום השלישי בטבלה. גרוק, שהושק בארה”ב אתמול הוא מודל פחות מצונזר, פחות פוליטיקלי קורקטי וגם מתבסס על המידע של טוויטר בזמן אמת, מה שנותן לו הבנה מאד טובה של דברים אקטולים. עכשיו, שהוא מגיע לרמה של שאר המודלים גדולים לדעתי יש לו סיכוי להפוך לאחד השחקנים הכי מעניינים בתחום. דבר נוסף שהם עשו זה להוסיף את מודל התמונות החדש FLUX לתוך גרוק ועכשיו התמונות שנוצרו בגרוק מציפות את הטוויטר…
*את Grok עדיין אי אפשר לנסות כי הוא לא זמין בארץ, אעדכן ברגע שהוא יהיה.

עוד משהו שחשוב לי לחדד: למרות שהטבלה הזו היא המקום הכי אמין שיש היום, היא עדיין לא תמיד משקפת את המציאות. למשל אני חושב שיש הסכמה דיי רחבה היום שקלוד לוקח את ג’מיניי ואת ג’יפיטי (לפחות פני השדרוג של השבוע) ובטבלה הוא מופיע מתחתיהם. בנוסף הטבלה מתייחסת רק למודל עצמו ולפי לפי’צ’רים שמגיעים איתו כמו לדוגמה Artifacts בקלוד.

עוד כמה עדכונים:

השבוע התקיים הכנס Made by google בוא גוגל חשפה את טלפון הפיקסל החדש ואיך הם מתכוונים לשלב AI במכשיר ובמערכת ההפעלה אנדרואיד. בנוסף הם הראו כמה פיצ’רים מאד מעניינים שצפויים לצאת ממש בקרוב כמו עוזר קולי (שיתחרה בשל OpenAI ויכולות צילום מרשימות משולבות AI שלא נופלות מהאייפון.

יש מצב שאכתוב על זה בשבוע הבא, אבל יש על זה המון מידע באינטרנט ואם מעניין אתם להתעמק ברמה האסטרטגיות יותר אז אני ממליץ על הפרק של בן תומפסון ב-Stratechery בנושא (רוב הפרקים שלו בתשלום אבל את זה אפשר לשמוע חינם).

גוגל כהרגלה לא יכלה לסיים את הכנס בלי איזה פאדיחה, לא מקנא בבחור שהציג את הדמו.

עד כאן להיום! אם יש לכם חברים שיאהבו את התוכן הזה אתם מוזמנים לשתף בלינק הבא:

שיהיה סופשבוע שקט

אמיתי