חושב זה הסטנדרט החדש
וגם: עושים סדר באיזה מודל להתשמש, סקירה על דיפ ריסרצ' של ג'יפיטי ושל גוגל ועוד הפתעות
אהלן חברים,
כאן אמיתי בונה עם הניוזלטר השבועי על AI ופרודוקטיביות.
השבוע בתוכנית:
“חושב” זה הסטנדרט החדש: כל מה שאתם צריכים לדעת על o3-mini המודל החדש של OpenAI
עושים סדר: באיזה מודל להשתמש ומתי?
מחקר מקיף בלחיצת כפתור: הכירו את כלי ה-Deep Reserach החדשים של Open AI ושל גוגל
חנות האפליקציות של Hugging Face 🤖
עוד עדכונים
*אם הטקסט בעברית לא מיושר תוכלו לקרוא אותו בגרסת הWeb דרך הבלוג בלינק הזה.
אם אתם משתמשים ב-ChatGPT - תגידו תודה לסינים,
וקבלו בברכה את מודל הבית החדש שלכם: o3-mini
נראה ש-DeepSeek לא השאירו לOpenAI הרבה ברירות אלא לשחרר את הדור החדש של מודל Reasoining שלהם בחינם לכל המשתמשים.
להזכירכם מדובר בגרסה הקטנה והמהירה יותר של מודל o3 שהם הציגו בדצבמבר עם ביצועים יוצאי דופן (זה שכולם אמרו שהוא AGI...)
הנה מה שחשוב לדעת:
המודל זמין החל מהשבוע לכל המשתמשים - כולל החינמיים!
בגרסה החינמית - צריך ללחוץ על כפתור "Reason" בשורת החיפוש (זה מוגבל אבל לא ציינו לכמה)
בגרסאות בתשלום - מגבלה מאד נדיבה של 150 הודעות ביום (לעומת 50 בשבוע בo1) ובחירה בין הגרסה הרגילה שלו o3-mini לגרסת o3-mini-high שנועד לקוד ובעיות מורכבות יותר.
לפי בדיקות פנימיות של נסיינים הוא מהיר ב-56% ומדוייק יותר ב39% מ-o1 mini.
בניגוד למודלי Reasoning עד עכשיו, אפשר לשלב אותו עם חיפוש באינטרנט.
לפי הבנצ'רמרקים שלהם הוא אמור להיות באותה רמה o1, ממה שקצת ניסיתי עכשיו אני לא בטוח שזה המצב, נחכה ונראה בקרוב.
המודל זמין גם דרך ה-API בשלוש רמות חשיבה לפי הצורך וכולל יכולות מתקדמות כמו function calling ו- Structured Outputs.
לסיכום: עברנו לסטנדרט חדש של מודל בסיס חינמי וזמין לכולם, מודל “חושב” - שזמין גם למשתמשים החינמיים.
באיזה מודל להשתמש ומתי?
בעקבות ההשקה של O3-mini - השימוש בצ’אט הפך להיות מורכב מאי פעם.
אם יש לכם מנוי בתשלום, כשתכנסו לצ'אט תצטרכו לבחור עם איזה מודל לעבוד מבין לא פחות מ-7 אפשרויות שונות!
מיותר לציין שזו חוויית משתמש לא אידיאלית, במיוחד כשאין הסברים מספקים על מה היתרונות של כל מודל. מה משמעות הביטוי "Advanced Reasoning"? ואיך מתרגמים את זה למשימות היומיות שלנו?
בפועל - המערכת שלהם דורשת מאיתנו להפוך למשתמשים סופר-מתקדמים, שצריכים להבין בעצמם את הניואנסים בין המודלים.
במצב אידיאלי הייתי מעדיף שהמערכת תבחר עבורי: אני אכתוב פרומפט, והוא כבר ינתב את הבקשה למודל המתאים לפי רמת הקושי ואופי המשימה - לא פשוט יותר?
אז אני דיי בטוח שאני לא הראשון שחשב על הרעיון הזה – ויש סיכוי שעוד נראה פתרון כזה בעתיד,
אבל כרגע, נראה שהפוקוס שלהם הוא בהלגיש שהם טובים יותר מהמתחרים, תוך כדי ביצוע סוג של A/B טסטינג עלינו, המשתמשים כדי לקבל החלטות להמשך.
וזה משאיר לנו, המשתמשים, שתי אפשרויות:
1. להסתפק במה שהכרנו בלי בלובלי מוח: להשתמש ב-GPT4o שמספק תשובות בסדר ולהסתדר איתו – זה כנראה מה ש-90% מהמשתמשים עושים (מה שנקרא "אפקט הדיפולט")
2. להיות Early Adopters ולנסות את המודלים החדשים.
אין תשובה נכונה – כל אחד בוחר את מה שמתאים לו.
אחת הסיבות שאני משתייך לקבוצה השניה, היא שבתפיסה שלי זו אחת הדרכים הכי טובות לייצר לעצמי ארביטראז.
כולם היו משתמשים ב-GPT4o ורוב המסמכים או המיילים עוברים דרכו בצורה או אחרת, ומתישהו בהמשך כולם יעברו למודלי ה-Reasoning.
אבל התקופה שבין לבין היא ההזדמנות שלנו להתלבט - ליצור תוצרים איכותיים יותר בפחות זמן, לפרוץ את הגבולות של מה שחשבנו שאפשר לעשות עם המודלים ולנסות לגלות יוז קייסים חדשים שנפתחו לנו בעקבות שיפור המודל.
ועכשיו לשאלה הגדולה – באיזה מודל לבחור לאיזו משימה?
אז איך שאני רואה את זה כרגע - השאיפה היא להשתמש ככל האפשר במודלי ה-Reasoning (כל סדרת ה-"o") מכיוון שהם חכמים יותר וטועים פחות.
עד כה השתמשנו ב-o1, שהיה מוגבל ל-50 הודעות בשבוע, מה שדרש ניהול קפדני ושימוש רק במשימות "כבדות". בנוסף, o1 היה יחסית איטי, מה שהפך את העבודה איתו למתסכלת.
כעת, עם הופעת o3-mini ו‑o3-mini-high – שמציעים מגבלת שימוש של 150 הודעות ביום (שכנראה לא נגיע אליה) וללא בעיית מהירות – המשחק השתנה.
באופן עקרוני, נעדיף כמעט תמיד לבחור ב‑o3-mini-high, פרט למצבים שבהם נדרש פיצ'ר שהוא לא תומך בו.
נכון להיום,מול o3-mini וגם o3-mini-high לא תומכים בהעלאת קבצים, ביצירת תמונות או במצב Canvas ולכן לשימושים האלה נצטרך עדיין להשתמש ב-GPT4o.
שימו לב שבמצב Canvas, מודל o1 כן תומך, ולכן למשימות הקשורות לקוד הגיוני לבחור בו.
עוד משהו ששמתי לב אליו: שמתי לב ש- o3-mini-פחות טוב בעברית לעומת o1 (זו החוויה האישית שלי – אשמח לשמוע דעות נוספות).
לסיכום: מתוך 7 מודלים - כרגע יש שלושה רלוונטיים: o3-mini-high לרוב המשימות, GPT4o למשימות שמצריכות העלאת קצבים או יצירת תמונות ו-o1 לכתיבת קוד במצב Canvas.
OpenAI משיקה את Deep Research
פיצ'ר חדש של OpenAI שחופר באינטרנט במשך דקות ארוכות ומכין לכם דוח מפורט ומעמיק ברמה של אנליסט מנוסה – על כל נושא שרק תבחרו.
הוא מסוגל לנתח בצורה עצמאית טקסטים, תמונות, קבצי PDF, טבלאות אקסל, וגם להפעיל פונקציות של קוד פייתון לביצוע ניתוחים מורכבים.
התוצאה הסופית היא דו"ח מפורט, הכולל הפניות לעשרות מקורות ששימשו למחקר.
בדמו הם הציגו דוגמאות כמו מחקר שוק, מחקר מדעי, מחקר על מוצר שרוצים לקנות, והדגישו את היכולות שלו למצוא מידע נישתי, ולא רק את הדברים הטריוויאליים.
הנה קטע קצת מתוך הדמו המלא שהם הציגו:
חשוב להגיד– מבחינה מוצרית, הם לא הראשונים שמציעים פתרון כזה.
גוגל השיקה לאחרונה מוצר כמעט זהה עם אותו שם בדיוק (זמין למשתמשי Gemini בתשלום), ויש עוד מוצרים דומים בשוק כמו Tavily ו-Genspark.
אבל הבשורה הגדולה כאן היא לא הפיצ'ר – אלא המודל שמפעיל אותו.
מאחורי הקלעים, הפיצ'ר משתמש במודל o3 המלא (לא ה-mini) , המודל העוצמתי ביותר של OpenAI, שעבר Fine-Tuning למשימות של מחקר באינטרנט ועיבוד מידע מהעולם האמיתי.
למעשה, זו הפעם הראשונה שהמודל הזה זמין לציבור.
להזכירכם, מדובר במודל שמצליח לעבור מבחנים של דוקטורנטים, עם IQ מוערך של מעל 157, ולכן, עושה רושם שמדובר במוצר בליגה אחרת מהכלים שקיימים בשוק.
במבחן שנקרא "Humanity Last Exam", מחבן יחסית חדש שנבנה מתוך שאלות של מומחים אמיתייים ונחשב לנבצ'מרק ברמה גבוהה, המודל הגיע לציון 26.6% בהשוואה ל13% של מודל o3-min-high שזה עתה הושק.
חשוב לזכור שהמודל הזה גם יקר מאד להרצה וזו כנראה הסיבה שבשלב הראשון הפיצ’ר זמין רק למנויים בתוכנית Pro, שעולה 200 דולר לחודש. (הם כתבו הוא שיגיע בהמשך לתוכניות של ה20 דולר, אבל לא ציינו מתי)
בשורה התחתונה - כמו בכל השקה, אני מחכה לראות את איכות התוצרים ועד כמה הוא באמת חוסך עבודה לפני שאני יוצא בהכרזות דרמטיות,
אבל אין ספק שאם הייתי עובד כאנליסט או חוקר, לשלם 200 דולר בחודש פתאום נשמע סכום סביר ביחס לערך העצום שכלי כזה היה יכול לספק לי.
הכירו את Deep Reserach של גוגל
אז (עדיין) לא שילמתי 200 דולר כדי לקבל גישה ל-Deep Research של OpenAI,
אבל בינתיים לקחתי לסיבוב את Deep Research של גוגל - מוצר כמעט זהה שקצת חמק מתחת לרדאר וזמין בעלות של 20 דולר כחלק מהמנוי ל-Gemini Advanced.
כדי לבחון את היכולות שלו, ביקשתי שיצור לי דו"ח מחקר מתחרים על חברת Fiverr.
הנה השלבים:
כתבתי לו פרומפט יחסית מפורט על איך לבצע מחקר (הכנתי אותו מראש בעזרת מחולל הפרומפטים של Claude).
הוא חזר אליי עם תוכנית מחקר - במקרה הזה לא ערכתי אותה, אבל יש אפשרות לעשות זאת.
הוא חקר 53 מקורות מידע באינטרנט במשך קצת יותר מ־7 דקות (בסרטון חתכתי את הזמן שבו הוא “חשב”).
כשהוא סיים קיבלתי מסמך מפורט עם קישורים למקורות.
כך זה נראה:
התרשמות ראשונית:
לדעתי התוצאות מאד טובות ומספקות תמונה טובה על החברה, השוק והמתחרים.
חשוב יותר - בבדיקה מדגמית שעשיתי לא מצאתי טעויות או המצאות (בעיות שנתקלתי בהן בכלים אחרים כמו Agent ai).
חשוב לציין שגם Perplexity יודע לייצר דו"ח דומה, אבל הדוח ש-Deep Research יצר הרבה יותר מורכב ומעמיק, וגם נוח יותר לקריאה.
עוד פיצ'ר נחמד זה שאפשר לייצא לגוגל Doc בלחיצת כפתור,הנה קישור לדוח שהוא יצר על Fiverr להתרשמות.
איך משתמשים?
פשוט מאד - בוחרים במודל Deep Research ומקלידים את שאלת המחקר הרצויה.אז איזה מודל הייתי בוחר?
כבר מעל 700 איש הגיבו לסקר שפרסמתי אתמול בלניקדאין:
בעקבות כמה בקשות שקיבלתי בתגובות, הנה הטייק שלי:
אם הייתי צריך לבחור בצ'אט אחד - הייתי בוחר ב-ChatGPT (כמו רוב המגיבים).
והנה הטיעונים:
ברמת המודל -
עד לא מזמן היה אפשר להתווכח איזה מודל עדיף בין GPT4o ל-Sonnet 3.5,
אבל החל מלפני שבוע המודל הכי טוב הוא ללא ספק o3-mini שזמין בChatGPT גם בגרסה החינמית ולכן פה ChatGPT מנצח בגדול.
ברמת הפיצ'רים -
היום ChatGPT מכיל את כמעט את כל הפיצ'רים של קלוד (חסר רק הפיצ'ר שלומד את סגנון הכתיבה וכמה יכולות קטנות בתוך Projects) ולעומת זאת בכיוון ההפוך יש לו רשימה ארוכה של יכולות שאין לקלוד כמו:
-חיפוש באינטרנט
- יצירת תמונות
- מצב Canvas
- עוזר קולי חכם
הנושא היחיד שאולי קצת במחלוקת הוא כתיבת קוד (o3-mini לעומת sonnet 3.5) אבל גם כאן, רוב האנשים ישתמשו בכלי חיצוני כמו Cursor ולא בצ'אט עצמו.
לגבי Perplexity - נכון שלכאורה הוא יכול להיות הפתרון המושלם של All-in-one, אבל בפועל חסרים בו המון פיצ'רים שיש בצ'אטים ולמרות שיש לי מנוי אליו - אני לא רואה איך אני משתמש בו כתחליף לצ'אט כרגע.
ועכשיו כמה מילים על Gemini:
זו ההפתעה הכי גדולה מבחינתי.
ההפתעה היא לא התשובות בסקר, שמשקפת את הסנטימנט שאני שומע בשטח, אלא העובדה שגוגל עדיין נשארה כל כך מאחור בגזרת הצ'אטים.
השבוע הם השיקו מודלים חדשים וחזקים: Gemini pro 2 וגם Gemini Flash עם מצב חשיבה, מודלים שלא נופלים מהמתחרים,
אבל איכשהו עדיין, הצ'אט שלהם כמוצר Gemini פשוט לא תופס....
אני חושב שהמזל שלהם הוא NotebookLM שמצליח לשמור אותם בתמונה, אבל אם הייתי שואלים אותי לפני שנתיים או שנה הייתי מצפה לראות את גוגל במצב הרבה יותר טוב היום.
יהיה מעניין לראות את אותו הסקר בעוד שנה - האם גוגל תצליח לשפר את מעמדה?
הכירו את Spaces: חנות האפליקציות של Hugging Face 🤖
אתר Hugging Face הוא המאגר הגדול ביותר באינטרנט של מודלים פתוחים, ואתמול הם השיקו את חנות אפליקציות שלהם.
זה פורטל שמכיל מעל 400 אלף (!) אפליקציות AI של טקסט, תמונה, אודיו ווידאו כמעט לכל מטרה שתוכלו לחשוב עליה.
בניגוד לאתרים כמו There is an AI for that שמרכזים מוצרים בתשלום - כאן מדובר במודלים פתוחים וחינמיים שבחלקם הגדול יש אפשרות ל-Preview מה שאומר שאפשר להתנסות בחינם,
זה שימושי במיוחד לבוני מוצרים, מכיוון שאלו מודלים פתוחים שאפשר לשלב בתוך מוצרים שלכם.
והחלק הכי טוב - הפורטל כולל מנוע חיפוש חכם:
פשוט כוותבים מה הפעולה אתם רוצים לעשות ותקבלו את המודלים המתאימים ביותר!
הנה הקישור: https://huggingface.co/spaces
עוד עדכונים:
גוגל משיקה סדרה של מודלים חדשים שכוללים את Gemini Pro 2 ומוסיפה לצ’אט את Gemini Flash 2 with reasoning שהיה זמין רק בPreiveiw.
אני חושב שהבשורה הכי גדולה פה היא דווקא למפתחים, בגלל העלויות הנמוכות של Gemini flash 2 דרך ה-API. כנראה שאכתוב על זה בהרחבה בשבוע הבא, בינתיים אפשר לקרוא על זה פה.
בגזרת הוידאו: החבר'ה מ Pika ממשיכים לתת בראש והפעם עם פיצ'ר חדש ומעולה בשם Pikkaddtions.
הוא מאפשר להעלות וידאו אמיתי ולהוסיף לו אנשים, חיות, אובייקטים וכל דבר שתרצו בעזרת תמונת רפרנס ופרומפט בלבד! הנה הדמו.
אפשר לנסות אותו בחינם באתר שלהם
חברת Bytedance (חברת האם של טיקטוק) מוציאה מודל וידאו ריאסליסטי במיוחד ליצירת דמויות מדברות. הנה כמה דוגמאות.
בפינה האמנותית: מה באמת קרה בצילומי עטיפת האלבום המפורסם של הביטלס.
עד כאן להיום!
למצטרפים החדשים, אני מזכיר שתוכלו לקרוא את כל המהדורות הקודמות שפיספסתם בבלוג.
כרגיל - אם קיבלתם ערך מהניוזלטר אני מזמין אתכם לשתף עם חברים ועם אנשים שהתוכן הזה יכול לעניין אותם.
מוזמנים גם לשתף בקבוצות ווטסאפ מקצועיות ובערוץ הסלאק בעבודה.
שיהיה סופשבוע שקט,
אמיתי