למה אנחנו לא משתמשים ב-ChatGPT לתפעול

זה לא המודל. זה היעדר האינסטלציה סביבו. במה אנחנו כן משתמשים.

כל שבוע אנחנו עולים לשיחת היכרות עם מישהו שאומר לנו, בטון קצת מובס, שהוא ניסה להשתמש ב-AI לתפעול ושזה לא עבד.

אנחנו שואלים מה הוא ניסה. הוא ניסה ChatGPT. הוא פתח את חלון הצ׳אט, הקליד את הבעיה שלו, קיבל תשובה מצוינת, לא הצליח להבין איך לגרום לתשובה המצוינת לקרות אוטומטית כל שני בבוקר, וויתר.

המסקנה שהוא הסיק היא ש-AI עוד לא בשל לעסק שלו. המסקנה האמיתית היא שצ׳אטזה לא איך שמנהלים תפעול.

צ׳אט זה הדמו. לא המוצר.

ChatGPT מצוין. אנחנו משתמשים בו. אנחנו משתמשים ב-Claude. אנחנו משתמשים בכל מה שטוב. המודל הוא לעיתים נדירות צוואר הבקבוק.

אבל ממשק צ׳אט, מעצם תכנונו, חסר את כל התכונות שמערכת תפעולית צריכה:

אין לו זיכרון של מה הוא עשה אתמול.
אי אפשר להפעיל אותו על-ידי אירוע — רק על-ידי בן אדם שמקליד.
הוא לא יכול לקרוא לכלים שלכם, רק לתאר מה הוא היה עושה אם היה יכול.
אין לו idempotency. תשאלו פעמיים, יעשה את העבודה פעמיים.
הוא לא מתעד שום דבר בצורה שאתם יכולים לבקר.
הוא לא יכול להעביר לאדם כשהוא לא בטוח.
אי אפשר לבטל פעולה שהוא עשה כשהוא עשה משהו טיפשי.

כל אחד מאלה ניתן לפתרון. אף אחד מהם לא נפתר על-ידי הוספת פרומפט טוב יותר לחלון צ׳אט.

מה תפעול באמת צריך

אנחנו בונים סוכנים סביב חמישה רכיבים. המודל הוא אחד מהם. ארבעת האחרים הם מה שמבדיל בין “דמו מגניב” ל-“רץ על החשבוניות שלכם שנתיים בלי השגחה.”

1. טריגר

הדבר שמעיר את הסוכן. cron (“כל שני ב-9”), webhook (“כשפנייה חדשה נכנסת”), הודעת תור (“כשהשלב הקודם נגמר”), זרם אירועים. תבחרו אחד. תשתית משעממת.

2. קריאה של העולם

הסוכן צריך לדעת מה קורה לפני שהוא פועל. שאילתות מסד נתונים, קריאות API, קריאות קובץ. פה גם נכנס MCP — הפרוטוקול הפתוח שנותן למודל דרך נקייה לקרוא לכלים שלכם בלי שתחברו קוד מותאם לכל כלי. אנחנו משתמשים ב-MCP לכל דבר חדש עכשיו.

3. שכבת כללים

לוגיקה דטרמיניסטית שמחליטה אם לפעול, איזו פעולה לעשות, ו-מתי להסלים. לא ה-LLM. קוד. הסיבה: כשמשהו משתבש ב-2 לפנות בוקר, אתם צריכים להיות מסוגלים לקרוא פונקציה אחת ולהגיד “אהה, זאת הסיבה.”

4. המודל — בשביל מילים ושיפוט

עכשיו ה-LLM עושה את מה שהוא טוב בו: כותב את המייל, מסכם את השרשור, בוחר בין שתי אפשרויות סבירות, מסווג פנייה. המודל הוא קריאת פונקציה בתוך המערכת שלכם. לא המערכת עצמה.

5. בדיקות בטיחות ולוגים

לפני כל פעולה עם השלכות, בדיקה דטרמיניסטית אחרונה. אחרי כל פעולה, רישום ביומן שאומר מה הסוכן ראה, מה הוא החליט, מה הוא עשה, ולמה. כשאתם מתעוררים בבוקר לתלונה של לקוח, אתם צריכים להיות מסוגלים לענות “מה הסוכן עשה ולמה” בפחות משישים שניות.

במה אנחנו משתמשים

בתור מודל, אנחנו נשענים על Claude (Sonnet לכל דבר שדורש שיפוט או הקשר ארוך, Haiku לייצור טקסט בנפח גבוה, Opus כשהעבודה קשה ונדירה). אנחנו עקרונית מודל- פלורליסטים — אם מודל אחר מנצח במשימה ספציפית, נשתמש בו. אנחנו לא נאמנים לאף אחת מהחברות האלה, רק לעבודה שיוצאת נקייה.

בתור IDE לבניית הסוכנים, אנחנו משתמשים ב-Claude Code. רוב הסוכנים ששלחנו ללקוחות נכתבו, נאוגו ונפרסו בלי לצאת ממנו. הנקודה ב-Claude Code היא לא הצ׳אט — היא שהוא יכול לקרוא את הקוד שלכם, להריץ בדיקות, לערוך קבצים, להריץ פקודות shell, ולעשות את כל זה תחת העין שלכם. הוא הופך כתיבת תוכנה מ-“אתם מתארים, ואז מתרגמים לקוד” ל-“אתם מנווטים, המודל מקליד.”

בתור tool calling, אנחנו משתמשים ב-MCP בכל מקום שלמערכת המקור יש שרת (או שיש טעם להשקיע עשר דקות לכתוב אחד). לכל השאר, קריאות פונקציה רגילות בקוד TypeScript. בלי קישוטים.

בתור hosting, פונקציות Vercel לסוכנים בנפח נמוך, Postgres קטן ל-state, Inngest או תור פשוט לכל דבר רב-שלבי. אנחנו לא משתמשים ב-vector database לרוב הסוכנים — העבודה בדרך כלל לא צריכה אחד. כשהיא כן, אנחנו משתמשים בכל מה שהנתונים כבר חיים בו.

ללוגים, כל מקום מובנה. Axiom סבבה. Datadog סבבה. טבלת Postgres סבבה. רק מובנה. לא console.log.

איך זה נראה בפועל

קחו את “תסכמו לי את תיבת התמיכה כל בוקר”. עם ChatGPT, אתם forwarding מיילים, מדביקים, שואלים. זה עובד. אתם לא יכולים לגרום לזה לקרות בלי שאתם יושבים מול המסך.

עם צורת הסוכן: cron ב-8 בבוקר (טריגר). הוא קורא את התיבה של אתמול דרך Gmail API (קריאה של העולם). שכבת כללים מסננת ספאם, שרשורים פנימיים, וכל דבר מרשימת אל-תסכמו. המודל מסכם את השאר לפי קטגוריה, עם פניות לדוגמה. בדיקת בטיחות תוחמת אורך ומסירה כל דבר שנראה כמו סיסמה או מפתח. הסיכום נוחת ב-Slack שלכם ב-8:05. לוגים נכנסים ל-Postgres כדי שאם אי פעם תרצו להריץ מחדש את אתמול עם כללים חדשים, תוכלו.

אותו מודל. אותם פרומפטים. מערכת אחרת לחלוטין. ההבדל הוא ארבעת החלקים סביב המודל.

אם תיקחו דבר אחד

זה יהיה: די להאשים את המודל. המודל בסדר. המודל בסדר כבר שנתיים. מה שאין לכם זאת האינסטלציה. טריגר, קריאה, כללים, מודל, בדיקות בטיחות. חמישה חלקים. אף אחד מהם אקזוטי. רובם אפילו לא AI — הם הסוג של קוד שהצוות שלכם כבר כותב.

זאת העבודה. המודל הוא הדובדבן. רוב הצוותים מדלגים על העוגה.