שירותים
Self-hosted

Self-hosted AI ותשתיות פרטיות

כל ה־AI שלכם — בשרת שלכם, מתחת לשליטה שלכם.

הקמה והפעלה של מודלים, סוכנים וכלי AI על שרתים פרטיים — Ollama, vLLM, OpenWebUI, LiteLLM, ועוד.

למי זה מתאים

  • ארגונים שלא יכולים לשלוח מידע ל־OpenAI/Anthropic.
  • מנכ״לים שמסתכלים על חשבון ה־AI ושואלים אם יש דרך זולה יותר.
  • מפתחים שרוצים שליטה מלאה במודלים, גרסאות וזרימות.

מה אתם מקבלים

  • ארכיטקטורה: איזה מודל לאיזה תהליך, איזה GPU, איזה backend.
  • התקנה: Ollama / vLLM / TGI / LM Studio בתוך הסביבה שלכם.
  • ממשק: OpenWebUI / LibreChat / משלכם.
  • Routing: LiteLLM / OpenRouter כדי לבחור מודל לכל בקשה.
  • ניטור, גיבוי, ועדכוני גרסה.

איך זה עובד

  1. 01

    POC

    מריצים מודל קטן על שרת אחד תוך שבוע — מודדים זמני תגובה ועלות.

  2. 02

    Production

    GPU מתאים, רשת, אבטחה, גיבוי.

  3. 03

    אינטגרציה

    ממשק לעובדים, API לאפליקציות.

  4. 04

    תחזוקה

    עדכוני מודלים, ניטור, דו״חות שימוש.

שאלות נפוצות

אילו מודלים פתוחים שווה להריץ?

תלוי במשימה. Llama 4 / Qwen / Mistral / Mixtral / DeepSeek — כל אחד מצוין למשהו אחר. בודקים על המקרים שלכם, לא לפי הייפ.

מה ההבדל מ־OpenAI?

פרטיות, עלות צפויה, שליטה בגרסאות. בהרבה משימות עסקיות מודלים פתוחים מספיק טובים — וזולים משמעותית.

צריך GPU יקר?

לא תמיד. למשימות לא־קריטיות גם RTX 4090 או Mac Studio מתאימים. למשימות גדולות — H100 / MI300.

רוצה לראות מה אפשר להריץ אצלכם?

שיחה קצרה תספיק לבנות אומדן ראשוני: איזה מודל, איזה חומרה, ואיזו עלות חודשית.