מתי להשתמש
"open source LLM", "Llama vs Mistral", "self-host AI", "fine-tune", "open weights", "מודל פתוח".
הוראות עבודה
1. מה זה "open" ב-2026
| רמת פתיחות | דוגמאות | זמינות |
|---|---|---|
| Open weights + open license | Llama 3.3, Mistral, Qwen, DeepSeek | מסחרי (עם תנאים) |
| Open weights, restricted | Llama (>700M MAU), some Cohere | מסחרי מוגבל |
| Source-available | Stable Diffusion (RAIL) | תנאים על שימוש |
| Closed API only | GPT-5, Claude, Gemini | API access |
2. המודלים המובילים — סקירה
Llama 3.3 (Meta, Dec 2024)
- 70B + 405B variants.
- Multilingual (8 שפות רשמית, סביר בעברית).
- License: Llama Community License (חופשי עד 700M MAU).
- חוזק: balanced, ecosystem ענק.
Mistral Large 2 + Codestral
- צרפתית, 123B.
- Mistral Research License (non-commercial) + commercial license בתשלום.
- Codestral 22B = code-tuned.
- Mixtral 8x22B = MoE (39B active params).
DeepSeek-V3 + R1 (Jan 2025)
- 671B MoE (37B active).
- R1 = reasoning model, מתחרה ב-o1.
- MIT license — הכי פתוח.
- שינה את השוק — איכות frontier בעלות נמוכה.
- חששות: סינית. חברות מערביות מודאגות מ-data flow אם משתמשים ב-API שלהם.
Qwen 2.5 (Alibaba)
- עד 72B.
- חזק ב-multilingual (כולל ערבית, פחות בעברית).
- Apache 2.0.
Phi-4 (Microsoft, Dec 2024)
- 14B, distilled מסינתטי + אמיתי.
- חזק להפליא לגודלו.
- MIT license.
Gemma 2 (Google)
- 9B / 27B.
- Gemma terms — מסחרי עם תנאים.
Command R+ (Cohere)
- 104B, RAG-tuned, tool use.
3. Self-host vs API — Decision Matrix
| גורם | Self-host (open) | Cloud API (closed) |
|---|---|---|
| עלות initial | $5K-100K (HW) | $0 |
| עלות variable | $0/inference | $0.5-15/1M tokens |
| איכות 2026 | 85-95% from frontier | 100% |
| Latency | tunable, low possible | 100-500ms |
| Privacy | מלא | DPA-dependent |
| Maintenance | אתה | vendor |
| Scale | linear with HW | infinite |
| Compliance | אתה שולט | depends on vendor |
Break-even point: ~5-20M tokens/חודש בכוונה גבוהה — self-host זול יותר.
4. Licensing — קריטי לעסקים
| License | מסחרי? | תנאים מיוחדים |
|---|---|---|
| Apache 2.0 | כן | attribution |
| MIT | כן | attribution |
| Llama Community | כן | <700M MAU, branding |
| Mistral Research | לא | research only, צריך commercial |
| Gemma Terms | כן | safety policy |
| CC-BY-NC | לא | non-commercial |
תמיד קרא את ה-license. שינויים תכופים.
5. Fine-tuning — מתי וכיצד
מתי כדאי fine-tune:
- Domain-specific language (legal, medical, code).
- Output format עקבי.
- Style replication (brand voice).
- Latency/cost critical.
מתי לא:
- כי "אני רוצה לאמן AI שלי" — בדרך כלל RAG עדיף.
- Knowledge updates — RAG, לא FT.
שיטות:
- Full fine-tuning — יקר, מצריך GPU כבד.
- LoRA / QLoRA — adapter קטן, זול. סטנדרט 2026.
- DPO / ORPO — לאחר SFT, ליישור עדיף.
Tools: Unsloth (פי 2 מהיר, פחות זיכרון), Axolotl, HuggingFace TRL, Together.ai.
6. Hosting Options
| ספק | מודלים | מחיר אופייני |
|---|---|---|
| Together.ai | Llama, Mistral, Qwen | $0.20-0.90/1M tokens |
| Replicate | many open + custom | per-second compute |
| Fireworks.ai | optimized inference | $0.20-1.20/1M |
| Anyscale | Llama-focused | $0.50-1.00/1M |
| Modal | bring your own | per-GPU-second |
| Groq | Llama on LPU, super fast | $0.05-0.99/1M |
| Cerebras | speed king | $0.60-1.20/1M |
| AWS Bedrock | Llama, Mistral | $0.30-1.95/1M |
| Self-hosted (vLLM) | any | HW costs only |
7. Ecosystem Tools
- Hugging Face — model hub, datasets, Spaces.
- vLLM — inference engine סטנדרט.
- TGI — Hugging Face inference.
- llama.cpp — CPU + edge.
- Ollama — easy local.
- LangChain / LlamaIndex — application framework.
- DSPy — programmatic prompting.
8. Performance Benchmarks 2026
MMLU (general knowledge):
- GPT-5: ~92%
- Claude Opus 4: ~91%
- Llama 3.3 70B: ~86%
- DeepSeek-V3: ~88%
- Mistral Large 2: ~84%
HumanEval (code):
- DeepSeek-Coder V3: 90%+
- Codestral 22B: 81%
Reasoning (AIME, MATH):
- DeepSeek-R1 ≈ o1.
- Qwen 2.5 Math.
9. Israeli Open Source
- DictaLM 2.0 — Hebrew Mistral-based.
- AI21 Labs — Jamba (hybrid Mamba-Transformer), open weights.
- AlephAlpha (גרמני אבל ישראלי founders) — Pharia models.
10. Compliance & Privacy
- Self-host = full data sovereignty.
- חברות בנקאיות / ביטחוניות בישראל מעדיפות open + on-prem.
- DeepSeek API — אזהרה: data טרחתית גם אם משלמים. self-host המשקלים בעצמכם.
11. Cost Modeling Example
Use case: 10M tokens/יום, Llama 3.3 70B.
- Together.ai: ~$0.88 per 1M = $8.8K/חודש.
- Self-host on 2× H100: ~$50K HW + $1K/חודש electricity = breakeven 6 חודשים.
- AWS Bedrock: ~$2.65 per 1M = $26.5K/חודש.
- Claude Sonnet (closed): ~$3 per 1M input = $30K/חודש (אבל איכות גבוהה יותר).
12. Strategy Recommendation 2026
- Prototyping: Cloud API (any).
- Production <5M tokens/חודש: Cloud API.
- Production >20M tokens/חודש + privacy: Self-host open.
- Frontier quality required: Cloud (Claude / GPT-5).
- Sovereignty critical: Self-host (Llama / DeepSeek).
- Hebrew quality first: Cloud (Claude > GPT > Gemini).
קלט נדרש
| שדה | תיאור |
|---|---|
| Volume | tokens/month |
| Quality bar | frontier / good enough |
| Privacy | API ok / on-prem only |
| Budget | CapEx + OpEx |
| Hebrew? | yes/no |
פלט צפוי
| Deliverable | תוכן |
|---|---|
| Model + hosting choice | Llama on Together / DeepSeek self-host |
| Cost model | per-million tokens, monthly |
| License analysis | מסחרי? תנאים? |
| Migration plan | מ-OpenAI ל-open |
| Fallback | API backup if self-host fails |
כללי עבודה
- פלט בעברית, מונחים מקצועיים באנגלית
- מחירים per 1M tokens
- 2026: DeepSeek זעזע את השוק
דגלים אדומים
- שימוש מסחרי במודל non-commercial license → תביעה.
- DeepSeek API למידע רגיש → data flow לסין.
- Self-host בלי DevOps → uptime בעיה.
- Fine-tune בלי eval → גרוע מ-base model.
- Llama >700M MAU בלי הסכם Meta → הפרת license.
הערות חשובות
- 2025 = שנת DeepSeek. שינתה ציפיות מחיר/איכות.
- Self-host לא תמיד זול — לקחו בחשבון ops, monitoring, on-call.
- LoRA = הסטנדרט ל-fine-tuning. לא צריך full FT.
- Together.ai / Fireworks = managed open hosting מצוין.
- בעברית: cloud סגור עדיין מנצח. DictaLM = open הטוב ביותר לעברית.
פרומפט לדוגמה
השווה Llama 3.3 70B ל-Claude Sonnet ל-customer support ב-10M tokens/חודש.
תכנן fine-tuning של Llama על 5K דוגמאות חוזים בעברית.
האם DeepSeek-R1 בטוח לשימוש בארגון פיננסי בישראל?
© 2026 AI Expert Pro | גרסה 1.1.0