ZIP · ללא הרשמה · רישיון שימוש כלול בקובץ

📖 מה ה-Skill הזה כולל

מתי להשתמש

"open source LLM", "Llama vs Mistral", "self-host AI", "fine-tune", "open weights", "מודל פתוח".

הוראות עבודה

1. מה זה "open" ב-2026

רמת פתיחות	דוגמאות	זמינות
Open weights + open license	Llama 3.3, Mistral, Qwen, DeepSeek	מסחרי (עם תנאים)
Open weights, restricted	Llama (>700M MAU), some Cohere	מסחרי מוגבל
Source-available	Stable Diffusion (RAIL)	תנאים על שימוש
Closed API only	GPT-5, Claude, Gemini	API access

2. המודלים המובילים — סקירה

Llama 3.3 (Meta, Dec 2024)

70B + 405B variants.
Multilingual (8 שפות רשמית, סביר בעברית).
License: Llama Community License (חופשי עד 700M MAU).
חוזק: balanced, ecosystem ענק.

Mistral Large 2 + Codestral

צרפתית, 123B.
Mistral Research License (non-commercial) + commercial license בתשלום.
Codestral 22B = code-tuned.
Mixtral 8x22B = MoE (39B active params).

DeepSeek-V3 + R1 (Jan 2025)

671B MoE (37B active).
R1 = reasoning model, מתחרה ב-o1.
MIT license — הכי פתוח.
שינה את השוק — איכות frontier בעלות נמוכה.
חששות: סינית. חברות מערביות מודאגות מ-data flow אם משתמשים ב-API שלהם.

Qwen 2.5 (Alibaba)

עד 72B.
חזק ב-multilingual (כולל ערבית, פחות בעברית).
Apache 2.0.

Phi-4 (Microsoft, Dec 2024)

14B, distilled מסינתטי + אמיתי.
חזק להפליא לגודלו.
MIT license.

Gemma 2 (Google)

9B / 27B.
Gemma terms — מסחרי עם תנאים.

Command R+ (Cohere)

104B, RAG-tuned, tool use.

3. Self-host vs API — Decision Matrix

גורם	Self-host (open)	Cloud API (closed)
עלות initial	$5K-100K (HW)	$0
עלות variable	$0/inference	$0.5-15/1M tokens
איכות 2026	85-95% from frontier	100%
Latency	tunable, low possible	100-500ms
Privacy	מלא	DPA-dependent
Maintenance	אתה	vendor
Scale	linear with HW	infinite
Compliance	אתה שולט	depends on vendor

Break-even point: ~5-20M tokens/חודש בכוונה גבוהה — self-host זול יותר.

4. Licensing — קריטי לעסקים

License	מסחרי?	תנאים מיוחדים
Apache 2.0	כן	attribution
MIT	כן	attribution
Llama Community	כן	<700M MAU, branding
Mistral Research	לא	research only, צריך commercial
Gemma Terms	כן	safety policy
CC-BY-NC	לא	non-commercial

תמיד קרא את ה-license. שינויים תכופים.

5. Fine-tuning — מתי וכיצד

מתי כדאי fine-tune:

Domain-specific language (legal, medical, code).
Output format עקבי.
Style replication (brand voice).
Latency/cost critical.

מתי לא:

כי "אני רוצה לאמן AI שלי" — בדרך כלל RAG עדיף.
Knowledge updates — RAG, לא FT.

שיטות:

Full fine-tuning — יקר, מצריך GPU כבד.
LoRA / QLoRA — adapter קטן, זול. סטנדרט 2026.
DPO / ORPO — לאחר SFT, ליישור עדיף.

Tools: Unsloth (פי 2 מהיר, פחות זיכרון), Axolotl, HuggingFace TRL, Together.ai.

6. Hosting Options

ספק	מודלים	מחיר אופייני
Together.ai	Llama, Mistral, Qwen	$0.20-0.90/1M tokens
Replicate	many open + custom	per-second compute
Fireworks.ai	optimized inference	$0.20-1.20/1M
Anyscale	Llama-focused	$0.50-1.00/1M
Modal	bring your own	per-GPU-second
Groq	Llama on LPU, super fast	$0.05-0.99/1M
Cerebras	speed king	$0.60-1.20/1M
AWS Bedrock	Llama, Mistral	$0.30-1.95/1M
Self-hosted (vLLM)	any	HW costs only

7. Ecosystem Tools

Hugging Face — model hub, datasets, Spaces.
vLLM — inference engine סטנדרט.
TGI — Hugging Face inference.
llama.cpp — CPU + edge.
Ollama — easy local.
LangChain / LlamaIndex — application framework.
DSPy — programmatic prompting.

8. Performance Benchmarks 2026

MMLU (general knowledge):

GPT-5: ~92%
Claude Opus 4: ~91%
Llama 3.3 70B: ~86%
DeepSeek-V3: ~88%
Mistral Large 2: ~84%

HumanEval (code):

DeepSeek-Coder V3: 90%+
Codestral 22B: 81%

Reasoning (AIME, MATH):

DeepSeek-R1 ≈ o1.
Qwen 2.5 Math.

9. Israeli Open Source

DictaLM 2.0 — Hebrew Mistral-based.
AI21 Labs — Jamba (hybrid Mamba-Transformer), open weights.
AlephAlpha (גרמני אבל ישראלי founders) — Pharia models.

10. Compliance & Privacy

Self-host = full data sovereignty.
חברות בנקאיות / ביטחוניות בישראל מעדיפות open + on-prem.
DeepSeek API — אזהרה: data טרחתית גם אם משלמים. self-host המשקלים בעצמכם.

11. Cost Modeling Example

Use case: 10M tokens/יום, Llama 3.3 70B.

Together.ai: ~$0.88 per 1M = $8.8K/חודש.
Self-host on 2× H100: ~$50K HW + $1K/חודש electricity = breakeven 6 חודשים.
AWS Bedrock: ~$2.65 per 1M = $26.5K/חודש.
Claude Sonnet (closed): ~$3 per 1M input = $30K/חודש (אבל איכות גבוהה יותר).

12. Strategy Recommendation 2026

Prototyping: Cloud API (any).
Production <5M tokens/חודש: Cloud API.
Production >20M tokens/חודש + privacy: Self-host open.
Frontier quality required: Cloud (Claude / GPT-5).
Sovereignty critical: Self-host (Llama / DeepSeek).
Hebrew quality first: Cloud (Claude > GPT > Gemini).

קלט נדרש

שדה	תיאור
Volume	tokens/month
Quality bar	frontier / good enough
Privacy	API ok / on-prem only
Budget	CapEx + OpEx
Hebrew?	yes/no

פלט צפוי

Deliverable	תוכן
Model + hosting choice	Llama on Together / DeepSeek self-host
Cost model	per-million tokens, monthly
License analysis	מסחרי? תנאים?
Migration plan	מ-OpenAI ל-open
Fallback	API backup if self-host fails

כללי עבודה

פלט בעברית, מונחים מקצועיים באנגלית
מחירים per 1M tokens
2026: DeepSeek זעזע את השוק

דגלים אדומים

שימוש מסחרי במודל non-commercial license → תביעה.
DeepSeek API למידע רגיש → data flow לסין.
Self-host בלי DevOps → uptime בעיה.
Fine-tune בלי eval → גרוע מ-base model.
Llama >700M MAU בלי הסכם Meta → הפרת license.

הערות חשובות

2025 = שנת DeepSeek. שינתה ציפיות מחיר/איכות.
Self-host לא תמיד זול — לקחו בחשבון ops, monitoring, on-call.
LoRA = הסטנדרט ל-fine-tuning. לא צריך full FT.
Together.ai / Fireworks = managed open hosting מצוין.
בעברית: cloud סגור עדיין מנצח. DictaLM = open הטוב ביותר לעברית.

פרומפט לדוגמה

השווה Llama 3.3 70B ל-Claude Sonnet ל-customer support ב-10M tokens/חודש.

תכנן fine-tuning של Llama על 5K דוגמאות חוזים בעברית.

האם DeepSeek-R1 בטוח לשימוש בארגון פיננסי בישראל?

📥 התקנה בחצי דקה

1. הורד ופתח את קובץ ה-ZIP — תקבל תיקייה בשם open-source-ai-deep.
2. ב-Claude Code: העבר את התיקייה אל ~/.claude/skills/.
באפליקציה (Claude / Cowork): הגדרות ← Capabilities ← Skills ← העלאה.
3. בקש מ-Claude את מה שצריך בעברית — הוא יפעיל את ה-skill לבד כשזה רלוונטי.

Skill Open Source AI — צלילה עמוקה ל-Claude