ZIP · ללא הרשמה · רישיון שימוש כלול בקובץ

📖 מה ה-Skill הזה כולל

מתי להשתמש

"Ollama", "LLM מקומי", "להריץ Llama במחשב", "LM Studio", "offline AI", "פרטיות מלאה ב-AI".

הוראות עבודה

1. למה לרוץ מקומי

פרטיות מלאה — data לא יוצא מהמכשיר.
חינם (אחרי החומרה).
Offline — בלי אינטרנט.
Latency נמוך (אין round-trip).
Compliance — מסמכים סודיים, רפואיים, משפטיים.
Experimentation — fine-tuning ללא עלות API.

חסרונות:

איכות פחותה ממודלים cloud (GPT-5, Claude Opus).
Throughput נמוך.
צריך GPU טוב לדגמים גדולים.
אתה אחראי על safety.

2. Ollama — הקל ביותר

# Install (macOS / Linux / Windows)
brew install ollama
# Or download from ollama.com

# Run a model
ollama run llama3.3

# API at localhost:11434
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.3",
  "prompt": "שלום, מה שלומך?"
}'

יתרונות: one-line install, REST API, רץ ב-background.

3. LM Studio — UI ידידותי

Download מ-lmstudio.ai.
GUI לבחירת מודלים, chat, OpenAI-compatible local server.
Hugging Face integration.
מתאים ל-non-developers.

4. llama.cpp — Power user

C++ implementation.
מהיר ביותר על CPU + Apple Silicon.
Quantization מתקדמת (Q2-Q8).
מתאים ל-deployment ב-edge devices.

5. המודלים המובילים 2026 (open weights)

מודל	גודל	חוזק	שימוש
Llama 3.3 70B (Meta)	70B	חזק, multilingual	general
Llama 3.2 3B	3B	קטן ומהיר	edge, mobile
Mistral Large 2	123B	חזק, code-friendly	code, reasoning
Mixtral 8x22B	MoE	yields 39B active	balanced
DeepSeek-V3	671B MoE (37B active)	reasoning + code top-tier	advanced
DeepSeek-R1	671B	reasoning king (o1 competitor)	thinking tasks
Qwen 2.5 72B	72B	multilingual incl. Hebrew (חלקי)	multilingual
Phi-4 (Microsoft)	14B	קטן + חזק	resource-constrained
Gemma 2 27B (Google)	27B	קומפקטי	research

6. Hardware Requirements

מודל	RAM/VRAM	GPU מומלץ
3B Q4	4GB	iGPU / M1
7-8B Q4	8GB	M1, RTX 3060
13-14B Q4	16GB	M2 Pro, RTX 4070
32-34B Q4	24GB	M2 Max, RTX 4090
70B Q4	48GB	M3 Max 64GB, 2× RTX 4090
123B+ Q4	80GB+	H100, M3 Ultra 192GB

Apple Silicon: M-series unified memory מצוין ל-LLMs. M3 Ultra עם 192GB יכול להריץ 405B Llama.

7. Quantization — איך מקטינים

מודל "מקורי" = FP16/FP32 (16/32 bit לפרמטר). Quantization → 8/4/3/2 bit. חוסך זיכרון פי 2-8.

Quant	איכות	זיכרון
FP16	100%	100%
Q8	~99%	50%
Q5	~97%	32%
Q4 (sweet spot)	~95%	25%
Q3	~90%	19%
Q2	~80%	13%

GGUF format = הסטנדרט של llama.cpp / Ollama.

8. Use Cases אמיתיים

Code completion offline (Continue.dev + Ollama + DeepSeek-Coder).
Document chat עם RAG מקומי (Open WebUI + Ollama + ChromaDB).
Privacy-sensitive summarization — חוזים, מסמכים רפואיים.
Air-gapped — סביבות צבאיות, בנקאיות.
Edge — IoT, רובוטיקה.

9. Stack מומלץ ל-developer

Ollama (model server)
  ↓
Open WebUI (Chat UI like ChatGPT)
  ↓
Continue.dev (VS Code AI assistant)
  ↓
LangChain / LlamaIndex (RAG)

10. Hebrew Performance

Llama 3.3 — סביר אבל לא מצוין.
Mistral Large 2 — סביר.
Qwen 2.5 — סביר.
אין open model 2026 שמצטיין בעברית כמו Claude / GPT-5.
DictaLM 2.0 (ישראלי, מ-DICTA) — מודל עברי open source. מבוסס Mistral.
לתעשייה: בדוק evals פנימיים בעברית לפני בחירה.

11. Production deployment

vLLM — production inference engine, throughput x10-x20 מ-Ollama.
TGI (Text Generation Inference) — Hugging Face.
TensorRT-LLM — NVIDIA, הכי מהיר על H100.
Modal / Replicate / Together.ai — managed hosting של open models אם לא רוצים hardware.

12. ישראלי context

DictaLM — מודל עברי חופשי, פיתוח ישראלי.
חברות בטחוניות ישראליות מריצות מקומי ל-classified work.
חוק הגנת הפרטיות מעודד מקומי לעיבוד מידע אישי רגיש.
Israeli companies ב-on-prem AI: Run.ai (נמכרה ל-NVIDIA $700M, 2024), Deci (נמכרה ל-NVIDIA 2024).

קלט נדרש

שדה	תיאור
Hardware	RAM, GPU, CPU
Use case	chat / code / RAG / batch
Privacy needs	air-gapped?
Volume	requests/sec
Hebrew?	yes/no

פלט צפוי

Deliverable	תוכן
Model recommendation	Llama / Mistral / DeepSeek + size + quant
Stack	Ollama + UI + RAG
Hardware spec	min + recommended
Performance estimate	tokens/sec
Production path	vLLM / managed

כללי עבודה

פלט בעברית, מונחים מקצועיים באנגלית
מחירים: HW one-time, hosting אם managed
2026: DeepSeek-R1, Llama 3.3 dominant

דגלים אדומים

מודל גדול מה-RAM → swap → איטי בלתי שמיש.
Q2 על reasoning task → איכות נופלת מאוד.
Ollama ב-production עם traffic גבוה → תחליפו ב-vLLM.
אין safety layer → harmful outputs.
ציפייה לאיכות Claude Opus ממודל 7B → לא ריאלי.

הערות חשובות

Local LLM = privacy + control. cloud = איכות + scale. בחרו מהsus.
Apple Silicon (M3 Max/Ultra) = best bang-for-buck להרצה מקומית.
Q4 GGUF = sweet spot לרוב המקרים.
DictaLM = הבחירה לעברית מקומית.
vLLM הוא ה-production engine. Ollama = dev/personal.

פרומפט לדוגמה

ממליץ stack לעורך דין שרוצה להריץ Claude-like על MacBook Pro M3 Max 64GB לחוזים.

השווה DeepSeek-R1 vs Llama 3.3 ל-coding tasks ב-VS Code.

איך לפרוס Llama 3.3 70B ב-production עם 100 req/min על שרתי החברה?

📥 התקנה בחצי דקה

1. הורד ופתח את קובץ ה-ZIP — תקבל תיקייה בשם local-llm-ollama.
2. ב-Claude Code: העבר את התיקייה אל ~/.claude/skills/.
באפליקציה (Claude / Cowork): הגדרות ← Capabilities ← Skills ← העלאה.
3. בקש מ-Claude את מה שצריך בעברית — הוא יפעיל את ה-skill לבד כשזה רלוונטי.

Skill Local LLMs — הרצה מקומית ל-Claude