ZIP · ללא הרשמה · רישיון שימוש כלול בקובץ

📖 מה ה-Skill הזה כולל

מתי להשתמש

"voice AI", "OpenAI Realtime", "voice agent", "Cartesia", "ElevenLabs", "voice bot", "בוט קולי", "TTS עברית".

הוראות עבודה

1. The Stack 2026

[Mic] → STT → LLM → TTS → [Speaker]
       ↑                ↑
    interruption    streaming

Speech-to-Speech (S2S) — המודל מבין ויוצר קול ישירות. מוריד latency דרסטית.

2. APIs מובילים

ספק	סוג	Latency	מחיר
OpenAI Realtime API (gpt-4o-realtime)	S2S	~300ms	$5/1M input audio, $20/1M output
Anthropic Claude voice (TBA 2026)	TBD	TBD	TBD
Cartesia Sonic	TTS only, super fast	90ms	$0.065/1K chars
ElevenLabs Turbo v2.5	TTS	250ms	$0.18/1K chars
ElevenLabs Conversational AI	full agent	~500ms	$0.08-0.30/min
Deepgram Aura	TTS streaming	<300ms	$0.015/min
Deepgram Nova-3	STT	<300ms	$0.0058/min
Vapi	platform (multi-vendor)	varies	$0.05-0.10/min + LLM
Retell	platform	varies	$0.07/min + costs
LiveKit Agents	infra	low	hosting cost

3. Pipeline Approaches

A. Cascading (3 components)

STT → LLM → TTS. Total latency 600-1500ms. Flexibility גבוהה.

B. Speech-to-Speech (S2S, integrated)

Model אחד שומע + מדבר. Latency 200-400ms. דוגמה: OpenAI Realtime.

מתי קסקדינג עדיף:

צריך LLM ספציפי (Claude, custom).
Logging + analytics על טקסט.
אישור human על TTS לפני נשלח.

מתי S2S:

שיחה זורמת חשובה.
Latency = הכל.

4. Latency Budget

End-to-end target: <800ms (טבעי)
- VAD detection: 50ms
- STT first token: 200ms
- LLM first token: 200ms
- TTS first chunk: 100ms
- Network: 100ms
- Buffer/jitter: 150ms

Tactics:

Streaming everywhere (STT partial, LLM streaming, TTS streaming).
Edge regions קרובים למשתמש.
Speculative decoding (LLM).
Pre-warm connections.

5. Use Cases חמים 2026

Use case	Tool מומלץ
Inbound customer support	Vapi / Retell / ElevenLabs Conv
Outbound sales/qualification	Vapi + Twilio
Appointment booking	Retell + calendar API
Voice assistant ב-app	OpenAI Realtime
Drive-thru / kiosk	Vapi + custom
Healthcare intake	Cartesia (low latency) + cascading
Language learning	ElevenLabs + Claude
Audiobooks dynamic	ElevenLabs + LLM

6. Voice Cloning

ElevenLabs Voice Lab — 3 דקות → voice clone.
Cartesia — voice cloning זול ומהיר.
OpenAI Voice Engine — beta, restricted.
Legal: הסכמה כתובה חובה. EU AI Act + Israeli ל-deepfake voice.

7. Hebrew TTS — מצב 2026

ספק	איכות עברית	מחיר
ElevenLabs (multilingual v2/turbo)	טובה מאוד, multiple voices	$0.18/1K
Google Cloud TTS	בינונית-טובה, WaveNet	$16/1M chars
Azure Speech	טובה, neural voices	$16/1M
Microsoft Speech (Custom)	תאמן voice עברי משלך	enterprise
OpenAI TTS	סבירה לעברית	$15/1M
Cartesia	מתפתח	$0.065/1K
Lovo / Murf	עברית קיימת	varies

ניואנס עברית קולית: מילים טעונות שגיאות (קטילה לעומת קְטִילָה). תמיד בדוק עם דובר native.

8. STT עברית

Deepgram — תומך עברית, איכות טובה.
OpenAI Whisper — חופשי, איכות סבירה לעברית.
AssemblyAI — סבירה.
Google Speech-to-Text — סבירה.
Azure Speech — טובה, custom models.

9. Interruption Handling

VAD (Voice Activity Detection) detects user speaking.
Cancel TTS in-progress.
Stop LLM generation.
Listen + respond to new utterance.

OpenAI Realtime + ElevenLabs Conv handle אוטומטית. Custom build = מורכב.

10. Telephony Integration

Twilio Voice — סטנדרט. Vapi/Retell בוני עליו.
Telnyx — חלופה זולה יותר.
Plivo — חלופה.
WebRTC — direct browser-to-agent.
SIP — enterprise PBX.

11. עלויות אמיתיות

שיחה של 5 דקות:

OpenAI Realtime: ~$0.30-0.50.
Vapi (cascading): ~$0.40-0.80 (Deepgram + GPT-4o + ElevenLabs).
ElevenLabs Conv: ~$0.40-1.50.

1000 שיחות/חודש = $300-1500. קמפיין outbound אגרסיבי = $$$ מהר.

12. ישראלי context

Israeli voice startups

Hour One — synthesized presenters (וידאו + קול).
AI21 — שירותי שפה (טקסט בעיקר).
Yotpo — voice features ב-CX.
Guesty (host comm) — שילוב voice.

Practical

בנקים ישראלים בוחנים voice AI לתמיכה (לאומי, פועלים).
חוק הגנת הפרטיות: הקלטה דורשת הסכמה.
SMS opt-out לא מספיק לשיחות AI יוצאות — חוק ספאם דורש הסכמה מפורשת.
בעברית עם מבטא: דייקנות STT נופלת ל-80% מ-95%. בנו fallback.

קלט נדרש

שדה	תיאור
Use case	inbound / outbound / app
Volume	minutes/month
Languages	עברית / English / שתיהן
Latency tolerance	<500ms / <1s
Telephony	Twilio? VoIP?

פלט צפוי

Deliverable	תוכן
Stack choice	S2S / cascading + tools
Cost model	per minute / per call
Latency analysis	bottlenecks
Hebrew quality plan	voice + STT testing
Compliance	recording consent

כללי עבודה

פלט בעברית, מונחים מקצועיים באנגלית
מחירים per minute, per 1K chars
2026: OpenAI Realtime, ElevenLabs Conv, Cartesia מובילים

דגלים אדומים

אין הסכמה להקלטה → הפרת חוק.
Voice cloning בלי הסכמה → אסור + תביעות.
Latency >1.5s → חוויה רעה, נטישה.
אין fallback להעברה לאדם → לקוחות זועמים.
TTS עברית בלי native בדיקה → טעויות מביכות.

הערות חשובות

S2S = העתיד. עדיין נדרשים cascading למקרים מסוימים.
ElevenLabs = quality king ל-TTS. Cartesia = speed king.
חוויה טבעית > עוד 100ms חיסכון.
תמיד "transfer to human" כ-escape hatch.
בעברית: בדקו עם דוברים מגוונים (ספרדי, אשכנזי, רוסי-עברית).

פרומפט לדוגמה

תכנן voice agent ל-customer support בקופ"ח, עברית, 100K דקות/חודש.

השווה OpenAI Realtime ל-Vapi (Deepgram+GPT+ElevenLabs) latency + עלות.

איך עושים Hebrew TTS עם מותג קולי עקבי על ElevenLabs?

📥 התקנה בחצי דקה

1. הורד ופתח את קובץ ה-ZIP — תקבל תיקייה בשם voice-ai-realtime.
2. ב-Claude Code: העבר את התיקייה אל ~/.claude/skills/.
באפליקציה (Claude / Cowork): הגדרות ← Capabilities ← Skills ← העלאה.
3. בקש מ-Claude את מה שצריך בעברית — הוא יפעיל את ה-skill לבד כשזה רלוונטי.

Skill Real-time Voice AI — AI קולי בזמן אמת ל-Claude