מתי להשתמש
"voice AI", "OpenAI Realtime", "voice agent", "Cartesia", "ElevenLabs", "voice bot", "בוט קולי", "TTS עברית".
הוראות עבודה
1. The Stack 2026
[Mic] → STT → LLM → TTS → [Speaker]
↑ ↑
interruption streaming
Speech-to-Speech (S2S) — המודל מבין ויוצר קול ישירות. מוריד latency דרסטית.
2. APIs מובילים
| ספק | סוג | Latency | מחיר |
|---|---|---|---|
| OpenAI Realtime API (gpt-4o-realtime) | S2S | ~300ms | $5/1M input audio, $20/1M output |
| Anthropic Claude voice (TBA 2026) | TBD | TBD | TBD |
| Cartesia Sonic | TTS only, super fast | 90ms | $0.065/1K chars |
| ElevenLabs Turbo v2.5 | TTS | 250ms | $0.18/1K chars |
| ElevenLabs Conversational AI | full agent | ~500ms | $0.08-0.30/min |
| Deepgram Aura | TTS streaming | <300ms | $0.015/min |
| Deepgram Nova-3 | STT | <300ms | $0.0058/min |
| Vapi | platform (multi-vendor) | varies | $0.05-0.10/min + LLM |
| Retell | platform | varies | $0.07/min + costs |
| LiveKit Agents | infra | low | hosting cost |
3. Pipeline Approaches
A. Cascading (3 components)
STT → LLM → TTS. Total latency 600-1500ms. Flexibility גבוהה.
B. Speech-to-Speech (S2S, integrated)
Model אחד שומע + מדבר. Latency 200-400ms. דוגמה: OpenAI Realtime.
מתי קסקדינג עדיף:
- צריך LLM ספציפי (Claude, custom).
- Logging + analytics על טקסט.
- אישור human על TTS לפני נשלח.
מתי S2S:
- שיחה זורמת חשובה.
- Latency = הכל.
4. Latency Budget
End-to-end target: <800ms (טבעי)
- VAD detection: 50ms
- STT first token: 200ms
- LLM first token: 200ms
- TTS first chunk: 100ms
- Network: 100ms
- Buffer/jitter: 150ms
Tactics:
- Streaming everywhere (STT partial, LLM streaming, TTS streaming).
- Edge regions קרובים למשתמש.
- Speculative decoding (LLM).
- Pre-warm connections.
5. Use Cases חמים 2026
| Use case | Tool מומלץ |
|---|---|
| Inbound customer support | Vapi / Retell / ElevenLabs Conv |
| Outbound sales/qualification | Vapi + Twilio |
| Appointment booking | Retell + calendar API |
| Voice assistant ב-app | OpenAI Realtime |
| Drive-thru / kiosk | Vapi + custom |
| Healthcare intake | Cartesia (low latency) + cascading |
| Language learning | ElevenLabs + Claude |
| Audiobooks dynamic | ElevenLabs + LLM |
6. Voice Cloning
- ElevenLabs Voice Lab — 3 דקות → voice clone.
- Cartesia — voice cloning זול ומהיר.
- OpenAI Voice Engine — beta, restricted.
- Legal: הסכמה כתובה חובה. EU AI Act + Israeli ל-deepfake voice.
7. Hebrew TTS — מצב 2026
| ספק | איכות עברית | מחיר |
|---|---|---|
| ElevenLabs (multilingual v2/turbo) | טובה מאוד, multiple voices | $0.18/1K |
| Google Cloud TTS | בינונית-טובה, WaveNet | $16/1M chars |
| Azure Speech | טובה, neural voices | $16/1M |
| Microsoft Speech (Custom) | תאמן voice עברי משלך | enterprise |
| OpenAI TTS | סבירה לעברית | $15/1M |
| Cartesia | מתפתח | $0.065/1K |
| Lovo / Murf | עברית קיימת | varies |
ניואנס עברית קולית: מילים טעונות שגיאות (קטילה לעומת קְטִילָה). תמיד בדוק עם דובר native.
8. STT עברית
- Deepgram — תומך עברית, איכות טובה.
- OpenAI Whisper — חופשי, איכות סבירה לעברית.
- AssemblyAI — סבירה.
- Google Speech-to-Text — סבירה.
- Azure Speech — טובה, custom models.
9. Interruption Handling
- VAD (Voice Activity Detection) detects user speaking.
- Cancel TTS in-progress.
- Stop LLM generation.
- Listen + respond to new utterance.
OpenAI Realtime + ElevenLabs Conv handle אוטומטית. Custom build = מורכב.
10. Telephony Integration
- Twilio Voice — סטנדרט. Vapi/Retell בוני עליו.
- Telnyx — חלופה זולה יותר.
- Plivo — חלופה.
- WebRTC — direct browser-to-agent.
- SIP — enterprise PBX.
11. עלויות אמיתיות
שיחה של 5 דקות:
- OpenAI Realtime: ~$0.30-0.50.
- Vapi (cascading): ~$0.40-0.80 (Deepgram + GPT-4o + ElevenLabs).
- ElevenLabs Conv: ~$0.40-1.50.
1000 שיחות/חודש = $300-1500. קמפיין outbound אגרסיבי = $$$ מהר.
12. ישראלי context
Israeli voice startups
- Hour One — synthesized presenters (וידאו + קול).
- AI21 — שירותי שפה (טקסט בעיקר).
- Yotpo — voice features ב-CX.
- Guesty (host comm) — שילוב voice.
Practical
- בנקים ישראלים בוחנים voice AI לתמיכה (לאומי, פועלים).
- חוק הגנת הפרטיות: הקלטה דורשת הסכמה.
- SMS opt-out לא מספיק לשיחות AI יוצאות — חוק ספאם דורש הסכמה מפורשת.
- בעברית עם מבטא: דייקנות STT נופלת ל-80% מ-95%. בנו fallback.
קלט נדרש
| שדה | תיאור |
|---|---|
| Use case | inbound / outbound / app |
| Volume | minutes/month |
| Languages | עברית / English / שתיהן |
| Latency tolerance | <500ms / <1s |
| Telephony | Twilio? VoIP? |
פלט צפוי
| Deliverable | תוכן |
|---|---|
| Stack choice | S2S / cascading + tools |
| Cost model | per minute / per call |
| Latency analysis | bottlenecks |
| Hebrew quality plan | voice + STT testing |
| Compliance | recording consent |
כללי עבודה
- פלט בעברית, מונחים מקצועיים באנגלית
- מחירים per minute, per 1K chars
- 2026: OpenAI Realtime, ElevenLabs Conv, Cartesia מובילים
דגלים אדומים
- אין הסכמה להקלטה → הפרת חוק.
- Voice cloning בלי הסכמה → אסור + תביעות.
- Latency >1.5s → חוויה רעה, נטישה.
- אין fallback להעברה לאדם → לקוחות זועמים.
- TTS עברית בלי native בדיקה → טעויות מביכות.
הערות חשובות
- S2S = העתיד. עדיין נדרשים cascading למקרים מסוימים.
- ElevenLabs = quality king ל-TTS. Cartesia = speed king.
- חוויה טבעית > עוד 100ms חיסכון.
- תמיד "transfer to human" כ-escape hatch.
- בעברית: בדקו עם דוברים מגוונים (ספרדי, אשכנזי, רוסי-עברית).
פרומפט לדוגמה
תכנן voice agent ל-customer support בקופ"ח, עברית, 100K דקות/חודש.
השווה OpenAI Realtime ל-Vapi (Deepgram+GPT+ElevenLabs) latency + עלות.
איך עושים Hebrew TTS עם מותג קולי עקבי על ElevenLabs?
© 2026 AI Expert Pro | גרסה 1.1.0