Распознавание речи (Speech-to-Text)

FreedomSpeech Team

Обновлена 13 февраля 2026 г.

Узнайте, как происходит распознавание речи в реальном времени. Сервис FreedomSpeech ASR преобразует речь в текст с высокой точностью для казахского и русского языков.

Способы распознавания

FreedomSpeech предлагает несколько способов распознавания речи в зависимости от ваших задач:

Потоковое распознавание

Распознавание речи в реальном времени через WebSocket или gRPC. Идеально для голосовых ассистентов и транскрибации.

Распознавание файлов

Обработка аудио и видео файлов. Поддерживает большие файлы и пакетную обработку.

Поддерживаемые форматы аудио

WAV — PCM 16-bit, моно, 8000-48000 Hz
MP3 — любой битрейт
OGG — Opus, Vorbis
FLAC — без потерь качества
WebM — для веб-приложений

💡 Рекомендации

Для лучшего качества используйте WAV или FLAC формат
Рекомендуемая частота дискретизации: 16000 Hz
Для потокового распознавания используйте WebSocket API