Это комплект ПО, позволяющий создавать конфиденциальные, полностью автономные, интеллектуальные IVR системы на базе Freeswitch.
Комплект состоит из различных модулей/библиотек, обычно поставляется как коробочное решение (в виде готового сервера или c установкой на вашу вирт.машину), некоторые модули доступны по отдельности.
решения типовых проблем пользователя в режиме диалога, полностью в автоматическом режиме
транскрипция (классификации) и последующая передача в вашу тикет систему
вызовы с напоминанием/подтверждением записи на прием и т. д.
прием, фильтрация, переадресация звонков и т. д.
Нет. Эта шутка использует другой подход, вместо 'универсальности' как в LLM, здесь применяются легковесные NLP модели, обученные под конкретно ваши задачи, с логикой на javascript,
что позволяет иметь полностью автономные системы (работающие на вашей стороне) с максимальной производительностью на относительно дешевом оборудовании.
Локальные TTS/STT сервисы обеспечивают сохранность персональных данных и биометрии пользователей.
Например: Core2 Quad с 4G памяти, будет достаточно для ведения от 2-5 одновременных диалогов.
Конечно, если политика безопасности позволяет вам использовать внешние GPT сервисы (типа: ChatGPT/DeepSeek/...) или у вас есть ресурсы для запуска их локально, то, они без проблем могут быть интегрированы в систему.
К сожалению LLM все еще достаточно ресурсоемкое решение и не каждый может себе позволить иметь его в продакшене, так же как и использование публичных GPT сервисов, в таких системах это сопряжено со сл. рисками:
Изначально LLM модели ничего не знают про специфику вашего бизнеса, по этому, для нормальной работы необходимо дообучить модели на ваших данных (котрые могут содержать конфиденциальную информацию) соответственно все эти данные становятся доступны владельцам сервисов
Когда пользователи взаимодействуют с системой, то все персональные данные которые там появяются так-же становятся доступны владельцам севрвисов
При использовании внешних Speech-to-Text сервисов, ничего не мешает сохранять и выделять отпечатки голосов из аудио фаргментов (если не используются спец.средства по противодействию этому),
далее это может быть использовано для идентификации пользователей по голосу (без их ведома) или в синтезаторах для создания фейков
Как уже было сказано, на данный момент LLM достаточно дорогое и ресурсоемкое решение, даже при низкой цене токена для вас, конечный запрос на железе провайдера стоит разы дороже (и это лишь вопрос времени когда цена токена для вас внезапно поменяется).
Так же важную роль играет отзывчивость системы (зедержка при генерации ответа), на базовых тарифах вы запросто можете получть задержку до 20+ секунд, что вносит дискомфорт в диалоги и раздражение пользователей.
Для asrd/ttsd список языков достаточно большой, т.к. используются opensouce модели. (см. описание компонентов)
Для NLP есть поддержка: Русский, Англиский (возможно добавление)
Высокопроизводительный сервис преобразования речи в текст (pure с)
Возможности: офлайн-распознавание (локальные модели, дообучение), онлайн-распознавание (работа с внешними сервисами), многоязычный режим.
Языки: английский, немецкий, французский, русский, казахский, полный список
API: JSON-RPC, simple HTTP
Высокопроизводительный сервис преобразования текста в речь (pure с)
Возможности: автономный синтез (локальные модели, с дообучением), онлайн-синтез (работа с внешними сервисами), многоязычный режим.
Языки: английский, немецкий, французский, русский, казахский, полный список
API: JSON-RPC, simple HTTP
Высокопроизводительный сервис обработки языка (java / puce c)
Возможности: работа с небольшими наборами данных, быстрое переобучение, многоязычный режим.
Языки: английский, русский (базовые модели)
API: WebUI + JSON-RPC
Веб интерфейс для управления компонентами (java + javascript)
Класс 5 софтсвитч + sivr модули