Native Speech Generation — генератор речи, дополнение NVDA

Native Speech Generation — это дополнение для NVDA, интегрирующее Google Gemini AI для генерации высококачественной, естественно звучащей речи непосредственно внутри NVDA.
Он обеспечивает чистый и полностью доступный интерфейс для преобразования текста в аудио.
Это дополнение предназначено для озвучки, диалогов и создания аудиоконтента.

Особенности

— Генерация речи высокого качества Выбирайте:
◦ Gemini Flash Стандартное качество, быстрая генерация, низкая задержка.
◦ Gemini Pro Премиум, более реалистичные голоса (платная модель).

• Озвучивание с одним оратором для стандартного преобразования текста в речь.
• Режим диалогов с разными голосами.
Продвинутое голосовое управление:
Назначайте пользовательские имена (например, Джон, Мэри) в режиме диалогов. ИИ автоматически отображает голоса на основе имён говорящих в сценарии.

• Дайте подсказки вроде «Говорите весёлым тоном» или «Рассказывайте спокойно».
• Контроль температуры:
Корректируйте вариации выхода и креативность:
◦ Низкие значения → более стабильную и предсказуемую речь.
◦ Более высокие ценности → более выразительной и разнообразной речью.

Доступный и чистый интерфейс
• Полностью доступно с помощью экранных скринридеров.

• Аудио воспроизводится автоматически после генерации.
• Сгенерированное аудио можно воспроизводить или сохранять в виде высококачественного файла..wav

Общайтесь с ИИ — живое обсуждение

• Голосовой чат в реальном времени: Проведите естественный разговорный разговор с Gemini с низкой задержкой.
• ответы Geminiс помощью поиска Google: Дайте ИИ доступ к информации в реальном времени из интернета во время вашего чата.
• Прерываемость: Вы можете в любой момент прервать ИИ, заговорив или нажав «Прекратить разговор».
• Настраиваемое: использует выбранные вами инструкции по голосу и стилю.

Требования

Обязательное подключение через VPN
• NVDA (рекомендуется последняя версия).
• Активное интернет-соединение.
• Действительный Google Gemini API Key.

Установка

1. Скачайте последний дополнительный пакет со страницы релизов:
Скачать дополнение
https://nvda.ru/uploads/addons/NativeSpeechGeneration-V.1.5.nvda-addon
или
https://github.com/MuhammadGagah/native-speech-generation/releases

Подробнее на странице дополнения
https://nvda-addons.ru/page.php?id=NativeSpeechGeneration

2. Устанавливайте его как стандартное дополнение NVDA.

. Перезапускайте NVDA по запросу.

Настройка ключа API (обязательно)

Требование:
Необходимо подключение через VPN.

— Внизу Окна интерфейса нажмите кнопку:
«Настройки ключа API»
— В открывшемся окне настроек NVDA нажмите кнопку «Как получить ключ API».
Или пройдите по следующим шагам:
1. Создайте API — ключ из Google AI Studio: https://aistudio.google.com/apikey
Войдите под своим аккаунтом Google,
Перейдите в раздел API & Services → Библиотека.
Найдите сервис AI Studio API (или соответствующий сервис для вашего региона).
Нажмите на кнопку активации сервиса.
Для получение ключа API
Вернитесь обратно в раздел API & Services и выберите пункт Credentials.
Если ранее не создавали ключи, нажмите кнопку Create Credentials и выберите тип ресурса API key.
Сохраните полученный ключ в надежном месте.

2. Откройте NVDA и перейдите в: Меню → инструменты NVDA → генерация нативной речи
3. Нажмите «API Key Settings».
4. Это открывает настройки NVDA прямо в категории генерации родной речи.
5. Вставьте ваш ключ Gemini API в поле GEMINI API Key.
6. Нажмите OK, чтобы сохранить.

Как использовать

Откройте диалог с помощью следующих методов:
• Ins+Control+Shift+G, или
• Меню NVDA → инструменты → генерации родной речи

Основные элементы интерфейса
• Текст для конвертации Введите или вставьте текст, который хотите преобразовать в речь.
• Инструкции по стилю (по желанию) Дайте советы по тону, эмоциям или подаче.
• Выбрать модель
◦ Вспышка (стандартного качества)
◦ Pro (Высокое качество)

• Режимы
◦ Один голос,
◦ Диалог

Генерация речи

 

Режим с одним голосом:

1. Выберите Один голос.
2. Выберите голос в выпадающем меню Выберите голос.
Лучшие голоса:
Zephyr — женский голос
Charon — мужской низкий голос
Leda — женский чистый голос

3. Введите своё сообщение.
4. По желанию добавьте инструкции по стилю.
5. Нажмите «Генерировать речь».
6. После генерации аудио воспроизводит автоматически.

Режим Диалога:

1. Выберите Multi-speaker (2).
2.Для каждого докладчика:
◦ Появляется уникальное имя спикера.
◦ Выберите уникальный голос.
3. Форматируйте текст так, чтобы каждая строка начиналась с имени говорящего и затем двоеточие.
Пример:
Alice: Привет Боб
Bob: Добрый день
Принято
4. Нажмите «Генерировать речь». Голоса будут назначаться автоматически в зависимости от имён выступающих.

Общайтесь с ИИ (режим реального времени)

Испытайте естественный двусторонний голосовой разговор с Gemini.
1. Настройте желаемые инструкции по голосу и стилю в главном диалоговом окне. (Примечание: Talk With AI в настоящее время поддерживает только режим одного динамика)
2. Нажмите «Поговорить с AI».
3. В новом окне:
◦ Начать разговор: начинает сеанс. Говорите в микрофон.
◦ Остановить разговор: завершает сеанс.
◦ Заземление с помощью поиска Google: установите этот флажок, чтобы разрешить Gemini искать ответы в Интернете (например, текущие новости, погода).

■ Примечание. Этот флажок скрыт, пока разговор активен. Остановите разговор, чтобы изменить его.
◦ Переключение микрофона: отключение/включение микрофона.
◦ Громкость: регулировка громкости воспроизведения AI.

Рубрика: Текст в аудио. Вы можете добавить постоянную ссылку в закладки.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *