Транскрибация аудио в текст в n8n

Транскрибация аудио в текст в n8n: Полное руководство

Транскрибация аудио в текст — это процесс преобразования речевого содержимого из аудио- или видеофайлов в текстовый формат. В контексте автоматизации n8n, этот процесс становится мощным инструментом для интеграции речевых данных в бизнес-процессы. n8n, будучи платформой с открытым исходным кодом, позволяет создавать сложные рабочие процессы (workflows), которые могут включать этап транскрипции с использованием различных сторонних сервисов и локальных решений. Это устраняет необходимость ручного расшифровывания, экономя время и снижая количество ошибок.

Архитектура и ключевые компоненты для транскрибации в n8n

Процесс транскрибации в n8n строится вокруг специализированных узлов (nodes). Сам n8n не имеет встроенного движка для распознавания речи, поэтому выступает в роли оркестратора, передавая аудиоданные внешним API и обрабатывая возвращаемый текст. Ключевыми компонентами такого workflow являются:

Узлы-триггеры: Запускают процесс. Это может быть узел Schedule (по расписанию), Webhook (получение нового файла из внешней системы), Google Drive, Dropbox, S3 или локальная файловая система (Read/Write Files from Disk).
Узлы для обработки аудио: Иногда требуется предварительная обработка: конвертация формата, сегментация, нормализация громкости. Для этого могут использоваться узлы для выполнения команд (Execute Command) с утилитами типа FFmpeg или специализированные функции Code.
Узлы для транскрибации (основные): Узлы, осуществляющие подключение к API сервисов распознавания речи.
Узлы для постобработки текста: После получения сырого текста часто требуется его очистка, форматирование, добавление знаков препинания (если API этого не делает), разбивка на реплики спикеров. Используются узлы Code, HTML, Regex, Split In Batches.
Узлы-приемники (destination): Отправляют готовую транскрипцию в целевые системы: Notion, Google Docs, базы данных (PostgreSQL), чаты (Telegram, Slack), системы анализа настроений (Sentiment Analysis) или просто сохраняют в файл.

Детальный обзор узлов и сервисов для транскрибации

В экосистеме n8n существуют как нативные узлы для популярных облачных сервисов, так и возможности для интеграции с любым API через универсальные узлы.

Облачные API через нативные узлы

Эти сервисы предоставляют высококачественное распознавание, часто с дополнительными функциями, такими как диаризация (разделение по спикерам), фильтрация ненормативной лексики, распознавание контекстных фраз.

Название узла / Сервис	Ключевые возможности	Типичные параметры конфигурации	Формат вывода
Google Cloud Speech-to-Text	Поддержка 120+ языков, диаризация, автоматическая пунктуация, адаптация к шуму, распознавание с учетом контекста (фразы-подсказки).	Язык кода, модель распознавания (стандартная, видео, команды-и-поиск), включение диаризации, фильтрация ненормативной лексики, аудиокодировка, частота дискретизации.	Массив объектов с полями «transcript», «confidence» (уровень уверенности). При диаризации добавляется идентификатор спикера (speakerTag).
OpenAI Whisper (через узел OpenAI)	Основан на модели Whisper. Отличное качество для разнообразных акцентов и фонового шума. Поддержка транскрипции и перевода на английский.	Модель (whisper-1), язык (можно auto), промпт для контекстных подсказок, температура.	Текст транскрипции в строковом поле. Дополнительные поля: язык, длительность.
Microsoft Azure Cognitive Services (Speech to Text)	Речь в реальном времени и для записи, диаризация, настройка произношения, извлечение ключевых фраз.	Регион Azure, ключ API, язык распознавания, формат аудио, детализация вывода (простой текст или подробный с метками времени).	JSON-структура с текстом, временными метками, уверенностью и, опционально, идентификатором спикера.
AssemblyAI	Готовые модели для общих случаев, цензуры, распознавания сущностей (имена, места), обнаружения темы, автоматического выделения глав.	Ключ API, URL аудиофайла (публичный), параметры модели, включение дополнительных функций (разделение спикеров, обнаружение сущностей).	Развернутый JSON с полным текстом, словами с метками времени, спикерами, сущностями и темами.

Универсальные методы интеграции

Если для нужного сервиса нет нативного узла, используются следующие узлы:

HTTP Request: Универсальный узел для отправки запросов к любому API. Для загрузки аудиофайла часто используется multipart/form-data кодировка. Требуется ручная настройка заголовков и обработка ответа.
Code (Python/JavaScript): Позволяет реализовать сложную логику: использование локальных библиотек (например, Vosk для оффлайн-распознавания), пакетную обработку файлов, кастомную постобработку. Это самый гибкий, но требующий навыков программирования метод.

Пошаговый пример рабочего процесса (Workflow)

Рассмотрим практический workflow: «Транскрибация новых голосовых сообщений из Telegram и сохранение в Google Docs».

Триггер (Webhook или Polling): Используется узел Telegram Trigger. Он настраивается на получение обновлений от бота, в частности, сообщений с типом ‘audio’ или ‘voice’.
Извлечение файла: Узел Telegram получает file_id. Далее используется узел Telegram для скачивания файла по этому ID. Файл обычно приходит в формате .oga (Opus).
Конвертация аудио (опционально, но рекомендуется): Через узел Code или Execute Command вызывается FFmpeg для конвертации файла в формат, оптимальный для целевого API (например, WAV, 16kHz, моно). Команда может выглядеть так: ffmpeg -i input.oga -ar 16000 -ac 1 output.wav.
Транскрибация: Узел Google Cloud Speech-to-Text. В конфигурации указывается путь к конвертированному файлу (из предыдущего шага), язык (‘ru-RU’), включаются опции автоматической пунктуации и диаризации.

Постобработка: Узел Code (JavaScript). Здесь данные из Google Cloud преобразуются в читаемый текст. Если включена диаризация, реплики группируются по спикерам.

const items = $input.all();
const transcriptionResult = items[0].json.transcription;
let fullText = '';
if (transcriptionResult && transcriptionResult.alternatives[0]) {
  const words = transcriptionResult.alternatives[0].words;
  if (words && words.length > 0) {
    let currentSpeaker = null;
    for (const word of words) {
      if (currentSpeaker !== word.speakerTag) {
        fullText += `nnСпикер ${word.speakerTag}: `;
        currentSpeaker = word.speakerTag;
      }
      fullText += word.word + ' ';
    }
  } else {
    fullText = transcriptionResult.alternatives[0].transcript;
  }
}
return [{json: {final_text: fullText.trim()}}];

Сохранение результата: Узел Google Docs. Создает новый документ или добавляет текст в существующий. В качестве содержимого передается поле final_text из предыдущего шага. Можно также добавить метаданные: дату, имя отправителя из Telegram.

Обработка ошибок и обеспечение надежности

В production-среде критически важна устойчивость workflow.

Обработка таймаутов: API транскрибации для длинных файлов может отвечать долго. Необходимо увеличивать таймауты в узлах HTTP Request или специализированных узлах.
Повторные попытки (Retry): n8n имеет встроенную политику повторов для узлов. Ее нужно активировать и настроить (количество попыток, задержка) для узлов, работающих с внешними API.
Ведение логов: Использование узла Error Trigger для перехвата сбоев и отправки уведомлений в Slack или Telegram. Сохранение промежуточных файлов и JSON-данных на узле Write/Read Files from Disk для отладки.
Ограничения API: Необходимо учитывать лимиты на длительность аудио, частоту запросов, размер файла. Для длинных записей следует использовать асинхронные методы API (например, у Google Cloud Speech LongRunningRecognize).

Оптимизация затрат и производительности

Транскрибация через облачные API — платная услуга. Снизить расходы можно следующими способами:

Предварительная сегментация и фильтрация: Разделение длинных записей на фрагменты тишины (с помощью FFmpeg или специализированных библиотек) и удаление неинформативных частей.
Выбор модели: Использование более дешевых стандартных моделей, когда не требуется высочайшая точность или диаризация.
Локальное распознавание: Для конфиденциальных данных или больших объемов можно рассмотреть использование узла Code с оффлайн-движком (Vosk, Coqui STT). Это увеличивает нагрузку на инфраструктуру, но снижает облачные расходы до нуля.
Пакетная обработка: Вместо обработки каждого файла по отдельности, можно накапливать их (например, за час) и отправлять одним пакетом, если API это позволяет, используя узел Split In Batches.

Ответы на часто задаваемые вопросы (FAQ)

Какой сервис транскрибации самый точный для русского языка?

Точность зависит от конкретного аудио. В целом, Google Cloud Speech-to-Text и OpenAI Whisper показывают стабильно высокие результаты на русском языке. Yandex SpeechKit также является сильным конкурентом, но требует интеграции через HTTP Request узел. Рекомендуется провести тесты на репрезентативной выборке ваших аудиозаписей.

Можно ли транскрибировать аудио оффлайн полностью в n8n?

Да, это возможно. Для этого необходимо использовать узел Code (Python) с установленной локальной библиотекой для распознавания речи, такой как Vosk. Модели Vosk для русского языка загружаются отдельно. Весь процесс будет выполняться на сервере, где развернут n8n, без внешних вызовов. Это решение требует значительных вычислительных ресурсов (CPU/RAM) для быстрой обработки.

Как обрабатывать очень длинные аудиофайлы (более 1 часа)?

Большинство API имеют лимит на длину одного синхронного запроса (например, 1 минута для Google Cloud Speech). Решение:
1. Использовать асинхронный API (LongRunningRecognize у Google, batch processing у AssemblyAI).
2. Самостоятельно сегментировать файл на фрагменты по тишине с помощью FFmpeg (команда `silencedetect`), отправить фрагменты параллельно (используя узел Split In Batches или функцию `$async` в Code node), а затем объединить результаты с учетом временных меток.

Как добавить знаки препинания, если API их не расставляет?

Можно использовать каскадный подход: сначала получить сырой текст, а затем отправить его на дообработку. Варианты:
— Узел OpenAI (модель GPT-3.5/4) с промптом «Расставь корректно знаки препинания в следующем тексте: [текст]».
— Специализированные библиотеки в узле Code, например, для русского языка — DeepPavlov или Natasha.
— Онлайн-сервисы, доступные через HTTP Request узел.

Как организовать транскрибацию звонков из IP-телефонии (например, Asterisk)?

Workflow может выглядеть так:
1. Asterisk записывает звонок в файл (например, .wav) и отправляет его на webhook n8n или помещает в мониторимую папку.
2. n8n (через узел Webhook или Read Files from Disk) получает файл.
3. Запускается процесс транскрибации через выбранный API.
4. Текст, метаданные звонка (номер, длительность) и, опционально, результат анализа тональности сохраняются в CRM (например, HubSpot через соответствующий узел) или базу данных.

В чем разница между синхронным и асинхронным вызовом API в контексте n8n?

Синхронный вызов (используется в большинстве нативных узлов по умолчанию): n8n отправляет запрос и ждет ответа, приостанавливая выполнение workflow. Подходит для аудио длительностью до 1-5 минут. При таймауте может вызвать ошибку.
Асинхронный вызов: n8n отправляет запрос, получает ID операции, а затем периодически (через узел Schedule или Loop) опрашивает API о готовности результата. Это необходимо для очень длинных файлов. Реализуется через комбинацию узлов HTTP Request, Code и Sleep/Delay.

Как обеспечить конфиденциальность данных при транскрибации?

1. Использовать API-провайдеров, соответствующих стандартам безопасности (ISO, SOC2) и предлагающих соглашения об обработке данных (DPA).
2. Использовать локальные движки распознавания (Vosk).
3. Настроить шифрование передаваемых файлов (использовать HTTPS-эндпоинты).
4. Не хранить исходные аудиофайлы и транскрипции в логах n8n без необходимости. Регулярно очищать Execution History.
5. Использовать облачные API, которые позволяют использовать customer-managed encryption keys (CMEK).