Entender Mídia · `media_understand`

Referência do nó

Kind:media_understandCategoria:IA

Para que serve

Imagina que o cliente manda uma foto do documento com defeito, um áudio explicando o problema ou um vídeo de uma situação. Em vez de precisar de um atendente humano para ver e entender esse conteúdo, o nó Entender Mídia usa IA para analisar o que foi enviado e transformar isso em texto — um resumo, uma descrição, uma transcrição — que o fluxo pode usar para continuar o atendimento.

Quando usar

Transcrever mensagens de áudio enviadas pelo cliente no WhatsApp
Analisar fotos de documentos, produtos com defeito ou situações relatadas por imagem
Descrever o conteúdo de um vídeo curto enviado pelo cliente
Extrair texto ou informações de imagens (OCR estendido com IA)
Verificar se uma imagem enviada corresponde ao que foi solicitado

Tipos de mídia suportados

Tipo	Formatos comuns	O que a IA entrega
Imagem	PNG, JPG, WEBP, GIF	Descrição, texto extraído, análise
Áudio	MP3, OGG, WAV, M4A	Transcrição completa do que foi dito
Vídeo	MP4, MOV	Descrição das cenas, transcrição do áudio
Documento	PDF, DOCX	Análise e resumo do conteúdo

Passo a passo

Certifique-se de que o arquivo de mídia já está disponível no fluxo — geralmente vindo de um nó Esperar Texto que recebeu um arquivo do cliente pelo WhatsApp.
CAPTURAR: fluxo com nó esperar_texto conectado ao media_understand, destacando que o cliente enviou um arquivo de áudio
Arraste o nó **Entender Mídia** para o canvas e conecte ao nó que fornece o arquivo.
Configure a **Fonte da mídia** — referência ao arquivo recebido (ex.: {{esperar_texto.file}}).
CAPTURAR: painel do media_understand com o campo de fonte preenchido com a referência ao arquivo do nó anterior
Selecione o **Modelo** a usar (modelos com capacidade multimodal são recomendados para imagens e vídeos).
Escreva o **Prompt** — o que você quer que a IA faça com o arquivo. Exemplos: - Para áudio: "Transcreva o que foi dito em português." - Para imagem: "Descreva o que você vê nesta imagem. Se houver texto, transcreva-o." - Para vídeo: "Resuma o conteúdo deste vídeo em 2 parágrafos."
CAPTURAR: campo de prompt do media_understand preenchido com instrução de transcrição para áudio
Salve. O resultado fica em {{media_understand.output}} como texto.

Campos

Campo	O que faz
Fonte da mídia	Referência ao arquivo (URL, variável do fluxo)
Tipo de mídia	Detecção automática ou especificação manual
Modelo	LLM multimodal que vai processar o arquivo
Prompt	Instrução para a IA — o que analisar ou extrair

Saídas

Variável	Conteúdo
`output`	Texto gerado pela IA (descrição, transcrição, resumo)
`type`	Tipo de mídia detectado

Exemplo

Cenário: o cliente manda um áudio pelo WhatsApp descrevendo seu problema jurídico.

Configuração:

Fonte: {{esperar_texto.file}}
Prompt: "Transcreva o que foi dito em português, mantendo o texto original sem corrigir erros de fala."

Uso da saída: A transcrição em {{media_understand.output}} é passada para o Classificador de Perguntas, que identifica o assunto e roteia o atendimento para o departamento correto.

CAPTURAR: fluxo completo: esperar_texto (áudio) → media_understand (transcrição) → question_classifier (classificação) → caminho correto

Dica

Para áudios em português com sotaque ou ruído, especifique no prompt o idioma e peça ao modelo para interpretar mesmo que o áudio não esteja perfeito: "Transcreva em português. Se alguma palavra estiver inaudível, indique com [inaudível]."

Atenção

Vídeos e arquivos grandes podem demorar mais para processar e consumir mais tokens. Para vídeos, prefira clipes curtos (até 2 minutos) para garantir boa performance no atendimento.

Entender Mídia · media_understand ​

Tipos de mídia suportados ​

Saídas ​

Entender Mídia · `media_understand`

Tipos de mídia suportados

Saídas