Appearance
Entender Mídia · media_understand
Referência do nó
Kind:media_understandCategoria:IAPara que serve
Imagina que o cliente manda uma foto do documento com defeito, um áudio explicando o problema ou um vídeo de uma situação. Em vez de precisar de um atendente humano para ver e entender esse conteúdo, o nó Entender Mídia usa IA para analisar o que foi enviado e transformar isso em texto — um resumo, uma descrição, uma transcrição — que o fluxo pode usar para continuar o atendimento.
Quando usar
- Transcrever mensagens de áudio enviadas pelo cliente no WhatsApp
- Analisar fotos de documentos, produtos com defeito ou situações relatadas por imagem
- Descrever o conteúdo de um vídeo curto enviado pelo cliente
- Extrair texto ou informações de imagens (OCR estendido com IA)
- Verificar se uma imagem enviada corresponde ao que foi solicitado
Tipos de mídia suportados
| Tipo | Formatos comuns | O que a IA entrega |
|---|---|---|
| Imagem | PNG, JPG, WEBP, GIF | Descrição, texto extraído, análise |
| Áudio | MP3, OGG, WAV, M4A | Transcrição completa do que foi dito |
| Vídeo | MP4, MOV | Descrição das cenas, transcrição do áudio |
| Documento | PDF, DOCX | Análise e resumo do conteúdo |
Passo a passo
- Certifique-se de que o arquivo de mídia já está disponível no fluxo — geralmente vindo de um nó Esperar Texto que recebeu um arquivo do cliente pelo WhatsApp.

CAPTURAR: fluxo com nó esperar_texto conectado ao media_understand, destacando que o cliente enviou um arquivo de áudio
- Arraste o nó **Entender Mídia** para o canvas e conecte ao nó que fornece o arquivo.
- Configure a **Fonte da mídia** — referência ao arquivo recebido (ex.:
{{esperar_texto.file}}).
CAPTURAR: painel do media_understand com o campo de fonte preenchido com a referência ao arquivo do nó anterior
- Selecione o **Modelo** a usar (modelos com capacidade multimodal são recomendados para imagens e vídeos).
- Escreva o **Prompt** — o que você quer que a IA faça com o arquivo. Exemplos: - Para áudio: "Transcreva o que foi dito em português." - Para imagem: "Descreva o que você vê nesta imagem. Se houver texto, transcreva-o." - Para vídeo: "Resuma o conteúdo deste vídeo em 2 parágrafos."

CAPTURAR: campo de prompt do media_understand preenchido com instrução de transcrição para áudio
- Salve. O resultado fica em
{{media_understand.output}}como texto.
Campos
| Campo | O que faz |
|---|---|
| Fonte da mídia | Referência ao arquivo (URL, variável do fluxo) |
| Tipo de mídia | Detecção automática ou especificação manual |
| Modelo | LLM multimodal que vai processar o arquivo |
| Prompt | Instrução para a IA — o que analisar ou extrair |
Saídas
| Variável | Conteúdo |
|---|---|
output | Texto gerado pela IA (descrição, transcrição, resumo) |
type | Tipo de mídia detectado |
Exemplo
Cenário: o cliente manda um áudio pelo WhatsApp descrevendo seu problema jurídico.
Configuração:
- Fonte:
{{esperar_texto.file}} - Prompt: "Transcreva o que foi dito em português, mantendo o texto original sem corrigir erros de fala."
Uso da saída: A transcrição em {{media_understand.output}} é passada para o Classificador de Perguntas, que identifica o assunto e roteia o atendimento para o departamento correto.

CAPTURAR: fluxo completo: esperar_texto (áudio) → media_understand (transcrição) → question_classifier (classificação) → caminho correto
Dica
Para áudios em português com sotaque ou ruído, especifique no prompt o idioma e peça ao modelo para interpretar mesmo que o áudio não esteja perfeito: "Transcreva em português. Se alguma palavra estiver inaudível, indique com [inaudível]."
Atenção
Vídeos e arquivos grandes podem demorar mais para processar e consumir mais tokens. Para vídeos, prefira clipes curtos (até 2 minutos) para garantir boa performance no atendimento.