Appearance
Extrator de Documento · document_extractor
Referência do nó
Kind:document_extractorCategoria:DadosPara que serve
Pensa numa assistente que recebe um contrato em PDF, lê tudo, e te entrega um resumo com as informações principais. O Extrator de Documento faz isso: recebe um arquivo (PDF, Word, planilha, apresentação ou imagem), lê o conteúdo e devolve tudo como texto estruturado — pronto para passar para uma IA analisar, ou para usar em mensagens e integrações.
Quando usar
- Processar contratos ou documentos enviados pelo cliente via WhatsApp
- Extrair informações de boletos, notas fiscais ou comprovantes em imagem
- Ler o conteúdo de uma planilha recebida e tomar decisões com base nos dados
- Preparar o conteúdo de um documento para análise por um nó LLM
- Indexar documentos enviados pelos usuários para a base de conhecimento
Formatos suportados
| Tipo | Extensões |
|---|---|
| Documentos de texto | PDF, DOCX |
| Apresentações | PPTX |
| Planilhas | XLSX |
| Imagens | PNG, JPG, JPEG, WEBP, GIF, BMP |
A saída é sempre em Markdown, mantendo a estrutura do documento original (títulos, listas, tabelas, parágrafos).
Passo a passo
- Certifique-se de que o arquivo já está disponível no fluxo — via upload do cliente, resultado de um nó HTTP, ou uma URL pública.

CAPTURAR: fluxo com nó de esperar texto (recebendo arquivo do WhatsApp) conectado ao document_extractor
- Arraste o nó **Extrator de Documento** para o canvas e conecte ao nó que fornece o arquivo.
- No painel, configure a **Fonte do arquivo**: URL direta, variável com o caminho, ou upload.CAPTURARCAPTURAR: painel do document_extractor com o campo de fonte do arquivo preenchido com uma expressão do fluxo
- Salve. A saída
{{document_extractor.content}}conterá o texto extraído em Markdown, e{{document_extractor.fields}}os campos estruturados detectados.
Campos
| Campo | O que faz |
|---|---|
| Fonte do arquivo | URL ou referência ao arquivo a ser processado |
| Tipo de arquivo | Detecção automática ou especificação manual do formato |
Saídas
| Variável | Conteúdo |
|---|---|
content | Texto completo do documento em Markdown |
fields | Campos estruturados extraídos (título, autor, data, tabelas, etc.) quando disponíveis |
Exemplo
O cliente envia uma foto de um comprovante de pagamento pelo WhatsApp. O fluxo captura o arquivo, passa pelo Extrator de Documento, e o LLM seguinte lê o Markdown gerado para confirmar o valor e a data do pagamento.
CAPTURARCAPTURAR: fluxo completo: nó 'esperar texto' → document_extractor → llm, com painel do llm mostrando a variável <span v-pre>{{document_extractor.content}}</span> no prompt
Dica
Para documentos extensos (PDFs com muitas páginas), combine o Extrator com o nó LLM e peça para o modelo resumir as partes relevantes antes de usar o conteúdo numa mensagem.
Atenção
Arquivos protegidos por senha ou com restrição de cópia podem não ser extraídos corretamente. Oriente os clientes a enviar documentos sem senha quando possível.