Skip to content

Extrator de Documento · document_extractor

Para que serve

Pensa numa assistente que recebe um contrato em PDF, lê tudo, e te entrega um resumo com as informações principais. O Extrator de Documento faz isso: recebe um arquivo (PDF, Word, planilha, apresentação ou imagem), lê o conteúdo e devolve tudo como texto estruturado — pronto para passar para uma IA analisar, ou para usar em mensagens e integrações.

Quando usar
  • Processar contratos ou documentos enviados pelo cliente via WhatsApp
  • Extrair informações de boletos, notas fiscais ou comprovantes em imagem
  • Ler o conteúdo de uma planilha recebida e tomar decisões com base nos dados
  • Preparar o conteúdo de um documento para análise por um nó LLM
  • Indexar documentos enviados pelos usuários para a base de conhecimento

Formatos suportados

TipoExtensões
Documentos de textoPDF, DOCX
ApresentaçõesPPTX
PlanilhasXLSX
ImagensPNG, JPG, JPEG, WEBP, GIF, BMP

A saída é sempre em Markdown, mantendo a estrutura do documento original (títulos, listas, tabelas, parágrafos).


Passo a passo
  1. Certifique-se de que o arquivo já está disponível no fluxo — via upload do cliente, resultado de um nó HTTP, ou uma URL pública.
    CAPTURAR: fluxo com nó de esperar texto (recebendo arquivo do WhatsApp) conectado ao document_extractor

    CAPTURAR: fluxo com nó de esperar texto (recebendo arquivo do WhatsApp) conectado ao document_extractor

  2. Arraste o nó **Extrator de Documento** para o canvas e conecte ao nó que fornece o arquivo.
  3. No painel, configure a **Fonte do arquivo**: URL direta, variável com o caminho, ou upload.
    CAPTURARCAPTURAR: painel do document_extractor com o campo de fonte do arquivo preenchido com uma expressão do fluxo
  4. Salve. A saída {{document_extractor.content}} conterá o texto extraído em Markdown, e {{document_extractor.fields}} os campos estruturados detectados.

Campos
CampoO que faz
Fonte do arquivoURL ou referência ao arquivo a ser processado
Tipo de arquivoDetecção automática ou especificação manual do formato

Saídas

VariávelConteúdo
contentTexto completo do documento em Markdown
fieldsCampos estruturados extraídos (título, autor, data, tabelas, etc.) quando disponíveis

Exemplo

O cliente envia uma foto de um comprovante de pagamento pelo WhatsApp. O fluxo captura o arquivo, passa pelo Extrator de Documento, e o LLM seguinte lê o Markdown gerado para confirmar o valor e a data do pagamento.

CAPTURARCAPTURAR: fluxo completo: nó 'esperar texto' → document_extractor → llm, com painel do llm mostrando a variável <span v-pre>{{document_extractor.content}}</span> no prompt
Dica

Para documentos extensos (PDFs com muitas páginas), combine o Extrator com o nó LLM e peça para o modelo resumir as partes relevantes antes de usar o conteúdo numa mensagem.