Skip to content

Guardrails

Pensa nos guardrails (em português, "grades de proteção") como as regras de conduta que você dá ao seu atendente antes de ele começar a trabalhar. "Não fale sobre preços sem autorização." "Se o cliente pedir desconto acima de 20%, escala para o gerente." "Nunca fale mal de concorrentes."

No Atende Direito, os guardrails são validações automáticas que o Agent aplica em duas etapas: antes de processar a mensagem do cliente (input) e antes de enviar a resposta (output). Se uma regra for violada, o Agent reage conforme você configurou.

CAPTURAR: tela de configuração do Agent na aba 'Guardrails' com os validadores de input e output expandidos

CAPTURAR: tela de configuração do Agent na aba 'Guardrails' com os validadores de input e output expandidos

Validadores de Input (entrada)

Os validadores de input analisam a mensagem do cliente antes de o Agent processá-la.

Exemplos de uso:

  • Bloquear mensagens com linguagem ofensiva
  • Detectar tentativas de manipulação ("ignore suas instruções anteriores...")
  • Filtrar assuntos fora do escopo configurado
CAPTURAR: seção 'Validadores de Input' com exemplos de regras configuradas e seus respectivos comportamentos (bloquear, alertar, substituir)

CAPTURAR: seção 'Validadores de Input' com exemplos de regras configuradas e seus respectivos comportamentos (bloquear, alertar, substituir)

Validadores de Output (saída)

Os validadores de output analisam a resposta gerada pelo Agent antes de enviá-la ao cliente.

Exemplos de uso:

  • Garantir que a resposta não contenha informações confidenciais
  • Verificar se o tom está alinhado com a identidade da empresa
  • Detectar alucinações (quando o modelo inventa informações)

Configuração de violação:

Quando um validador de output detecta uma violação, você define o que acontece:

Ação (on_violation)O que acontece
fallback_messageO Agent descarta a resposta e envia uma mensagem padrão que você definiu
blockA resposta é bloqueada e nenhuma mensagem é enviada
flagA resposta é enviada, mas fica marcada para revisão humana

Mensagem de fallback padrão:

Só um momento que já te respondo 🙂
CAPTURAR: configuração de validador de output com o campo 'Ação em violação' em 'fallback_message' e a mensagem de fallback preenchida

CAPTURAR: configuração de validador de output com o campo 'Ação em violação' em 'fallback_message' e a mensagem de fallback preenchida


Floor de Guardrails — Regras Imutáveis

no_internal_reasoning — Remover raciocínio interno (strip)

O que faz: Remove do output qualquer bloco de raciocínio interno do modelo antes de enviar ao cliente.

Por que existe: Alguns modelos de IA "pensam em voz alta" em blocos de raciocínio (<thinking>, <reasoning>) que não devem ser expostos ao usuário final. Essa regra garante que o cliente só veja a resposta final, limpa.

Comportamento: strip — o bloco é removido silenciosamente. A resposta é enviada sem o raciocínio.


no_subagent_disclosure — Não revelar sub-agents (block)

O que faz: Bloqueia respostas que revelem ao cliente que existem sub-agents ou agentes internos compondo o sistema.

Por que existe: A arquitetura interna do Agent (com múltiplos sub-agents trabalhando juntos) é um detalhe de implementação. Revelá-la ao cliente pode confundir, gerar desconfiança ou criar brechas de segurança.

Comportamento: block — a resposta é bloqueada se tentar revelar sub-agents.


no_capabilities_disclosure — Não revelar capacidades técnicas (block)

O que faz: Bloqueia respostas que descrevam as capacidades técnicas internas do Agent (quais ferramentas usa, como foi configurado, quais modelos rodam por baixo, etc.).

Por que existe: Expor detalhes técnicos internos pode ser usado para manipular o Agent ou extrair informações sensíveis sobre a infraestrutura da plataforma.

Comportamento: block — a resposta é bloqueada se tentar revelar capacidades internas.


Adicionando seus próprios guardrails

Além do floor imutável, você pode adicionar quantas regras quiser para o seu Agent. A plataforma oferece validadores pré-configurados e a opção de criar regras customizadas.

  1. Acesse a aba Guardrails nas configurações do Agent.

  2. Em Validadores de Input ou Validadores de Output, clique em Adicionar regra.

    CAPTURAR: botão 'Adicionar regra' na seção de validadores com o dropdown de tipos de regra aberto

    CAPTURAR: botão 'Adicionar regra' na seção de validadores com o dropdown de tipos de regra aberto

  3. Escolha o tipo de validação, configure o comportamento em caso de violação e defina a mensagem de fallback (se aplicável).

    CAPTURAR: formulário de configuração de uma nova regra de guardrail com os campos tipo, comportamento e fallback preenchidos

    CAPTURAR: formulário de configuração de uma nova regra de guardrail com os campos tipo, comportamento e fallback preenchidos

  4. Salve e teste. Tente enviar uma mensagem que deveria ser bloqueada e verifique se o Agent reage conforme esperado.

    CAPTURARCAPTURAR: painel de teste com uma mensagem que viola uma regra e a resposta de fallback do Agent
Dica

Comece simples. Um guardrail mal configurado pode bloquear respostas legítimas e frustrar os clientes. Teste bastante antes de ativar regras restritivas em produção.