Guardrails

Pensa nos guardrails (em português, "grades de proteção") como as regras de conduta que você dá ao seu atendente antes de ele começar a trabalhar. "Não fale sobre preços sem autorização." "Se o cliente pedir desconto acima de 20%, escala para o gerente." "Nunca fale mal de concorrentes."

No Atende Direito, os guardrails são validações automáticas que o Agent aplica em duas etapas: antes de processar a mensagem do cliente (input) e antes de enviar a resposta (output). Se uma regra for violada, o Agent reage conforme você configurou.

CAPTURAR: tela de configuração do Agent na aba 'Guardrails' com os validadores de input e output expandidos

Validadores de Input (entrada)

Os validadores de input analisam a mensagem do cliente antes de o Agent processá-la.

Exemplos de uso:

Bloquear mensagens com linguagem ofensiva
Detectar tentativas de manipulação ("ignore suas instruções anteriores...")
Filtrar assuntos fora do escopo configurado

CAPTURAR: seção 'Validadores de Input' com exemplos de regras configuradas e seus respectivos comportamentos (bloquear, alertar, substituir)

Validadores de Output (saída)

Os validadores de output analisam a resposta gerada pelo Agent antes de enviá-la ao cliente.

Exemplos de uso:

Garantir que a resposta não contenha informações confidenciais
Verificar se o tom está alinhado com a identidade da empresa
Detectar alucinações (quando o modelo inventa informações)

Configuração de violação:

Quando um validador de output detecta uma violação, você define o que acontece:

Ação (`on_violation`)	O que acontece
`fallback_message`	O Agent descarta a resposta e envia uma mensagem padrão que você definiu
`block`	A resposta é bloqueada e nenhuma mensagem é enviada
`flag`	A resposta é enviada, mas fica marcada para revisão humana

Mensagem de fallback padrão:

Só um momento que já te respondo 🙂

CAPTURAR: configuração de validador de output com o campo 'Ação em violação' em 'fallback_message' e a mensagem de fallback preenchida

Floor de Guardrails — Regras Imutáveis

Atenção

As três regras abaixo fazem parte do floor de guardrails — o piso mínimo de segurança da plataforma. Elas não podem ser desativadas ou removidas, independente da configuração do seu Agent. Elas existem para proteger a integridade do sistema e dos usuários.

`no_internal_reasoning` — Remover raciocínio interno (strip)

O que faz: Remove do output qualquer bloco de raciocínio interno do modelo antes de enviar ao cliente.

Por que existe: Alguns modelos de IA "pensam em voz alta" em blocos de raciocínio (<thinking>, <reasoning>) que não devem ser expostos ao usuário final. Essa regra garante que o cliente só veja a resposta final, limpa.

Comportamento: strip — o bloco é removido silenciosamente. A resposta é enviada sem o raciocínio.

`no_subagent_disclosure` — Não revelar sub-agents (block)

O que faz: Bloqueia respostas que revelem ao cliente que existem sub-agents ou agentes internos compondo o sistema.

Por que existe: A arquitetura interna do Agent (com múltiplos sub-agents trabalhando juntos) é um detalhe de implementação. Revelá-la ao cliente pode confundir, gerar desconfiança ou criar brechas de segurança.

Comportamento: block — a resposta é bloqueada se tentar revelar sub-agents.

`no_capabilities_disclosure` — Não revelar capacidades técnicas (block)

O que faz: Bloqueia respostas que descrevam as capacidades técnicas internas do Agent (quais ferramentas usa, como foi configurado, quais modelos rodam por baixo, etc.).

Por que existe: Expor detalhes técnicos internos pode ser usado para manipular o Agent ou extrair informações sensíveis sobre a infraestrutura da plataforma.

Comportamento: block — a resposta é bloqueada se tentar revelar capacidades internas.

Adicionando seus próprios guardrails

Além do floor imutável, você pode adicionar quantas regras quiser para o seu Agent. A plataforma oferece validadores pré-configurados e a opção de criar regras customizadas.

Acesse a aba Guardrails nas configurações do Agent.
Em Validadores de Input ou Validadores de Output, clique em Adicionar regra.
CAPTURAR: botão 'Adicionar regra' na seção de validadores com o dropdown de tipos de regra aberto
Escolha o tipo de validação, configure o comportamento em caso de violação e defina a mensagem de fallback (se aplicável).
CAPTURAR: formulário de configuração de uma nova regra de guardrail com os campos tipo, comportamento e fallback preenchidos
Salve e teste. Tente enviar uma mensagem que deveria ser bloqueada e verifique se o Agent reage conforme esperado.
CAPTURARCAPTURAR: painel de teste com uma mensagem que viola uma regra e a resposta de fallback do Agent

Dica

Comece simples. Um guardrail mal configurado pode bloquear respostas legítimas e frustrar os clientes. Teste bastante antes de ativar regras restritivas em produção.

Guardrails ​

Validadores de Input (entrada) ​

Validadores de Output (saída) ​

Floor de Guardrails — Regras Imutáveis ​

no_internal_reasoning — Remover raciocínio interno (strip) ​

no_subagent_disclosure — Não revelar sub-agents (block) ​

no_capabilities_disclosure — Não revelar capacidades técnicas (block) ​

Adicionando seus próprios guardrails ​