Demo público

Veja se o seu chatbot inventou — em 30 segundos

Cole pergunta, contexto recuperado e resposta gerada. Um juiz LLM treinado em padrões de falha BR (Lei nº fictícia, CNPJ fabricado, INSS/Receita inventados) avalia em PT-BR.

Teste em 30s, sem signup

Cole uma resposta de chatbot e veja se inventou

Pergunta + contexto recuperado + resposta gerada → o juiz LLM em PT-BR detecta hallucination e categoriza (Lei nº inventada, CNPJ fabricado, INSS fictício, etc).

3 testes/IP/dia · sem cadastro

Quer mais? 500 traces grátis na conta

Criar conta grátis

Perguntas frequentes

Como o aferiq detecta hallucination?
Um juiz LLM em PT-BR compara cada claim da resposta com o contexto recuperado. Categoriza falhas em Lei nº inventada, CNPJ/CPF fabricado, entidades públicas fictícias (Receita, INSS, SUS), prazos errados e geografia BR.
Quais métricas a demo retorna?
Faithfulness (resposta fundamentada no contexto?), citation accuracy (citou o documento certo?) e hallucination (taxa de claims inventadas). Cada uma de 0.0 a 1.0 com explicação em PT-BR.
Os dados do teste ficam armazenados?
Não. /demo não persiste nada — nem em ClickHouse, nem em Postgres. Apenas o IP é usado pra rate-limit (3 testes/dia). Pra histórico, traces estruturados e dashboard, crie uma conta grátis.
Posso usar em produção?
Pra avaliação ad-hoc, sim. Pra produção (instrumentação automática, alertas, datasets, billing BR), use a SDK Python (`pip install aferiq-eval`) ou o n8n node — link na home.

Quer ir além de 3 testes/dia?

Uma conta grátis te dá 500 traces/mês, dashboard com filtros, instrumentação automática (LangChain, LangGraph, OpenAI Assistants) e alertas via Slack/WhatsApp.