Demo público
Veja se o seu chatbot inventou — em 30 segundos
Cole pergunta, contexto recuperado e resposta gerada. Um juiz LLM treinado em padrões de falha BR (Lei nº fictícia, CNPJ fabricado, INSS/Receita inventados) avalia em PT-BR.
Teste em 30s, sem signup
Cole uma resposta de chatbot e veja se inventou
Pergunta + contexto recuperado + resposta gerada → o juiz LLM em PT-BR detecta hallucination e categoriza (Lei nº inventada, CNPJ fabricado, INSS fictício, etc).
Quer mais? 500 traces grátis na conta
Criar conta grátisPerguntas frequentes
- Como o aferiq detecta hallucination?
- Um juiz LLM em PT-BR compara cada claim da resposta com o contexto recuperado. Categoriza falhas em Lei nº inventada, CNPJ/CPF fabricado, entidades públicas fictícias (Receita, INSS, SUS), prazos errados e geografia BR.
- Quais métricas a demo retorna?
- Faithfulness (resposta fundamentada no contexto?), citation accuracy (citou o documento certo?) e hallucination (taxa de claims inventadas). Cada uma de 0.0 a 1.0 com explicação em PT-BR.
- Os dados do teste ficam armazenados?
- Não. /demo não persiste nada — nem em ClickHouse, nem em Postgres. Apenas o IP é usado pra rate-limit (3 testes/dia). Pra histórico, traces estruturados e dashboard, crie uma conta grátis.
- Posso usar em produção?
- Pra avaliação ad-hoc, sim. Pra produção (instrumentação automática, alertas, datasets, billing BR), use a SDK Python (`pip install aferiq-eval`) ou o n8n node — link na home.
Quer ir além de 3 testes/dia?
Uma conta grátis te dá 500 traces/mês, dashboard com filtros, instrumentação automática (LangChain, LangGraph, OpenAI Assistants) e alertas via Slack/WhatsApp.