← Back to blog
steply / blog · por-que-agente-de-ia-voa-na-demo-e-morre-em-producao.md
$ steply blog open por-que-agente-de-ia-voa-na-demo-e-morre-em-producao
▸ loading article…
✓ ready

Por que seu agente de IA voa na demo e morre em produção: as 5 engrenagens que ninguém mostra

bySteply7 min read

Todo agente de IA voa na demo. A pergunta que importa é se ele aguenta o terceiro mês de produção, com dez mil atendimentos por semana, sete sistemas conectados, e cliente irritado trocando de assunto no meio da conversa. A maioria não aguenta. E a culpa quase nunca é do modelo de IA por trás. É do motor que roda em volta dele.

Esse texto explica, em linguagem de negócio, as cinco engrenagens que decidem se o seu agente vai virar operação de verdade ou vai virar piada interna até o fim do trimestre. Se quem está te vendendo o agente não consegue te responder sobre essas cinco, você está pagando por uma demo bem feita, não por uma operação que aguenta cliente real.

1. O abismo entre demo e produção

Na demo, a conversa tem três mensagens. O cliente pergunta uma coisa simples, o agente responde, todo mundo aplaude. Tudo idealizado, um sistema só, sem trocas de assunto, sem cliente nervoso, sem integração caindo no meio.

Em produção, a conversa tem quarenta mensagens. O cliente começa pedindo segunda via de boleto, no meio reclama de uma cobrança de dois meses atrás, depois quer trocar o plano, depois volta pro boleto. Cinco sistemas precisam ser consultados, dois deles vão lentos hoje, e um vai cair em algum momento. É aqui que o agente quebra. Não porque a IA é burra. Porque o que está em volta dela não foi feito pra aguentar isso.

As cinco engrenagens abaixo são o que separa um do outro. Não é detalhe técnico, é decisão de negócio: se o agente vai escalar ou vai virar problema seu na reunião de diretoria.

2. Como o agente decide o que fazer a cada mensagem que chega

Quando o cliente manda uma mensagem, o agente não simplesmente responde. Ele entra num ciclo invisível: pensa sobre o que foi pedido, decide se precisa consultar algum sistema (CRM, estoque, status do pedido), faz a consulta, recebe a resposta, pensa de novo se já tem o suficiente, decide se precisa de mais uma consulta, e só então fala com o cliente.

Pense num garçom: anota o pedido, vai à cozinha conferir se tem o prato, volta pra perguntar se quer molho à parte, vai no bar pedir a bebida, volta com o cardápio de sobremesa. Só então o cliente recebe a refeição completa. Se o garçom esquecesse de algum passo, o prato chegaria errado ou pela metade.

Por que isso importa pro seu negócio: agente que sai do ciclo cedo demais entrega resposta incompleta ao cliente ("vou verificar e te retorno" virou meme em atendimento de IA ruim). Agente que entra em ciclo sem fim queima dinheiro consultando os mesmos sistemas dez vezes pela mesma resposta. O motor precisa saber a hora certa de parar de pensar e falar com o cliente, e isso é decisão de engenharia, não do modelo.

3. Por que a conversa fica lenta e cara conforme o cliente fala mais

Cada vez que o cliente manda uma nova mensagem, o agente precisa reler tudo que já foi dito na conversa pra responder com contexto. Na mensagem um, ele relê duas linhas. Na mensagem trinta, ele relê duzentas. O custo escala junto, e a latência também. O atendimento que custava dois centavos no começo da conversa pode custar quarenta centavos quando o cliente está na trigésima troca.

É como ter um contador que, toda vez que você liga pra perguntar uma coisa de novembro, abre o arquivo desde janeiro e relê tudo antes de responder. Funciona. Quebra quando você liga toda semana e o ano vai virar.

Operação séria resolve isso de três formas: resumindo a parte velha da conversa em poucas linhas (sem perder o essencial), guardando dados do cliente em memória externa (e não na conversa), e cortando informação que claramente já não importa mais. Quem promete agente "com memória infinita" sem explicar como cobra isso, não vai entregar margem nem velocidade no atendimento. Vai entregar uma conta que cresce todo mês sem você entender por quê.

4. Várias ações ao mesmo tempo, sem se atropelar

Pra responder uma pergunta de "qual o status do meu pedido e quando chega", o agente precisa consultar pelo menos o CRM, o sistema de pedidos e a transportadora. Se ele faz uma de cada vez, leva três segundos. Se faz as três ao mesmo tempo, leva um segundo. A diferença, multiplicada por dez mil conversas, vira gargalo real ou folga real.

O risco: nem toda ação pode rodar em paralelo. Algumas dependem do resultado da outra (não dá pra cancelar um pedido antes de confirmar que ele existe). E duas ações no mesmo registro ao mesmo tempo podem se atropelar, deixando dados inconsistentes (cliente recebe dois e-mails de confirmação porque duas partes do agente acharam que precisavam mandar).

Pense numa cozinha servindo uma mesa com cinco pratos. O chefe prepara tudo em paralelo, sim, mas não pode entregar a sobremesa antes do prato principal, e não pode usar a mesma frigideira pra peixe e doce ao mesmo tempo. Motor bem feito sabe exatamente o que pode rodar junto e o que precisa esperar. Motor mal feito ou faz tudo em fila (lento e caro) ou faz tudo junto (rápido e errado).

5. Quando uma integração externa cai no meio do atendimento

Cem por cento dos sistemas falham em algum momento. O Bling vai cair em algum dia, o gateway de pagamento vai dar timeout, o CRM vai ter manutenção emergencial, a API dos Correios vai responder em quarenta segundos. Não é se, é quando.

Agente mal feito faz uma de três coisas quando isso acontece, todas ruins: trava e não responde nada (cliente fica no vácuo), responde com informação inventada ("seu pedido chega quinta", sem ter consultado nada), ou ignora a falha em silêncio (você só descobre no SAC depois).

Agente que aguenta produção faz três coisas, nessa ordem: detecta que a integração falhou (não confunde resposta vazia com sucesso), tenta de novo com critério (uma, duas vezes, com pequena pausa, sem inundar o sistema que já está com problema), e se persiste, fala com o cliente honestamente: "nosso sistema de estoque está fora do ar agora, te confirmo o prazo em quinze minutos pelo WhatsApp". E o mais importante: registra o erro com contexto suficiente pra ninguém da sua equipe acordar na madrugada caçando o que aconteceu.

6. O agente que você não consegue auditar é uma bomba relógio

Aqui é a parte que ninguém quer ouvir, mas é a mais cara quando se ignora: agente de IA vai errar. Vai sugerir um desconto errado, vai falar com cliente errado, vai prometer prazo impossível, vai aceitar reclamação que não procede. Não existe "agente que nunca erra", existe "agente que erra menos e a gente sabe quando errou".

A pergunta real não é "como evitar que ele erre cem por cento das vezes" (não dá). É: "quando ele errar, eu consigo achar onde foi, em quantos minutos?". Isso depende de o motor registrar, pra cada conversa, tudo que aconteceu: mensagem do cliente, raciocínio do agente, cada consulta feita em cada sistema, cada resposta recebida, quanto tempo cada passo levou, quanto custou cada turno, e qual versão do agente estava no ar naquela hora.

Avião não tem caixa preta porque vai cair. Tem caixa preta porque quando cai, alguém precisa entender por quê em horas, não em semanas. Agente sem esse tipo de histórico auditável é como contratar um vendedor que não anota nenhuma conversa: você só descobre que ele prometeu errado quando o cliente reclama, e não tem como provar nem corrigir.

7. O que perguntar antes de assinar contrato com qualquer agente

Esquece "qual modelo de IA vocês usam". Essa parte é commodity hoje, todo mundo usa parecido. Faça essas cinco perguntas, e veja se a resposta é concreta ou enrolada:

  1. Me mostra uma conversa real de produção com trinta mensagens. Se só tem screenshot de demo curta, é demo curta.
  2. Quanto custou essa conversa do começo ao fim? Se não souber dizer em centavos, não controla custo.
  3. O que acontece quando o cliente troca de assunto no meio? Se responder "a IA entende", está vendendo mágica.
  4. Me mostra um caso real em que uma integração caiu, como vocês trataram. Se nunca aconteceu, é porque nunca rodou de verdade.
  5. Me mostra o painel onde eu vejo o que o agente fez ontem. Se só tem relatório semanal por planilha, não tem como auditar nada.

Se vier resposta concreta nas cinco, talvez aguente produção. Se enrolar em alguma, esquece. Não importa quão bonita seja a interface ou quão fluente seja a demo, em três meses vai dar problema, e você vai estar pagando a conta sem saber por quê.

Por que isso é decisão de negócio, não de TI

Agente de IA não é mágica e não é só "ligar o ChatGPT no WhatsApp". A parte do modelo (ChatGPT, Claude, Gemini) é hoje a parte mais barata e mais resolvida do problema. O que diferencia operação de demo é tudo que vem em volta: como ele decide o que fazer, como ele aguenta conversa longa, como ele consulta vários sistemas sem se atropelar, como ele lida com falha, e como você fiscaliza tudo isso.

Esse "em volta" tem nome técnico chato em inglês, mas a tradução pro seu negócio cabe em uma frase: ele aguenta o terceiro mês, ou não? Se você não consegue ter essa conversa concreta com quem vende o agente, está comprando uma demo cara. Se consegue, e a resposta convence, está contratando operação.