Estimativa de custos para builds com IA por recurso: um método simples

Q: Qual a diferença entre tokens, créditos e etapas de build?

Tokens são pedaços de texto que o modelo lê/escreve (seu prompt, a resposta e qualquer histórico de chat que precise ser relido). Créditos são a unidade de cobrança da sua plataforma (costumam cobrir uso do modelo mais tarefas da plataforma como agentes e edição de arquivos). Etapas de build são mudanças significativas no projeto (adicionar uma tabela, ligar uma tela, criar um endpoint). Um recurso geralmente tem muitas etapas, e cada etapa pode disparar várias chamadas ao modelo.

Q: Quanto buffer devo adicionar e onde colocá-lo?

Adicione duas linhas explícitas: - Buffer de desconhecidos: normalmente 10–20% - Mudanças solicitadas depois: um bucket separado para novas ideias após o recurso ser aceite Manter “mudanças depois” separado evita culpar a estimativa original pelo crescimento normal do escopo.

Q: Como posso dimensionar uma integração sem chutar valores?

Quebre “conectar ao X” em pedaços pequenos e testáveis: - autenticação (API key/OAuth + refresh) - um objeto ponta a ponta no happy path - comportamento de sincronização (webhooks vs agendamento, paginação, limites de taxa) - tratamento de falhas (retries, idempotência, caminho de re-execução) - testes para dados estranhos e timeouts Trave o contrato de dados (campos exatos) antes de gerar código para evitar que o modelo invente tabelas e telas extras.

Q: Qual checklist prático de prompt para manter custos baixos?

Use uma estrutura de prompt enxuta: - objetivo + usuário - telas e ações (comportamentos clicáveis) - tabelas/campos essenciais - 2–4 checks de aceite por recurso - lista explícita do que fica fora do escopo Depois, construa em pedaços pequenos (um endpoint ou uma tela por vez) e re-estime após cada trecho.

Entrar Começar

Estimativa de custos para builds com IA por recurso: um método simples | Koder.ai

Por que os custos de construir com IA parecem imprevisíveis

Construir com ajuda de IA parece barato até que, de repente, não é. Isso acontece porque você não está pagando por um preço fixo do recurso. Você paga por tentativas: mensagens, código gerado, revisões, testes e retrabalho. Quando o plano está vago, o número de tentativas sobe rápido.

A maioria dos picos de custo vem de alguns padrões recorrentes:

O escopo é implícito, não escrito (por exemplo, "adicionar auth" sem papéis, provedores ou fluxo de reset de senha).
Retries se acumulam (um prompt que está quase certo gera 3–10 follow-ups).
Especificações mudam no meio do desenvolvimento (novos campos, novas telas, regras diferentes), então trabalho anterior é substituído.
Requisitos ocultos aparecem tarde (carregamento, validação, edge cases, estados de erro).
"Só mais um ajuste" silenciosamente vira um redesenho em várias telas.

Ao estimar, seja claro sobre o que você está realmente orçando:

Créditos ou unidades de uso que a sua plataforma cobra
Tokens (o tamanho dos prompts e das respostas)
Tempo (seu tempo revisando, testando e corrigindo)

Trate qualquer estimativa como um intervalo, não um único número. Um recurso pode parecer pequeno na UI e grande na lógica, ou o contrário. O melhor caso é um primeiro rascunho forte. O pior caso são várias voltas de correção.

O resto deste guia usa buckets de recursos repetíveis: auth, CRUD, integrações e redesenhos de UI. Se você usa uma plataforma baseada em créditos tipo Koder.ai (koder.ai), vai sentir isso rápido: começar com "construir um dashboard" e depois adicionar papéis, logs de auditoria e um novo layout consome muito mais créditos do que escrever essas restrições desde o início.

Créditos e tokens em termos simples

As pessoas costumam misturar três ideias diferentes: tokens, créditos e etapas de build. Separá-las deixa os custos mais fáceis de prever.

Um token é um pequeno pedaço de texto que o modelo lê ou escreve. Seu prompt usa tokens, a resposta do modelo usa tokens, e um histórico de chat longo usa tokens porque o modelo precisa relê-lo.

Um crédito é a unidade de cobrança da sua plataforma. Em ferramentas como Koder.ai, créditos geralmente cobrem o uso do modelo mais o trabalho da plataforma por trás do chat (por exemplo, agentes executando tarefas, criando arquivos e verificando resultados). Você não precisa dos detalhes internos para orçar, mas precisa reconhecer o que faz o uso crescer.

Uma etapa de build é uma mudança significativa no projeto: "adicionar login por e-mail", "criar a tabela users" ou "ligar esta tela a um endpoint." Um único recurso costuma precisar de muitas etapas, e cada etapa pode disparar múltiplas chamadas ao modelo.

O uso sobe mais rápido quando você tem contexto longo (grandes specs, histórico de chat extenso, muitos arquivos referenciados), muitas iterações, saídas grandes (reescritas completas de arquivos, blocos de código grandes) ou pedidos ambíguos que forçam o modelo a adivinhar.

Pequenas mudanças no prompt podem alterar muito o custo porque mudam quantas tentativas você precisa. "Um sistema de auth completo" convida opções que você não pediu. "Email e senha apenas, sem login social, exatamente duas telas" corta peças móveis.

Uma regra que funciona: menos peças móveis significa menos retries.

Uma forma centrada em recurso para estimar custo

Pare de estimar em "telas" ou "mensagens." Estime em recursos que um usuário nomearia em voz alta. Isso vincula o orçamento a resultados, não a quão falador o build fica.

Para cada recurso, estime três partes:

Build: gerar código e conectá-lo ao app
Test: rodar o fluxo, consertar bugs óbvios, tratar casos-chave
Revise: segunda passada depois de ver funcionando (ajustes de copy, validação, pequenos consertos de UX)

A maioria dos estouros acontece em teste e revisão, não no primeiro rascunho.

Use um intervalo para cada parte: baixo (direto), típico (algum vai-e-volta), alto (surpresas). Se sua plataforma é baseada em créditos, acompanhe em créditos. Se você rastreia tokens diretamente, acompanhe em tokens. O ponto é o mesmo: uma previsão que permanece honesta quando a realidade muda.

Duas linhas ajudam a evitar estouros auto-infligidos:

Buffer de desconhecidos (10–20%) como linha própria. Não esconda dentro dos recursos.
Mudanças solicitadas depois como um bucket separado para ideias novas após um recurso ser aceite ("também adicionar times", "fazer o dashboard parecer X"). Se não separar, você acaba culpando a estimativa original pelo crescimento normal.

Aqui vai um template leve que você pode copiar:

Feature: Password login
- Build:    low 30 | typical 60 | high 120
- Test:     low 15 | typical 30 | high 60
- Revise:   low 10 | typical 20 | high 40
Subtotal (typical): 110

Buffer (15%): 17
Later changes (held): 50

Repita isso para cada recurso (auth, CRUD, uma integração, um refresh de UI). Some usando "typical" para seu plano e "high" como checagem de pior caso.

Estimando recursos comuns: auth e CRUD

Auth e CRUD parecem básicos, mas ficam caros quando o escopo é vago. Trate-os como um menu: cada opção adiciona custo.

Anote o que significa "feito" para controle de acesso. Os maiores direcionadores são o número de métodos de login e o número de caminhos de permissão.

Seja específico sobre:

Métodos de login (email/senha, magic link, Google, Apple, SSO)
Papéis e permissões (admin/editor/viewer, e o que cada papel pode fazer)
Regras de senha (tamanho, complexidade, bloqueios, fluxo de reset)
Regras de sessão (expiração, logout, lembrar-me)
Ciclo de vida da conta (convites, desativar/excluir, verificação por e-mail)

Se você só disser "adicionar auth", receberá uma solução genérica e depois pagará para corrigir edge cases. Decidir a forma desde o início é mais barato.

CRUD: conte telas e regras, não só tabelas

O custo de CRUD é dirigido por quantas entidades você tem e quanto comportamento cada uma precisa. Um modelo prático: cada entidade costuma implicar 3–6 telas (lista, detalhe, criar, editar, às vezes admin ou views de auditoria), mais trabalho de API e validação.

Ao definir CRUD, nomeie as entidades e inclua campos, tipos e regras de validação (required, unique, ranges). Depois defina comportamento de lista: filtros, ordenação, paginação e busca. "Busca" pode ser um simples filtro contains ou algo bem mais pesado.

Decida também se telas admin diferem das telas do usuário. Layouts separados, campos extras e ações em massa podem dobrar o trabalho.

Edge cases que aumentam custo rapidamente incluem permissões por linha, logs de auditoria, importação/exportação CSV, soft delete e workflows de aprovação. Tudo isso é viável, mas o orçamento permanece previsível quando você escolhe explicitamente o que quer antes de gerar o recurso.

Estimando integrações sem chutar

Entregue CRUDs previsíveis

Defina campos, validações e regras de listagem para que tabelas e telas caibam no seu orçamento.

Construir CRUD

Integrações parecem caras porque escondem trabalho. A correção é quebrá-las em pedaços pequenos e testáveis em vez de "conectar ao X." Isso torna a estimativa mais previsível e traz prompts mais limpos.

Um escopo sólido de integração geralmente inclui:

Conectar e autenticar (API keys ou OAuth, refresh de token)
Um objeto ponta a ponta (uma request happy-path)
Comportamento de sync (webhooks ou agendamento, paginação, limites de taxa)
Tratamento de falhas (retries, idempotência, caminho de re-execução)
Testes e edge cases (dados ruins, permissões ausentes, timeouts)

Antes de promptar, trave o contrato de dados. Liste os objetos e campos exatos que precisa. "Sincronizar customers" é vago. "Sync Customer{id, email, status} e Order{id, total, updated_at}" evita que o modelo invente tabelas, telas e endpoints extras.

Depois, decida direção e frequência. Um sync unidirecional (apenas import) é bem mais barato que bidirecional porque o bidirecional precisa de regras de conflito e mais testes. Se precisar bidirecional, escolha a regra vencedora desde o início (fonte da verdade, last-write-wins ou revisão manual).

Planeje a falha como garantida. Decida o que acontece quando a API cai. Um registro de log + alerta e um botão "re-executar sync" manual muitas vezes é suficiente. Manter mínimo evita pagar por um sistema ops completo que você não pediu.

Por fim, adicione buffer para esquisitices de terceiros e testes. Mesmo APIs "simples" trazem paginação, enums estranhos, docs inconsistentes e limites de taxa. Orçar 20–40% extra para testes e correções de integração é realista.

Estimando redesenhos e mudanças de UI

O trabalho de UI é onde os orçamentos vazam silenciosamente. "Redesign" pode significar trocar cores ou reconstruir todo o fluxo, então diga o que muda: layout, componentes, copy ou passos do usuário.

Separe mudanças apenas visuais de mudanças que afetam comportamento. Visual-only altera estilos, espaçamento e estrutura de componentes. Assim que você muda o que um botão faz, como a validação funciona ou como os dados carregam, é trabalho de recurso.

Faça o escopo como uma lista de páginas

Evite "redesenhar o app todo." Liste as telas e estados exatos. Se não consegue listar as páginas, não consegue estimar.

Mantenha o escopo curto e concreto:

Páginas incluídas (por exemplo: Login, Dashboard, Settings)
Estados incluídos (vazio, carregando, erro, sucesso)
O que muda (layout, componentes, copy, fluxo)
Estilo de referência (algumas notas: cores, tipografia, espaçamento)
Passes permitidos (por exemplo: 1 build + 1 polimento)

Esse tipo de prompt impede o modelo de chutar design por toda a base de código, que é o que gera ida-e-volta.

Não pule as passagens de QA

Mudanças de UI geralmente precisam de pelo menos duas checagens: desktop e mobile. Adicione uma verificação básica de acessibilidade (contraste, estados de foco, navegação por teclado), mesmo sem uma auditoria completa.

Um método prático de estimativa é:

(número de páginas) x (profundidade da mudança) x (número de passes)

Exemplo: 3 páginas x profundidade média (novo layout + ajustes de componentes) x 2 passes (build + polimento) é um bloco previsível de créditos. Se também mudar o fluxo de onboarding, trate como linha separada.

Passo a passo: construir um escopo orçado em prompts

A maneira mais barata de controlar créditos é saber o que você quer antes de pedir ao modelo para construir. Retrabalho é onde os custos saltam.

Comece com um parágrafo que diz o usuário e o objetivo. Por exemplo: "Uma recepcionista de uma pequena clínica faz login, adiciona pacientes, agenda consultas e vê a lista do dia." Isso estabelece limites e desencoraja o modelo de inventar papéis, telas ou fluxos extras.

Depois descreva o produto como telas e ações, não módulos vagos. Em vez de "módulo de consultas", escreva "Tela Calendário: criar, reagendar, cancelar, buscar." Torna o trabalho contável.

Inclua apenas os dados essenciais. Você não precisa de todos os campos ainda, apenas o que torna o recurso real. Um prompt forte geralmente contém:

Usuários e papéis (quem faz o quê)
Telas com ações (o que o usuário clica)
Tabelas principais e campos chave (o que precisa ser armazenado)
Checks de aceite (como saber que funciona)
Fora do escopo (o que não deve ser construído)

Checks de aceite evitam pagar duas vezes. Para cada recurso, escreva 2–4 checks como "Usuário pode resetar senha via e-mail" ou "Criar consulta previne double booking." Se você usa Koder.ai, esses checks também se encaixam naturalmente no modo de Planejamento antes de gerar código.

Seja explícito sobre itens fora do escopo: "sem dashboard admin", "sem pagamentos", "sem multi-idioma", "sem sincronização com calendário externo." Isso evita trabalho “bonitinho” surpresa.

Construa em pedaços pequenos e re-estime após cada pedaço. Um ritmo simples: gerar uma tela ou endpoint, rodar, consertar problemas, então seguir. Se um pedaço custa mais que o esperado, corte escopo ou reduza o próximo antes de se desviar.

Como manter prompts mais baratos sem perder qualidade

Escopo de auth antes de construir

Especifique métodos de login, papéis e fluxo de recuperação desde o início para evitar retrabalho caro.

Construir Auth

A maioria dos picos de custo vem de fazer demais numa única mensagem. Trate o modelo como um colega: apresente-o em passos pequenos e claros.

Comece com um plano, não com código. Peça um plano curto com suposições e perguntas em aberto, confirme-o e então solicite o primeiro passo de implementação pequeno. Quando você combina planejamento, construção, testes, copy e styling num só prompt, convida saídas longas e mais erros.

Mantenha o contexto enxuto. Inclua apenas telas, componentes ou notas de API que importem para a mudança. Se estiver usando Koder.ai, selecione os arquivos específicos envolvidos e refira-se a eles pelo nome. Arquivos extras aumentam tokens e puxam edições para áreas não relacionadas.

Peça diffs pequenos. Um prompt deve mudar uma coisa quando possível: um único endpoint, um formulário, um estado de erro, uma tela. Mudanças pequenas são mais fáceis de revisar e, se algo der errado, você não paga para refazer partes não relacionadas.

Um conjunto simples de regras de trabalho:

Peça: plano primeiro, depois um passo de implementação, depois um checklist curto de revisão
Forneça: contexto mínimo (comportamento atual, comportamento desejado, restrições)
Limite: número fixo de rodadas de revisão (por exemplo, duas)
Exija: um resumo breve do que mudou para que surpresas fiquem óbvias
Registre: o que causou retrabalho e atualize seu template de prompt

Pare loops cedo. Se a segunda tentativa ainda estiver errada, mude o input, não só a redação. Adicione o detalhe que falta, remova requisitos conflitantes ou mostre o caso exato que falha. Repetir "tente de novo" muitas vezes queima tokens sem aproximar-se do objetivo.

Exemplo: você quer "login + esqueci a senha" e um layout melhor. Faça em três prompts: (1) esboçar fluxos e telas necessárias, (2) implementar só o fluxo de auth, (3) ajustar espaçamento e cores da UI. Cada passo fica revisável e barato.

Erros comuns que estouram o orçamento

A maioria dos estouros não vem de grandes features. Vem de lacunas pequenas de escopo que multiplicam em rodadas extras de prompt, mais código gerado e mais consertos.

Cinco "mata-orçamentos" (e o que fazer em vez disso)

Construir antes de concordar com o "pronto"

Se você gerar código sem checks de aceite, vai pagar por reescritas. Escreva 3–5 checks primeiro: o que um usuário pode fazer, quais erros aparecem, quais dados devem ser armazenados.

Usar palavras vagas

"Moderno", "bonito" e "melhorar" convidam ida-e-volta. Troque por específicos como "layout duas colunas no desktop, coluna única no mobile" ou "cor do botão primário #1F6FEB."

Juntar múltiplos recursos num prompt só

"Adicionar auth, adicionar cobrança, adicionar dashboard admin" torna difícil rastrear mudanças e estimar retrabalhos. Faça um recurso por vez e peça um resumo curto dos arquivos tocados.

Mudar o modelo de dados tarde

Renomear tabelas, trocar relacionamentos ou mudar IDs no meio força edição em UI, API e migrations. Trave entidades principais cedo, mesmo que alguns campos fiquem para "futuro."

Pular testes até o fim

Bugs viram loops de regenerar-corrigir-regenerar. Peça um pequeno conjunto de testes por recurso, não um grande passe de testes no fim.

Um exemplo concreto: você pede a Koder.ai para "melhorar o CRM" e ele muda layouts, renomeia campos e ajusta endpoints num só passo. Depois a integração quebra e você gasta créditos só para encontrar o que mudou. Se em vez disso você disser "mantenha o modelo de dados inalterado, só atualize a página de listagem, não toque nas rotas de API, e passe nestes 4 checks", você limita churn e mantém os custos estáveis.

Checklist rápido de custos antes de começar

Corte retrabalho em prompts

Mantenha o contexto enxuto e peça diffs pequenos para reduzir retrabalhos e créditos gastos.

Iniciar Conversa

Trate o orçamento como planejar um pequeno projeto, não um prompt mágico único. Um check de 2 minutos pega a maioria dos problemas de overspend cedo.

Passe por estes itens e corrija qualquer "não" antes de gerar mais código:

Você tem uma lista de recursos com bordas duras: o que faz, o que não faz, onde começa e termina.
Você tem um intervalo por recurso (baixo, típico, alto) e escolheu um número para a primeira build.
Seu prompt inclui checks de aceite e linhas explícitas de fora do escopo.
Você constrói em pedaços pequenos e revisa depois de cada um: verifica comportamento, lê mudanças e decide se o próximo pedaço vale a pena.
Reservou orçamento para as partes que quase sempre crescem: integrações e revisões de UI.

Se você usa Koder.ai, trate cada pedaço como um ponto de snapshot: gere uma parte, teste, e só então continue. Snapshots e rollback são mais valiosos antes de mudanças arriscadas (edições no modelo de dados, refactors amplos de UI ou reescritas de integração).

Um exemplo simples: em vez de promptar "Construir gerenciamento de usuários", faça "Login por email apenas, reset de senha incluído, sem login social, admin pode desativar usuários, deve haver testes para login e reset." Checks claros reduzem retrabalhos, e retrabalhos são onde tokens e créditos desaparecem.

Exemplo: estimando um app pequeno a partir de uma lista de recursos

Aqui vai um pequeno exemplo realista que você pode copiar. O app é uma ferramenta interna: login, dois módulos simples e uma integração.

Assuma que um "ciclo de build" é: plano curto, gerar/atualizar código, revisão rápida e correção. Seus créditos rastreiam principalmente quantos ciclos você roda e quão grande cada ciclo é.

Lista de recursos para a ferramenta interna:

Feature	O que inclui	Low	Typical	High
Login + papéis	Sign in, sign out, dois papéis (Admin, User), páginas protegidas	1 ciclo	2 ciclos	4 ciclos
CRUD módulo 1	"Employees" lista, criar/editar, validação básica, busca	2 ciclos	3 ciclos	6 ciclos
CRUD módulo 2	"Assets" lista, criar/editar, atribuir a employee, campos de auditoria	2 ciclos	4 ciclos	7 ciclos
Uma integração	Enviar um evento a um serviço externo quando um asset é atribuído	1 ciclo	2 ciclos	5 ciclos

Uma sequência de prompts que mantém checkpoints:

Planejamento: confirme campos, telas e regras para cada recurso, mais o que fica fora do escopo.
Construa o módulo 1 só: gere Employees ponta a ponta, então pare.
Revisão: teste o fluxo, corrija bugs e trave campos antes de seguir.
Repita para módulo 2.
Adicione a integração por último, depois que os fluxos centrais estiverem estáveis.

Os custos sobem quando você muda decisões depois que o código existe. Gatilhos comuns: mudanças de papéis (novos papéis ou caminhos de permissão), campos tardios (especialmente os que tocam múltiplos módulos e a integração), erros de integração (falha de auth, payloads incompatíveis) e redesign de UI depois que os formulários já existem.

Próximos passos: planeje feature a feature, construa em ciclos e reverifique créditos após cada ciclo. Use snapshots antes de mudanças arriscadas para poder reverter rápido e manter o projeto dentro da sua faixa típica.

Perguntas frequentes

Por que os custos de construir com IA parecem imprevisíveis mesmo para recursos simples?

Orce como um intervalo porque você está pagando por tentativas, não por um preço fixo do recurso. Os custos aumentam com:

escopo ambíguo (mais idas e vindas)
contexto longo (histórico de chat + muitos arquivos)
saídas grandes (reescritas de arquivos inteiros)
testes e revisões depois do primeiro rascunho

Uma mudança “pequena” na UI pode ficar cara se alterar lógica, dados ou fluxos.

Qual a diferença entre tokens, créditos e etapas de build?

Tokens são pedaços de texto que o modelo lê/escreve (seu prompt, a resposta e qualquer histórico de chat que precise ser relido).

Créditos são a unidade de cobrança da sua plataforma (costumam cobrir uso do modelo mais tarefas da plataforma como agentes e edição de arquivos).

Etapas de build são mudanças significativas no projeto (adicionar uma tabela, ligar uma tela, criar um endpoint). Um recurso geralmente tem muitas etapas, e cada etapa pode disparar várias chamadas ao modelo.

Como estimar custos por recurso em vez de por número de prompts?

Estimule por recursos que um usuário nomearia ("login por senha", "lista de funcionários", "atribuir ativo") em vez de “telas” ou “mensagens”. Para cada recurso, separe três partes:

Build: gerar e conectar o código
Test: rodar o fluxo e corrigir bugs/edge cases óbvios
Revise: polir depois de ver funcionando

Atribua faixas baixo/typical/alto e some. Use "typical" para o plano normal e "high" como verificação de pior caso.

Quanto buffer devo adicionar e onde colocá-lo?

Adicione duas linhas explícitas:

Buffer de desconhecidos: normalmente 10–20%
Mudanças solicitadas depois: um bucket separado para novas ideias após o recurso ser aceite

Manter “mudanças depois” separado evita culpar a estimativa original pelo crescimento normal do escopo.

Quais detalhes preciso definir para auth para evitar retrabalho?

Descreva o que significa “pronto” para auth. Os maiores motores de custo são:

número de métodos de login (email/senha vs magic link vs SSO)
número de papéis/caminhos de permissão
ciclo de vida da conta (convites, desativar/excluir, verificação)
regras de sessão (expiração, logout)
reset de senha e regras de bloqueio

Padrão: um método (email/senha) e 1–2 papéis para custo previsível.

O que torna recursos CRUD mais caros do que parecem?

O custo de CRUD acompanha comportamento, não só tabelas. Para cada entidade, defina:

telas necessárias (lista/detalhe/criar/editar + views admin/auditoria se houver)
campos, tipos e regras de validação
comportamento da lista (filtros, ordenação, paginação, busca)
regras de permissão (quem vê/edita quais linhas)

Importações CSV, logs de auditoria, aprovações e permissões por linha devem ser orçadas como linhas separadas.

Como posso dimensionar uma integração sem chutar valores?

Quebre “conectar ao X” em pedaços pequenos e testáveis:

autenticação (API key/OAuth + refresh)
um objeto ponta a ponta no happy path
comportamento de sincronização (webhooks vs agendamento, paginação, limites de taxa)
tratamento de falhas (retries, idempotência, caminho de re-execução)
testes para dados estranhos e timeouts

Trave o contrato de dados (campos exatos) antes de gerar código para evitar que o modelo invente tabelas e telas extras.

Como estimar redesigns e mudanças de UI sem vazar o orçamento?

Modele o escopo de UI como uma lista de páginas com estados:

páginas incluídas
estados (loading/empty/error/success)
o que muda (apenas visual vs mudanças de comportamento)
número de passes (ex.: 1 build + 1 polimento)

Se o redesign altera validação, carregamento de dados ou passos do usuário, trate como trabalho de recurso, não “só UI”.

Qual checklist prático de prompt para manter custos baixos?

Use uma estrutura de prompt enxuta:

objetivo + usuário
telas e ações (comportamentos clicáveis)
tabelas/campos essenciais
2–4 checks de aceite por recurso
lista explícita do que fica fora do escopo

Depois, construa em pedaços pequenos (um endpoint ou uma tela por vez) e re-estime após cada trecho.

O que devo fazer quando ficar preso em um loop de regenerar-corrigir-regenrar?

Pare após duas tentativas falhadas e mude o input, não só as palavras. Correções típicas:

adicionar restrições faltantes (papéis, campos exatos, telas)
remover requisitos conflitantes
fornecer o caso que falhou (o que fez, o que ocorreu, o que deveria ocorrer)
pedir um diff pequeno (mudar uma coisa só)

Peça um resumo breve dos arquivos alterados ao final de cada passo para detectar churn indesejado cedo.