Bola de cristal de um testador experiente: teste exploratório com restrição de custo

Bola de cristal de um testador experiente: teste exploratório com restrição de custo

 

 

O mundo do software costumava ser executado no local, e a promessa básica era a seguinte: você compra um computador do tipo caro, “servidor”, e o que quer que você faça nesse sentido desde então custa pouco. Não calculamos a atenção da equipe de eletricidade ou operações nesse servidor, ele estava lá. Os custos estavam essencialmente lá, mas distribuídos e ocultos.

Então temos a nuvem e agora pagamos por uso. Não posso ser a única pessoa que causou custos extras de 2k € no seu primeiro mês no uso da nuvem, sem entender todos os aspectos do pagamento por uso e serviços com preços diferentes, mas uma vez queimados, tenho sido mais cauteloso.

Com esse custo em mente, decidi observar meus pensamentos e ações ao experimentar uma nova ferramenta genai publicada hoje, Hercules, https://github.com/test-zeus-ai/testzeus-hcules.

Carreguei algum dinheiro na minha conta pessoal da API OpenAI. Verifiquei que minhas configurações me levariam a perder o dinheiro que carreguei, mas não mais. Criei a chave da API que eu precisava para administrar Hércules.

Os quatro primeiros testes que explorei me custaram 0,36 €. Dois depois, estou com 1,13 € e bem ciente do custo de exploração. Também observo que a consciência do custo me faz considerar um pouco com mais cuidado o que vou tentar.

Hércules?

A promessa de alto nível de Hércules é fazer transformação agêntica (maneira sofisticada de dizer várias chamadas de LLM dentro de um quadro lógico que poderia ser quase qualquer coisa) de Gherkin para testar os resultados. Então, dado isso:

Bola de cristal de um testador experiente: teste exploratório com restrição de custo

Eu entendo isso:

Nenhum código escrito. Nível irritante de detalhe com inserção, pressionando botões e tudo isso, mas um passe como é deve ser para este caso.

Esse foi o meu teste exploratório nº 2. O primeiro pulou a linha 7, resultando em uma falha porque você precisa pressionar o botão para ver os resultados. Os testes nº 1 e #2 me custaram 0,18 €, e não me assustaram em testes exploratórios com restrição de custos e com conhecimento de custos em que eu estava.

Com o teste nº 3, investi alterando o nível de linguagem do meu arquivo Gherkin. Adicionando o URL aos meus exemplos de portão para o curso de Fundações de Testes Exploratórias, comecei a ver o que aconteceria com três testes em um único arquivo de recurso, onde um teste é dois testes parametrizando, totalizando isso a quatro testes,

Novamente uma corrida verde. Três testes não quatro, mas assistindo a evidências em vídeo da última, ambos os sub -cenários foram incluídos.

Onde o custo de execução do teste nº 2 foi de 0,085, este me custou 0,312. Seja qual for a unidade, porque ela não correspondeu ao que acabei vendo no painel de custos no portal do OpenAI.

Teste #4 Dediquei -me a ver um teste falhar pelos motivos certos. Tirando Análise Prime incorreta e definindo valores esperados para calcular 8 palavras para “ser ou não ser – o dilema de Hamlet”, eu realmente obtive a falha com uma análise de erro inesperada. As palavras nos meus testes e na interface do usuário para os conceitos não correspondem literalmente, e eu as escrevi em uma ordem diferente, e ainda assim a conexão dos conceitos atingiu a marca e comparou as coisas certas.

Os testes #1- #4 me custaram 0,36 € para ser executado.

Para o teste nº 5, eu tinha certeza de que acabaria aumentando o custo. Tirei uma captura de tela do aplicativo e passei a captura de tela para Claude pedindo um arquivo de recurso Gherkin.

Não é muito perfeito cenários. Palavras desencorajadas é um conceito que é completamente mal interpretado, mas que também fala sobre os conceitos da interface do usuário não serem intuitivos. Exemplo para Domínio do E-Prime tenta evitar o verbo ‘ser’, mas acaba tendo um entre os exemplos evitados.

Executando o teste, começo a ver 429 respostas da API – pedindo muito cedo, pelo menos de acordo com as minhas configurações de consciência de custo e, depois de alguns minutos, eu decido não arriscar o custo, pagando 0,50 € por esse experimento falhado. A falha como em não produziu o relatório, mas produziu alguns dos vídeos.

O vídeo me mostrou que não especificando onde o aplicativo que eu quero resultados testados em testes a versão do Eviltester do mesmo. Primeiro atingiu o Google e tudo isso.

Os três primeiros testes resultaram em falha. Will não é, e outras imprecisões nos cenários acabam exigindo um pouco mais de trabalho.

<falha mensagem=Resultado esperado: a ferramenta deve identificar os verbos ‘am’,

‘é’, e ‘será’. Resultado real: a ferramenta identificou os verbos ‘am’, ‘é’,

e ‘ser’./>

O teste final nº 6 foi contra um sistema ao vivo de um par com o qual testei. Testamos a pesquisa, com um teste passageiro, terminando em € 1,13 pelo meu custo fora do bolso para testar uma coisa nova, uma coisa nova,

Esse investimento me paga de volta um “café ou cerveja” na próxima vez que eu encontrar o criador da ferramenta. Ou ao revelar a Pepsi Max como minha bebida de escolha, um pacote de seis. Acabei encontrando um bug na telemetria e o bug acabou sendo corrigido e já corrigido implantado.

Conclusões

Toda vez que se explora sob uma restrição, isso tem um impacto no pensamento e na intenção resultante da ação. A conscientização dos custos me leva a pensar em quais informações estou procurando antes de atingir a ferramenta.

Os custos são um lado da moeda, mas pagamos muito mais por pessoas que descobrem localizadores e cliques para implementar o que é gerado aqui.

Os custos impulsionam a reutilização e desejam compartilhar os cenários para que não precisemos executar novamente o mesmo. Aprender com o que os outros já pagaram é no futuro.

Gerar Gherkin que vale a pena ainda pode ser um esforço humano por enquanto. Solana Token Creator

Replay sem o custo GPT 4 -O seria bom, mas ainda não o encontramos – ainda.

Comments

No comments yet. Why don’t you start the discussion?

Leave a Reply

Your email address will not be published. Required fields are marked *