AIF-C01 Domínio: Aplicações de Foundation Models (28% do exame)

Resumo de estudo de aplicações de foundation models para a AIF-C01: prompt engineering, RAG, fine-tuning e SageMaker JumpStart.

Por Leonardo Chiarelli · Atualizado em 21/06/2026 · 1 min de leitura

Domínio Aplicações de Foundation Models (28% do exame)

O domínio Aplicações de Foundation Models é o maior da AIF-C01, com 28% do peso, e trata do núcleo prático da certificação: como usar, adaptar e avaliar modelos de fundação para resolver problemas reais. A prova espera que você saiba escolher entre diferentes estratégias de customização, entender como cada técnica funciona e identificar os serviços AWS corretos para cada caso.

Este domínio tem 4 subtopics: Prompt engineering, RAG e bases de conhecimento, Fine-tuning e avaliação de modelos, e SageMaker JumpStart e customização.

Subtopic 1: Prompt engineering

Prompt engineering é a técnica de construir entradas de texto para guiar o comportamento de um foundation model sem alterar seus pesos. É a forma de customização de menor custo e mais rápida de implementar, e por isso é sempre o primeiro recurso a considerar.

Técnicas que a prova cobra

Zero-shot: enviar o problema direto, sem exemplos. O modelo usa apenas o conhecimento adquirido no pré-treinamento. Funciona bem para tarefas gerais, mas pode ser impreciso em domínios especializados.

Few-shot: incluir de 2 a 5 exemplos de entrada e saída no próprio prompt antes da tarefa real. Ensina o modelo o formato e o nível de detalhe esperado sem nenhum treinamento adicional. É a técnica mais cobrada da AIF-C01 para cenários de customização rápida.

Chain-of-thought (CoT): pedir ao modelo que explique o raciocínio passo a passo antes de dar a resposta final. Melhora muito o resultado em problemas matemáticos, lógicos e de múltiplos passos. É uma técnica de prompt (não um recurso de serviço), aplicável a qualquer foundation model acessado via Amazon Bedrock.

Parâmetros de inferência: a prova também cobra os parâmetros que controlam o comportamento do modelo na geração:

  • Temperature: controla aleatoriedade. Valor baixo (0 a 0,3) gera respostas mais determinísticas e factuais. Valor alto (0,7 a 1,0) gera respostas mais criativas e variadas.
  • Top-P (nucleus sampling): define a massa de probabilidade acumulada considerada na geração. Top-P 0,9 restringe ao conjunto de tokens que somam 90% da probabilidade.
  • Max tokens: limite de tokens na resposta. Afeta custo diretamente.

Serviços AWS envolvidos

O Amazon Bedrock é o serviço central para prompt engineering na AWS. Ele oferece acesso a múltiplos foundation models (Claude da Anthropic, Titan da Amazon, Llama da Meta, entre outros) via API unificada. O Bedrock Playground permite testar prompts interativamente no console sem escrever código.

O Amazon Q é o assistente generativo AWS construído sobre essa base. Prompts são enviados a ele via interface de chat ou API, e o serviço aplica internamente técnicas de engenharia de prompt para adaptar o comportamento ao contexto corporativo.

Pegadinhas comuns

A pegadinha mais comum neste subtopic é confundir prompt engineering com fine-tuning. A prova descreve um cenário onde o orçamento é baixo, não há dados de treinamento disponíveis e a empresa quer resultado rápido. A resposta correta é sempre prompt engineering, não fine-tuning. Fine-tuning exige dados rotulados, tempo de treinamento e custo computacional.

Outra pegadinha: questões que perguntam qual técnica usar quando um modelo produz respostas inconsistentes no formato. A resposta é few-shot (com exemplos de formato no prompt), não ajuste de temperature.

Subtopic 2: RAG e bases de conhecimento

RAG (Retrieval-Augmented Generation) é a arquitetura que combina busca em base de dados externa com geração do modelo. Em vez de depender apenas do conhecimento fixo do pré-treinamento, o modelo recebe trechos relevantes recuperados em tempo real e os usa como contexto adicional.

Como funciona o fluxo RAG

  1. A pergunta do usuário é convertida em um embedding (vetor numérico que representa o significado semântico).
  2. Esse embedding é comparado contra um banco de vetores onde o conteúdo da base de conhecimento já foi indexado.
  3. Os N trechos mais similares são recuperados.
  4. O prompt enviado ao modelo inclui esses trechos mais a pergunta original.
  5. O modelo gera a resposta usando o conteúdo recuperado como contexto.

O RAG resolve dois problemas centrais: alucinação (o modelo inventa fatos) e conhecimento desatualizado (modelos têm data de corte no pré-treinamento).

Serviços AWS envolvidos

Amazon Bedrock Knowledge Bases é o serviço gerenciado da AWS para RAG. Você aponta para uma fonte de dados (S3, Confluence, SharePoint, entre outras), o Bedrock processa os documentos, gera embeddings e armazena em um banco de vetores. Na inferência, o Knowledge Bases gerencia automaticamente a recuperação e a injeção no contexto. É a resposta certa quando a prova pergunta sobre RAG totalmente gerenciado na AWS.

Amazon OpenSearch Serverless com suporte a k-NN é o banco de vetores mais citado na documentação AWS como backend do Bedrock Knowledge Bases. Alternativas suportadas incluem Amazon Aurora com extensão pgvector e Pinecone.

Amazon Titan Embeddings é o modelo de embedding da AWS, usado para converter texto em vetores antes de armazenar na base. A prova pode perguntar qual modelo usar para gerar embeddings no contexto de um pipeline RAG na AWS.

Quando RAG vence fine-tuning

A prova adora questões de trade-off entre RAG e fine-tuning. A regra geral:

  • Use RAG quando o conteúdo muda com frequência, quando você precisa citar a fonte, quando o volume de dados é grande e quando o orçamento é limitado.
  • Use fine-tuning quando o modelo precisa aprender um estilo ou formato específico, quando a tarefa é altamente especializada e quando o conteúdo é estável.

RAG não muda os pesos do modelo, por isso é mais barato e mais rápido de atualizar. Fine-tuning muda os pesos, por isso persiste o aprendizado mas exige re-treinamento para atualizar.

Pegadinhas comuns

A pegadinha clássica do RAG é confundir a etapa de indexação (offline, feita uma vez) com a etapa de recuperação (online, feita a cada consulta). A prova pode perguntar qual etapa é mais custosa em termos de tempo: a indexação, porque processa e vetoriza toda a base de conhecimento.

Outra pegadinha: um cenário onde a empresa tem documentos PDF internos e quer que o chatbot responda com base neles. A resposta é RAG com Bedrock Knowledge Bases, não fine-tuning e não treinamento de modelo do zero.

Subtopic 3: Fine-tuning e avaliação de modelos

Fine-tuning é o processo de continuar o treinamento de um foundation model pré-existente usando um conjunto de dados específico para a tarefa. Os pesos do modelo são ajustados para que ele se especialize no domínio ou formato desejado.

Tipos de fine-tuning que a prova cobra

Fine-tuning supervisionado: você fornece pares de entrada e saída esperada. O modelo aprende a mapear entradas para saídas no formato e estilo que você define. É o tipo mais comum e o que a AIF-C01 trata com mais profundidade.

RLHF (Reinforcement Learning from Human Feedback): usa avaliações humanas para ajustar o modelo. É como os principais modelos de linguagem são alinhados para seguir instruções. A prova não exige implementação, mas pode perguntar qual técnica é usada para alinhar o comportamento de um modelo com preferências humanas.

Instruction tuning: variante de fine-tuning supervisionado onde os exemplos são pares instrução-resposta. Melhora a capacidade do modelo de seguir instruções em linguagem natural.

Dados de treinamento para fine-tuning

A prova cobra o pipeline de dados:

  • Dados precisam estar em formato estruturado (geralmente JSONL com pares prompt-completion).
  • Devem ser armazenados no Amazon S3 antes do fine-tuning.
  • Quanto mais exemplos e mais diversos, melhor o resultado. A AWS recomenda no mínimo algumas centenas de exemplos de qualidade para fine-tuning no Bedrock.

Avaliação de modelos

A avaliação é um subtopic explícito da AIF-C01, e as métricas aparecem tanto para modelos de linguagem quanto para modelos de ML clássico.

Métricas de geração de texto:

  • ROUGE (Recall-Oriented Understudy for Gisting Evaluation): mede sobreposição de n-gramas entre o texto gerado e um texto de referência. Muito usado para avaliação de sumarização.
  • BLEU (Bilingual Evaluation Understudy): mede precisão de n-gramas. Clássico para tradução automática.
  • BERTScore: usa embeddings para calcular similaridade semântica, capturando sinônimos e paráfrases que ROUGE e BLEU ignoram.
  • Perplexidade: mede o quão "surpreso" o modelo fica com um texto. Quanto mais baixa, mais fluente o modelo considera aquele texto.

Avaliação humana: em muitos casos, especialmente para qualidade percebida, a avaliação humana ainda é o padrão-ouro. A prova pode perguntar quando usar avaliação automática versus humana.

Serviços AWS para fine-tuning

Amazon Bedrock suporta fine-tuning de alguns modelos (como Amazon Titan) direto no serviço, com dados no S3. O processo é gerenciado e não exige provisionamento de infraestrutura.

Amazon SageMaker é a plataforma completa para fine-tuning de modelos customizados, incluindo instâncias GPU, jobs de treinamento gerenciados e integração com MLflow para rastreamento de experimentos.

Pegadinhas comuns

A pegadinha mais frequente é usar fine-tuning quando RAG seria suficiente. A prova descreve um cenário com documentos corporativos que mudam mensalmente. Fine-tuning exigiria re-treinar o modelo a cada atualização, o que é caro. RAG, com reindexação da base, é a escolha correta.

Outra pegadinha: confundir temperatura com qualidade do fine-tuning. Temperature é parâmetro de inferência, não de treinamento.

Subtopic 4: SageMaker JumpStart e customização

O Amazon SageMaker JumpStart é o hub de modelos e soluções de ML pré-construídas dentro do SageMaker. Ele oferece modelos de foundation e modelos de ML clássico que podem ser deployados com um clique ou usados como ponto de partida para fine-tuning.

O que o SageMaker JumpStart oferece

Modelos prontos para deploy: você seleciona um modelo (como Llama, Falcon ou modelos da Hugging Face), clica em "Deploy" e o JumpStart provisiona um SageMaker endpoint com o modelo servindo inferência. Não é preciso configurar instância, container ou código de serving.

Fine-tuning com dados próprios: o JumpStart permite fine-tuning de modelos selecionados apontando para dados no S3. O job de treinamento é gerenciado, com instâncias GPU alocadas automaticamente.

Foundation models curados: diferente do Bedrock (que acessa modelos via API de terceiros), o JumpStart faz o deploy do modelo na sua própria conta AWS. Isso significa que os pesos ficam na sua infraestrutura, o que é relevante para requisitos de privacidade e compliance onde os dados não podem sair da conta.

Diferença central: Bedrock vs JumpStart

A AIF-C01 cobra explicitamente essa distinção:

| Aspecto | Amazon Bedrock | SageMaker JumpStart | |---|---|---| | Infraestrutura | Gerenciada pela AWS | Na sua conta AWS | | Acesso ao modelo | Via API (pesos ocultos) | Modelo deployado na sua conta | | Privacidade dos dados | Dados processados pelo provedor | Dados ficam na sua conta | | Customização | Fine-tuning para modelos suportados | Fine-tuning amplo com container próprio | | Caso de uso típico | App generativa rápida, múltiplos modelos | Compliance estrito, controle total |

A questão típica da prova: uma empresa de saúde precisa que os dados dos pacientes não saiam da conta AWS. Qual serviço usar? SageMaker JumpStart (modelo na conta) ou Bedrock com VPC privada e endpoint privado. Bedrock também suporta isolamento de rede via VPC endpoints, então a resposta depende do nível de detalhe do enunciado.

Outros serviços de customização cobrados

Amazon SageMaker Canvas: ferramenta no-code para criar modelos de ML sem programação. Voltado para analistas de negócio, não engenheiros. A prova pode perguntar qual serviço usar quando o usuário não sabe programar e precisa criar um modelo preditivo.

Amazon SageMaker Autopilot: AutoML gerenciado. Você carrega os dados, define o target e o Autopilot treina, avalia e seleciona o melhor modelo automaticamente.

Amazon Bedrock Agents: permite que o modelo execute ações além de gerar texto, chamando APIs externas e executando passos encadeados de forma autônoma. Relevante para casos de uso de automação e workflows de IA.

Pegadinhas comuns

A confusão mais frequente é entre JumpStart e Bedrock. A prova descreve um cenário onde a empresa quer um modelo de linguagem e tem requisito de que "os pesos do modelo fiquem na conta da empresa". A resposta é JumpStart, não Bedrock (no Bedrock, os pesos ficam com o provedor do modelo).

Outra pegadinha: confundir SageMaker JumpStart com SageMaker Studio. O Studio é o IDE integrado do SageMaker; o JumpStart é o hub de modelos dentro do Studio.

O que a prova cobra neste domínio

Com 28% do peso, este domínio tem aproximadamente 14 das 50 questões pontuadas da prova (o exame tem 65 questões no total, das quais 15 não contam para o score). A distribuição típica:

  • Prompt engineering (especialmente few-shot e parâmetros de inferência): 3 a 4 questões
  • RAG e Bedrock Knowledge Bases (incluindo comparação com fine-tuning): 4 a 5 questões
  • Fine-tuning, avaliação e métricas (ROUGE, BLEU, dados de treinamento): 3 a 4 questões
  • JumpStart e diferenciação de serviços: 2 a 3 questões

Os cenários de trade-off (quando usar RAG vs fine-tuning, Bedrock vs JumpStart) são o coração deste domínio. A prova raramente pergunta definições isoladas. Ela descreve uma situação e pede a abordagem mais adequada considerando custo, tempo de implementação, privacidade e frequência de atualização do conteúdo.

Resumo de serviços por caso de uso

| Necessidade | Serviço AWS | |---|---| | Testar prompts sem código | Amazon Bedrock Playground | | RAG gerenciado com documentos S3 | Bedrock Knowledge Bases | | Fine-tuning de modelo na sua conta | SageMaker JumpStart | | Fine-tuning via API sem infraestrutura | Amazon Bedrock (modelos suportados) | | ML no-code para analistas | SageMaker Canvas | | Modelo que executa ações e chama APIs | Bedrock Agents | | Embedding para base vetorial | Amazon Titan Embeddings |

Leia também

Pronto para praticar?

Questões no estilo real da AIF-C01, em PT-BR, cobrindo todos os subtopics deste domínio. Identifique suas fraquezas antes da prova.

Começar simulado AIF-C01

Preparar para a certificação (trial grátis)