AIF-C01 Domínio: Fundamentos de IA Generativa (24% do exame)

Resumo de estudo de IA generativa para a AIF-C01: foundation models, LLMs, tokens, embeddings e Amazon Bedrock.

Por Leonardo Chiarelli · Atualizado em 21/06/2026 · 1 min de leitura

O que cobre este domínio

O domínio Fundamentos de IA Generativa representa 24% da AWS AIF-C01, o segundo maior peso do exame. É o domínio mais diferenciador da certificação: separa quem entende IA generativa de verdade de quem apenas ouviu falar. A prova AIF-C01 tem 65 questões, duração de 90 minutos, nota de corte 700 de 1000 e custa USD 100.

O domínio tem três subtopics oficiais:

Foundation models e LLMs (o que são, como funcionam, trade-offs de uso)
Tokens, embeddings e inferência (vocabulário técnico que a prova cobra diretamente)
Amazon Bedrock e Amazon Q (os dois serviços AWS centrais para IA generativa)

Este guia cobre cada um na profundidade que a prova exige.

Foundation models e LLMs

O que é um foundation model

Um foundation model (FM) é um modelo de IA treinado em volumes massivos de dados não rotulados usando aprendizado auto-supervisionado. O resultado é um modelo que aprende representações gerais da linguagem, imagens ou código, podendo ser adaptado para dezenas de tarefas sem retreinamento completo.

A característica central do foundation model é o aprendizado de transferência: o modelo pré-treinado carrega conhecimento que pode ser transferido para tarefas específicas com custo de adaptação muito menor do que treinar do zero.

Um Large Language Model (LLM) é um tipo de foundation model focado em linguagem. Exemplos: Claude (Anthropic), Titan (Amazon), Llama (Meta), Mistral. São treinados para prever o próximo token em sequências de texto e, a partir disso, desenvolvem capacidade de raciocínio, sumarização, tradução, geração de código e resposta a perguntas.

Modos de uso de um foundation model

A prova cobra a diferença entre três abordagens:

Uso via API (inferência direta): você envia um prompt ao modelo e recebe a resposta. É o modo mais simples. Não há ajuste do modelo, não há dados de treinamento novos. Ideal para casos de uso genéricos onde o modelo de base já é suficiente.

Prompt engineering: ainda sem tocar no modelo, você ajusta a forma como o prompt é construído para guiar o output. Técnicas como few-shot (exemplos no prompt), chain-of-thought (pedir raciocínio passo a passo) e role prompting (instruir o modelo a assumir um papel) caem diretamente na prova.

Fine-tuning: você ajusta os pesos do modelo com dados específicos do seu domínio. Mais caro computacionalmente, mas necessário quando o modelo base não alcança a qualidade desejada para o caso de uso. No ecossistema AWS, o fine-tuning de modelos no Bedrock é feito via console ou API, usando dados em S3.

RAG (Retrieval-Augmented Generation): em vez de ajustar o modelo, você complementa o prompt com contexto buscado de uma base de conhecimento externa. O modelo recebe a pergunta mais os trechos relevantes e responde com base neles. Resolve o problema de informação fora do período de treinamento sem precisar de fine-tuning.

Diferenças que a prova cobra

A AIF-C01 gosta de cenários do tipo "a empresa quer X, qual abordagem é mais adequada?". As respostas corretas seguem este padrão:

Precisa de respostas sobre documentos internos recentes: RAG (não fine-tuning, que é caro e não resolve busca dinâmica).
Precisa de tom e vocabulário do domínio (ex.: textos jurídicos, relatórios médicos): fine-tuning.
Quer testar rapidamente sem custo extra: prompt engineering.
Quer expor um modelo a usuários finais via interface gerenciada: Amazon Bedrock (ver abaixo).

Tokens, embeddings e inferência

Tokens

Um token é a unidade mínima de processamento de um LLM. Não é uma palavra completa. Dependendo do tokenizador, uma palavra pode ser um, dois ou mais tokens. Em inglês, a heurística comum é que 1 token equivale a aproximadamente 0,75 palavras. Em português, a relação tende a ser um pouco menos eficiente (mais tokens por palavra) porque os tokenizadores são geralmente treinados com predominância de inglês.

O que a prova cobra sobre tokens:

Janela de contexto (context window): é o número máximo de tokens que o modelo processa em uma única chamada, somando prompt de entrada e saída gerada. Modelos com janela maior conseguem processar documentos mais longos ou históricos de conversa mais extensos.
Custo de inferência: cobrança geralmente por tokens de entrada e tokens de saída. Na AWS, os modelos no Bedrock seguem esse modelo de precificação por chamada.
Truncamento: quando o contexto ultrapassa a janela, parte do conteúdo é descartada. A prova pode perguntar qual é o comportamento esperado quando o contexto excede o limite.

Embeddings

Embeddings são representações numéricas (vetores) de textos, imagens ou outros conteúdos. A propriedade central: textos com significado semelhante produzem vetores com alta similaridade (medida por distância coseno ou produto escalar no espaço vetorial).

Por que isso importa para a prova:

Embeddings são a base do RAG: você converte documentos em vetores, armazena em um banco vetorial, e na consulta compara o vetor da pergunta com os vetores dos documentos para recuperar os mais relevantes.
Na AWS, o modelo Amazon Titan Embeddings (disponível via Bedrock) gera embeddings de texto. O Amazon OpenSearch Service com KNN e o Amazon Aurora pgvector são opções de banco vetorial para armazenar e consultar esses vetores.
A prova pode perguntar sobre a arquitetura de uma solução RAG e cobrar qual componente gera os embeddings versus qual armazena e consulta.

Inferência

Inferência é o processo de usar um modelo já treinado para gerar uma resposta dado um input. Parâmetros de inferência que a AIF-C01 cobra:

Temperature: controla a aleatoriedade do output. Temperature 0 torna o modelo determinístico (sempre escolhe o token mais provável). Temperature alta aumenta a criatividade e variabilidade. Para tarefas factuais (extração de dados, classificação), temperatura baixa. Para geração criativa, temperatura mais alta.
Top-P (nucleus sampling): define o conjunto de tokens candidatos considerando os de maior probabilidade acumulada até o percentil P. Complementa a temperatura no controle do comportamento do modelo.
Max tokens: limite superior de tokens gerados na resposta. Controla custo e tamanho do output.

A prova costuma apresentar um cenário e perguntar qual ajuste de parâmetro resolve o problema. Regra prática: respostas inconsistentes ou muito criativas demais apontam para temperatura alta; respostas cortadas abruptamente apontam para max tokens baixo.

Amazon Bedrock e Amazon Q

Amazon Bedrock

O Amazon Bedrock é o serviço gerenciado da AWS para acesso a foundation models via API, sem necessidade de provisionar ou gerenciar infraestrutura de ML. É o serviço central do domínio e o que mais cai na prova.

Características que a AIF-C01 cobra:

Modelo serverless: você não sobe instâncias, não configura clusters. Faz uma chamada de API, o Bedrock roteia para o modelo selecionado e retorna a resposta. Cobrança por tokens consumidos.

Multi-provedor: o Bedrock oferece modelos de vários provedores dentro de uma única API:

Anthropic: família Claude (Claude Instant, Claude, Claude 3 e variantes Haiku, Sonnet, Opus)
Amazon: Titan Text, Titan Embeddings, Titan Image Generator
Meta: Llama 2 e Llama 3
Mistral AI: Mistral e Mixtral
AI21 Labs: Jurassic
Cohere: Command e Embed
Stability AI: Stable Diffusion (geração de imagem)

Knowledgebases for Amazon Bedrock: funcionalidade nativa de RAG. Você conecta uma fonte de dados (S3, Confluence, SharePoint, Salesforce), o Bedrock indexa automaticamente em um banco vetorial gerenciado (Amazon OpenSearch Serverless ou outros), e você consulta via API de recuperação. A prova cobra a diferença entre implementar RAG manualmente versus usar Knowledgebases.

Agents for Amazon Bedrock: permite criar agentes que planejam e executam tarefas de múltiplos passos, chamando ferramentas externas (APIs, bancos de dados) de forma autônoma. A prova pode perguntar sobre o conceito de agente versus chamada direta ao modelo.

Fine-tuning no Bedrock: você pode ajustar modelos Titan e outros com dados próprios armazenados no S3. O processo cria uma versão customizada do modelo acessível apenas na sua conta.

Guardrails for Amazon Bedrock: filtros de conteúdo configuráveis para bloquear categorias de saída indesejada (violência, ódio, informações de identificação pessoal). A prova coloca Guardrails como a resposta correta para cenários de controle de output em produção.

Segurança: os dados de chamadas ao Bedrock não são usados para treinar os modelos de base. O acesso é controlado por IAM. O tráfego pode ser mantido dentro da rede AWS via VPC endpoints.

Amazon Q

Amazon Q é o assistente de IA generativa da AWS, construído sobre o Bedrock. Tem dois produtos principais que a prova diferencia:

Amazon Q Business: assistente para uso corporativo. Conecta-se a fontes de dados da empresa (SharePoint, S3, bancos de dados, Jira, Confluence) e responde perguntas com base no conteúdo indexado. Controle de acesso respeitando as permissões do usuário que faz a pergunta. É essencialmente um RAG gerenciado para uso empresarial.

Amazon Q Developer: assistente de desenvolvimento de software. Integrado ao IDE (VS Code, JetBrains), ao console AWS e ao CLI. Responde perguntas sobre código, gera e completa código, explica recursos AWS, ajuda a diagnosticar erros em CloudWatch. Inclui a funcionalidade de transformação de código para migração automatizada (ex.: Java 8 para Java 17).

A distinção que a prova cobra: Q Business é para acesso a conhecimento corporativo interno; Q Developer é para produtividade de engenharia de software.

O que a prova cobra e as pegadinhas

Cenários clássicos de questão

Cenário 1: "Uma empresa quer que funcionários façam perguntas sobre documentos internos atualizados semanalmente, sem retreinar o modelo." Resposta: Amazon Q Business (ou Knowledgebases do Bedrock com RAG). Não é fine-tuning, porque os documentos mudam com frequência e fine-tuning é para padrões estáveis de domínio.

Cenário 2: "Uma empresa quer bloquear geração de conteúdo com informações pessoais em respostas do chatbot." Resposta: Guardrails for Amazon Bedrock. Não é prompt engineering, que não garante bloqueio consistente.

Cenário 3: "Uma equipe de dev quer sugestões de código inline no VS Code usando AWS." Resposta: Amazon Q Developer. Não é Bedrock direto, que é API de inferência sem integração nativa com IDE.

Cenário 4: "O modelo retorna respostas diferentes a cada execução do mesmo prompt." Causa provável: temperature alta. Solução: reduzir temperature.

Pegadinhas comuns

Foundation model vs ML model tradicional: a prova pode apresentar alternativas que misturam os dois. Foundation models são pré-treinados em dados massivos e generalistas. Modelos ML tradicionais (XGBoost, regressão logística) são treinados com dados rotulados para uma tarefa específica. A questão vai definir o contexto e esperar que você identifique o tipo certo.

RAG vs fine-tuning: a confusão mais comum. RAG resolve acesso a informação atualizada ou privada sem tocar no modelo. Fine-tuning resolve adaptação de estilo, tom e vocabulário de domínio. Se a questão fala em "dados que mudam" ou "documentos internos", RAG. Se fala em "estilo de escrita da empresa" ou "terminologia técnica específica", fine-tuning.

Amazon Q vs Amazon Bedrock: Bedrock é a API de acesso a foundation models. Q é um produto construído sobre o Bedrock para casos de uso específicos (assistente corporativo e assistente de dev). A prova vai testar se você sabe que Q não é substituto de Bedrock, mas uma camada de produto acima dele.

Janela de contexto vs memória persistente: LLMs não têm memória entre chamadas de API. A janela de contexto é só o que está na chamada atual. Para manter histórico de conversa, você precisa enviar as mensagens anteriores no prompt a cada chamada. A prova pode perguntar por que o modelo "esqueceu" algo dito anteriormente e a resposta é que a chamada não incluiu o histórico.

Como estudar este domínio

A cobertura é conceitual, não técnica de implementação. Você não precisa saber escrever código Python para chamar o Bedrock, mas precisa saber o que cada serviço faz, quando usar RAG versus fine-tuning, e o que os parâmetros de inferência controlam.

Flashcards úteis para fixar:

Foundation model: pré-treinado em dados massivos, adaptável para múltiplas tarefas.
Token: unidade de processamento do LLM; janela de contexto limita o total por chamada.
Embedding: vetor numérico de texto; base do RAG para busca por similaridade.
Temperature 0: output determinístico. Temperature alta: output variado.
Bedrock: API multi-provedor para FMs, sem gerenciar infraestrutura.
Knowledgebases: RAG gerenciado dentro do Bedrock.
Guardrails: filtros de conteúdo configuráveis no Bedrock.
Q Business: assistente corporativo com acesso a dados internos.
Q Developer: assistente de código e produtividade de engenharia.

Pronto para testar o que aprendeu?

Simulado com questões reais do estilo AIF-C01, loop de flashcard nos seus erros e revisão espaçada. 7 dias grátis.

Começar no CertAI

Preparar para a certificação (trial grátis)