Apostilas em PDF – Mineração de Dados: Transformando Dados em Decisão

Baixe o material de estudo



baixar curso online

A tecnologia da informação tem um papel cada vez mais central na gestão pública. Entre os temas que têm ganhado destaque nas provas de concursos da área de TI está a Mineração de Dados, uma poderosa técnica usada para transformar grandes volumes de dados brutos em informações relevantes para a tomada de decisão. Se você pensa que isso é coisa só de empresa privada ou filme futurista, segura aí que eu vou te mostrar como isso cai em prova — e, claro, como entender de vez o que isso significa!

O que é Mineração de Dados, afinal?

Mineração de Dados, ou Data Mining, é o processo de examinar grandes conjuntos de dados em busca de padrões ocultos, correlações e tendências. Esses padrões ajudam analistas, gestores e algoritmos a tomar decisões melhores com base em dados concretos. Imagine ser capaz de prever o aumento de fraudes com base em movimentações incomuns ou identificar onde será necessário mais policiamento com base em estatísticas anteriores. É disso que estamos falando!

Em concursos públicos, especialmente para cargos como Analista de TI ou Cientista de Dados, entender a lógica e a aplicação da mineração de dados é essencial. Além disso, essa área está cada vez mais presente em governos inteligentes, que usam dados para melhorar serviços públicos, combater desperdícios e aumentar a transparência.

Onde a Mineração de Dados é aplicada no setor público?

Ela está presente em vários setores, como:

  • Saúde pública: detecção de surtos com base em dados de atendimentos.
  • Segurança: identificação de áreas de risco com base em estatísticas de crimes.
  • Educação: análise de desempenho estudantil para orientar políticas educacionais.
  • Controle de gastos: auditoria inteligente para encontrar inconsistências e fraudes.

Diferença entre Mineração de Dados e Análise de Dados

Padawan, muita gente confunde esses dois termos. Enquanto a análise de dados geralmente trabalha com dados já estruturados e respostas bem definidas (“Quantos boletins foram emitidos em 2023?”), a mineração de dados busca padrões que ainda não foram descobertos (“Existe alguma relação entre o aumento de licenças médicas e mudanças de chefia?”).

Técnicas de Mineração de Dados

Agora sim, vamos ao que interessa de verdade: as técnicas usadas na mineração de dados. Cada uma tem seu propósito e aplicação ideal, dependendo do tipo de dado e da pergunta que se deseja responder. Vamos conhecer as principais:

Classificação (Classification)

Essa técnica consiste em atribuir categorias aos dados com base em exemplos anteriores. É muito usada para prever resultados binários ou categóricos, como “Aprovado ou Reprovado”, “Fraude ou Não Fraude”, “Risco Alto, Médio ou Baixo”. Funciona com base em aprendizado supervisionado, ou seja, os algoritmos são treinados com dados previamente rotulados.

Exemplo de uso: prever se um cidadão irá quitar um imposto com base no seu histórico de pagamentos.

Agrupamento (Clustering)

Diferente da classificação, o agrupamento é uma técnica de aprendizado não supervisionado, usada para descobrir padrões em dados sem rótulos definidos. Ele segmenta os dados em grupos (ou clusters) que compartilham características similares.

Exemplo de uso: identificar perfis de usuários de um serviço público com base em comportamento de acesso, idade, localização e tempo de atendimento.

Regras de Associação (Association Rules)

Essa técnica busca descobrir relações entre variáveis em grandes bases de dados. É muito conhecida no comércio (tipo “quem compra pão também compra leite”), mas pode ser aplicada em diversos contextos, inclusive governamentais.

Exemplo de uso: detectar que cidadãos que solicitam auxílio transporte também costumam solicitar isenção de taxas, ajudando a antecipar demandas.

Detecção de Anomalias (Anomaly Detection)

Também chamada de “detecção de outliers”, essa técnica identifica comportamentos fora do padrão. É essencial para áreas de auditoria, segurança da informação e controle de fraudes.

Exemplo de uso: localizar transações suspeitas no uso de cartão corporativo em horários não usuais ou valores fora do comum.

Regressão

Aqui o objetivo é prever valores numéricos contínuos com base em variáveis independentes. Pode ser usada para estimar custos, demandas ou evolução de indicadores ao longo do tempo.

Exemplo de uso: prever o número de atendimentos mensais em um hospital com base em dados históricos.

Redução de Dimensionalidade

Quando temos muitos atributos nos dados, algumas técnicas ajudam a reduzir a complexidade sem perder a essência da informação. Isso melhora o desempenho dos algoritmos e facilita a visualização dos resultados.

Exemplo de uso: otimizar o banco de dados de uma secretaria pública para acelerar o tempo de resposta em consultas.

Mineração de Dados x Big Data

Muita gente confunde os dois. A diferença é que o Big Data trata da infraestrutura para armazenar e processar volumes massivos de dados, enquanto a mineração de dados trata da extração de conhecimento desses dados. Ou seja, Big Data é o “onde e como” os dados são tratados; mineração de dados é o “por quê e para quê”.

Mineração de Dados e Inteligência Artificial

A mineração de dados é uma base sólida para a Inteligência Artificial. Os padrões descobertos alimentam algoritmos de aprendizado de máquina, que por sua vez refinam modelos preditivos. Cada vez mais, essas tecnologias se combinam para criar sistemas automatizados de decisão, como chatbots, sistemas antifraude e políticas públicas inteligentes.

A importância da qualidade dos dados

Não adianta ter um modelo poderoso se os dados estão sujos ou incompletos. Dados duplicados, inconsistentes ou ausentes podem levar a decisões erradas. Por isso, o pré-processamento é uma etapa essencial na mineração de dados.

Desafios da Mineração de Dados

Apesar das vantagens, existem desafios consideráveis:

  • Privacidade dos dados: o uso inadequado pode ferir normas legais e éticas.
  • Complexidade dos modelos: nem sempre é fácil interpretar os resultados.
  • Custo computacional: grandes volumes de dados exigem estrutura robusta.
  • Dependência de dados de qualidade: como já dissemos, dados ruins geram decisões ruins.

Mineração de dados é mais do que uma moda tecnológica — é uma ferramenta estratégica para transformar dados em inteligência de negócio ou governança. Saber como aplicar suas técnicas pode significar a diferença entre decisões aleatórias e ações assertivas. Então, continue sua jornada Jedi da TI, estudando com foco e profundidade. O futuro pertence aos que dominam os dados!

Vamos praticar?

CESPE / CEBRASPE – 2025 – TRF – 6ª REGIÃO – Analista Judiciário – Área: Apoio Especializado – Especialidade: Governança e Gestão de Tecnologia da Informação

A respeito de data mart e data mining, julgue o item a seguir. 

O uso de data mining permite, por exemplo, que uma empresa de varejo descubra padrões de compra ocultos em grandes volumes de dados, permitindo que a empresa crie promoções direcionadas ou ajuste o leiaute da loja para aumentar as vendas. 

Gabarito: CERTO

Justificativa:

A afirmação descreve com precisão uma das principais aplicações da mineração de dados (data mining): a descoberta de padrões ocultos em grandes volumes de dados. No exemplo citado, uma empresa de varejo pode utilizar técnicas de data mining para identificar comportamentos de compra dos clientes, como produtos frequentemente comprados juntos ou horários de pico de consumo.

Essas descobertas permitem ações estratégicas, como:

  • Promoções direcionadas (ex.: recomendar produtos com base no histórico de compra);
  • Ajustes no leiaute da loja para aumentar a visibilidade de produtos que costumam ser comprados em conjunto.

Essas práticas são típicas do uso de data mining e estão alinhadas com os objetivos de análise preditiva e de suporte à decisão em ambientes empresariais. Portanto, a questão está correta.

CESPE / CEBRASPE – 2025 – EMBRAPA – Analista – Área: Gestão da Informação – Subárea: Engenharia de Software

A respeito do tratamento e análise de grandes volumes de dados, julgue o item que se segue. 

A mineração de dados pode ser aplicada para a identificação de padrões de associação, como a regra “se X, então Y”, frequentemente utilizada em análise de cestas de compras. 

Gabarito: CERTO

Justificativa:

A afirmação está correta ao descrever uma das principais técnicas da mineração de dados: a descoberta de regras de associação, expressas na forma “se X, então Y”.

Essa técnica é amplamente utilizada na análise de cestas de compras (market basket analysis), onde se busca entender quais produtos são comprados juntos com frequência. Um exemplo clássico seria:

“Se o cliente compra pão (X), então ele também tende a comprar manteiga (Y).”

Essas regras ajudam empresas a otimizar estratégias de venda, como promoções conjuntas, posicionamento de produtos nas gôndolas e recomendações personalizadas.

Portanto, o item descreve corretamente a aplicação da mineração de dados na identificação de padrões de associação. Está certo.

FGV – 2025 – AgSUS – Analista de Gestão Tecnologia da Informação

Um analista de dados da AgSUS sabe que a detecção de anomalias, ou detecção de valores discrepantes, é a identificação de uma observação, evento ou ponto de dados que se desvia do que é padrão ou esperado, tornando-o inconsistente em relação ao resto do conjunto de dados. Relacione os tipos de anomalias de dados às suas respectivas definições. 

1. Anomalias não intencionais.
2. Anomalias pontuais.
3. Anomalias contextuais.
4. Anomalias coletivas. 

( ) Essas anomalias, também conhecidas como valores discrepantes globais, são pontos de dados individuais que estão muito fora do restante do conjunto de dados. Um exemplo desses tipo anomalia é um saque de conta bancária que é significativamente maior do que qualquer um dos saques anteriores do usuário;
( ) Essas anomalias envolvem um conjunto de instâncias de dados que juntas se desviam da norma, mesmo que as instâncias individuais possam parecer normais. Um exemplo desse tipo de anomalia seria um conjunto de dados de tráfego de rede que mostra um aumento repentino no tráfego de vários endereços IP ao mesmo tempo;
( ) Essas anomalias são pontos de dados que se desviam da norma devido a erros ou ruído no processo de coleta de dados. Esses erros podem ser sistemáticos ou aleatórios, originados por problemas como sensores defeituosos ou erro humano durante a entrada de dados. Esse tipo de anomalia pode distorcer o conjunto de dados, dificultando a obtenção de insights precisos;
( ) Essas anomalias são pontos de dados que se desviam da norma dentro de um contexto específico. Essas anomalias não são necessariamente valores discrepantes quando consideradas isoladamente, mas se tornam anômalas quando vistas dentro de seu contexto específico. Por exemplo, considere o uso de energia. Se houver um aumento repentino no consumo de energia ao meio-dia, quando normalmente nenhum membro da família está em casa. Este dado pode não ser um valor discrepante quando comparado ao consumo de energia pela manhã ou à noite (quando as pessoas geralmente estão em casa), mas é anômalo em relação ao horário em que ocorreu.
A relação correta, na ordem dada, é: 

  1. 4 – 3 – 1 – 2.
  2. 2 – 4 – 1 – 3.
  3. 3 – 2 – 4 – 1.
  4. 1 – 2 – 3 – 4.
  5. 3 – 4 – 1 – 2.

Gabarito: B) 2 – 4 – 1 – 3

Justificativa:

Vamos analisar cada definição e relacioná‑la com o tipo correto de anomalia:

Primeira definição:

“Pontos de dados individuais muito fora do restante do conjunto de dados; exemplo: um saque muito maior que os anteriores.”

Esse é o conceito clássico de anomalia pontual, pois se refere a um único valor isolado que foge completamente ao padrão.

Corresponde ao número 2.

Segunda definição:

“Um conjunto de instâncias que juntas se desviam da norma, mesmo que individualmente pareçam normais; exemplo: tráfego de vários IPs aumentando simultaneamente.”

Isso descreve anomalias coletivas, que dependem da análise de um grupo de dados.

Corresponde ao número 4.

Terceira definição:

“Pontos de dados incorretos devido a erros de coleta, ruído, sensores defeituosos ou erro humano.”

Esses são valores discrepantes não intencionais, pois resultam de falhas no processo de medição ou coleta.

Corresponde ao número 1.

Quarta definição:

“Pontos de dados que só são anômalos dentro de um contexto específico; exemplo: aumento de energia ao meio‑dia, horário incomum para consumo.”

Isso caracteriza uma anomalia contextual, que depende do contexto para ser identificada.

Corresponde ao número 3.

CESPE / CEBRASPE – 2025 – EMBRAPA – Analista – Área: Gestão da Informação – Subárea: Engenharia de Software

A respeito do tratamento e análise de grandes volumes de dados, julgue o item que se segue. 

A detecção de anomalias é uma técnica de mineração de dados que visa identificar padrões incomuns, ou outliers, sendo útil em aplicações como detecção de fraudes. 

Gabarito: CERTO

Justificativa:

A detecção de anomalias — também conhecida como detecção de outliers — é, de fato, uma técnica da mineração de dados voltada para a identificação de padrões incomuns ou desvios significativos em relação ao comportamento esperado dos dados.

Essa técnica é extremamente útil em diversas aplicações práticas, especialmente em:

  • Detecção de fraudes financeiras, como transações incomuns em cartões de crédito;
  • Monitoramento de sistemas, identificando falhas ou comportamentos fora do padrão;
  • Segurança cibernética, para identificar acessos suspeitos ou tráfego anormal.

O objetivo é encontrar dados que não seguem os padrões normais e que, por isso, merecem atenção especial. Esses dados podem indicar problemas, fraudes ou até oportunidades ocultas.

Portanto, o item está correto.

CESPE / CEBRASPE – 2025 – STM – Analista Judiciário – Área: Apoio Especializado – Especialidade: Suporte em Tecnologia da Informação

Julgue o item seguinte, relativo à administração de banco de dados Oracle, à modelagem de dados relacional, à normalização de dados e ao data mining.

Em data mining, a técnica de regras de associação é usada para prever valores contínuos com base em atributos independentes, utilizando-se árvores de regressão. 

Gabarito: ERRADO

Justificativa:

O item mistura conceitos de duas técnicas distintas de mineração de dados:

  1. Regras de associação:
    São usadas para descobrir relacionamentos entre variáveis categóricas em grandes bases de dados. Elas identificam padrões do tipo “se X, então Y”, como por exemplo: “Se o cliente compra arroz, então ele também compra feijão”. Essa técnica é comum em análises de cestas de compras e recomendações de produtos.
  2. Regressão (incluindo árvores de regressão):
    É uma técnica utilizada para prever valores contínuos (como preço, temperatura, faturamento), com base em variáveis independentes. A árvore de regressão é um modelo específico que divide os dados em grupos e faz previsões numéricas.

Portanto, regras de associação não são usadas para prever valores contínuos. O item está conceitualmente incorreto ao atribuir a funcionalidade da regressão às regras de associação.

  CESPE / CEBRASPE – 2025 – Polícia Federal – Perito Criminal Federal – Área 1: Contábil-Financeira

Acerca de segurança da informação, bancos de dados e aprendizado de máquina, julgue o próximo item. 

A técnica de clustering em data mining atribui categorias aos grupos de dados para facilitar a análise e a tomada de decisão.

Gabarito: ERRADO

Justificativa:

A técnica de clustering (ou agrupamento) em data mining é uma forma de aprendizado não supervisionado. Isso significa que os dados não possuem rótulos ou categorias pré-definidas, e o objetivo é justamente descobrir automaticamente agrupamentos (ou “clusters”) de dados que apresentem similaridades internas.

Diferente do que afirma o item, o clustering não atribui categorias pré-definidas aos dados. Ele cria grupos com base em características semelhantes, sem saber de antemão quais são esses grupos. Após o agrupamento, um analista pode interpretar e rotular os clusters, mas esse processo não faz parte da técnica de clustering em si.

Já a técnica que atribui categorias com base em exemplos anteriores é a classificação (classification), que utiliza aprendizado supervisionado.

Fonte: Gran Cursos Online

Download disponível – Mineração de Dados: Transformando Dados em Decisão



Baixar video aula

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *