Análise de Uma Técnica de Interdependência

Por: Vinicius Stephanto • 26/9/2022 • Resenha • 899 Palavras (4 Páginas) • 309 Visualizações

Página 1 de 4

Análise de Cluster

[pic 1] Created	@August 28, 2022 11:09 AM
[pic 2] Data

Roteiro

O que é

Uma técnica de interdependência[pic 3]

Nenhuma variável é considerada dependente ou independente, mas todas as variáveis são analisadas simultaneamente com a finalidade de encontrar uma estrutura para todo conjunto de variáveis.[pic 4]

Permite agrupar casos ou variáveis em grupos homogêneos, em função do grau de similaridade entre os indivíduos a partir de variáveis predeterminadas.[pic 5]

Considerada uma técnica exploratória[pic 6]

Explorar o banco de dados com base nesse método[pic 7]

Faz um estudo exploratório que verifica de que forma os dados podem se agrupar em conjuntos[pic 8]

O conjunto de variáveis é selecionado pelo pesquisador[pic 9]

Objetivo

Agrupar objetos com base em suas próprias características, buscando a sua estrutura “natural”[pic 10]

Deve-se segmentar as observações em grupos homogêneos[pic 11]

internamente e heterogêneos entre si

Aplicabilidade

Utilizado em diversas situações de pesquisa[pic 12]

Identificação de grupos de investimentos de acordo com perfis de risco[pic 13]

Identificação de segmentos homogêneos de consumidores[pic 14]

Identificação de grupos de alunos mais propensos à evasão escolar[pic 15]

Segmentar empresas com base em indicadores financeiros Uso em Big Data[pic 16][pic 17]

Usado por empresas de vendas para identificar grupos- alvo para recomendação de um produto[pic 18]

Ao estudar uma estrutura natural de grupos, permite: Avaliar a dimensionalidade dos dados[pic 19][pic 20]

Identificar outliers (Pontos de discrepância) Analisar associações na estrutura dos objetos[pic 21][pic 22]

K-means clustering

Uma técnica para obter os clusters[pic 23]

K-means clustering especificamente tenta colocar os dados dentro do número de clusters que você determina previamente[pic 24]

A ideia desse é ao colocar as observações em uma tabela, iniciarmos com pontos aleatórios. Em seguida, irmos calculando a média de distâncias entre o ponto e as observações para verificar de qual ponto aquela observação está mais próxima. Dessa forma, divide-se as observações em grupos baseado no ponto mais próximo. Coloca-se o ponto no centro desse grupo e verifica novamente em qual ponto as observações estão mais perto. Por fim, ir repetindo até chegar num resultado bom e obter os clusters[pic 25]

Exemplo 1

[pic 26]

Usando K=3[pic 27]

Coloque 3 pontos em lugares aleatórios[pic 28]

[pic 29]

Associa os dados em grupos baseado na distância do ponto[pic 30]

[pic 31]

[pic 32]

Centraliza os pontos no centro do grupo[pic 33]

[pic 34]

Repete o processo novamente[pic 35]

[pic 36][pic 37]

Por fim, repetindo o processo um número de vezes suficientes até não haver mais variância entre as distâncias dos dados até os pontos, terá esse resultado[pic 38]

[pic 39]

Exemplo 2

[pic 40]

Usando K=3[pic 41]

Será escolhido 3 pontos aleatórios e calcula a distância entre o ponto e o cluster[pic 42]

Cálculo será feito com a fórmula da distância[pic 43]

[pic 44]

Associe cada ponto à um grupo (cluster)[pic 45]

[pic 46]

Centralize o ponto de cluster no meio do grupo[pic 47]

[pic 48]

Repita o processo até não haver mais variações[pic 49]

[pic 50]

Como determinar o número de clusters para pegar (determinar o valor de K)

Método do cotovelo (elbow)

[pic 51]

Como determinar, usando matemática, que 3 clusters é a solução ideal?[pic 52]

Inicialmente devemos escolher um parâmetro para definir o quão bom é um clustering[pic 53]

Uma solução possível é utilizar o diâmetro de um clustering para determinar o tamanho de um clustering[pic 54]

...

Baixar como (para membros premium) txt (5.5 Kb) pdf (767.7 Kb) docx (593.3 Kb)

Continuar por mais 3 páginas »

Disponível apenas no TrabalhosGratuitos.com

Ler documento completo Salvar