Engenharia De Computação – Universidade UniEvangélica

Por: leogodoi • 13/12/2016 • Artigo • 4.208 Palavras (17 Páginas) • 504 Visualizações

Página 1 de 17

Data Mining

José André Silva, Leonardo Antônio Godoi, Pedro Camargos, Yasmim Xavier.

Av. Universitária Km. 3,5 - Cidade Universitária, Anápolis - GO, 75083-515

joseandredasilvafilho@outlook.com, leogodoi1575@gmail.com, pedrocamargos.phcs@gmail.com, Yasmim_santos_97@hotmail.com

Resumo. O documento a seguir descreve de forma clara e objetiva os principais conceitos de Data Mining, abordando uma visão geral das tecnologias utilizadas, metas e descobertas de conhecimento em Bancos de Dados durante a pesquisa e execução da mineração de dados. Demonstra também os modos de descoberta do conhecimento, bem como as regras de associação que são algumas das principais tecnologias envolvidas em data mining. Serão ainda apresentados os principais Algoritmos utilizados, os processos de classificação que descrevem as diferentes classes de dados, bem como também o agrupamento de dados, também chamado de Clustering e, finalmente serão abordadas suas principais aplicações e ferramentas comerciais para Data Mining.

Abstract. The following document describes clearly and objectively the main concepts of data mining, addressing an overview of the technologies used, goals and knowledge discovery in databases for research and implementation of data mining. It also demonstrates the ways of knowledge discovery, as well as the association rules that are some of the key technologies involved in data mining. Will still be the main algorithms used presented, the classification processes that describe the different classes of data and also the data grouping, also called clustering, and finally will be addressed their key applications and business tools for Data Mining.

1. Introdução

Desde o início da era da informática, mais pontualmente nos últimos trinta anos, um enorme arquivo de banco de dados foi formado por diversas empresas e organizações, sendo este gerado por uma enorme e quase imensurável quantidade de dados interpretáveis por máquinas. A fim de realizar o processamento destes dados, foram desenvolvidas linguagens de consulta, query, e, dentre estas a mais conhecida e utilizada nas últimas décadas, a SQL (Structured Query Language), a qual é a linguagem que comporta os bancos de dados de forma estruturada, partindo do princípio que o usuário conheça o esquema do banco consultado. Esta linguagem, a SQL, realiza operações de álgebra relacional, as quais permitem que o usuário selecione dados e ou informações em linhas e colunas de dados das tabelas, outras relacionadas por junção em campos comuns, permitindo assim a mineração minusciosa dos dados. A descoberta de informações inéditas em função de padrões e regras, determinados e pré-estabelecidos em grandes quantidades de dados é a melhor definição para referir-se à mineração de dados, ou Data Mining [Elmasri, R., James, S. E kouramajian, 2005].

O grande problema para quem deseja adquirir conhecimentos sobre Data Mining é a falta de bibliografias e literaturas específicas que tratem o assunto de forma aprofundada, como saber aplicar os conceitos, tecnologias e linguagens aplicadas em Mineração de Dados, para resolução de problemas diários, por todos aqueles envolvidos direta ou indiretamente com grandes bancos de dados.

O que justifica aprofundamento nos estudos sobre a Data Mining, é o fato de que, devido à falta de integração com os Sistemas Gerenciadores de Banco de Dados, para que se torne eficiente, a mineração de dados precisa ser realizada em uma quantidade muito grande de arquivos de bancos de dados, na ordem de Terabytes, então surge o universo de ferramentas tecnológicas comercialmente disponíveis e avanços nas pesquisas sobre mineração de dados para diminuir a problemática e tornar viável a Data Mining.

Entedeu-se então, a necessidade de produção deste artigo, a fim de garantir o aprendizado sobre os conceitos de Data Mining e produzir este documento, “Paper”, para exposição, abordando as tecnologias, linguagens de programação para banco de dados, paradigmas e parâmetros utilizados atualmente na mineração de dados comparando-os com os que já não mais são utilizados, demonstrando as justificativas para as melhorias e mudanças na busca de dados específicos através de pesquisa e mineração de dados para utilização de informações encontradas em sistemas de banco de dados.

2. Tecnologia de Data Mining

A Descoberta de Conhecimento em Bancos de Dados, do Inglês, Knowledge Discovery in Databases, ou KDD, é composto por seis fases distintas, dentre elas o Data Mining. As fases são seleção de dados, limpeza, enriquecimento, transformação ou codificação, data mining e finalmente, a elaboração de relatórios para apresentar as informações descobertas.

[pic 1]

Figura 1. Passo a passo do Data Mining.

3. Algoritmos de Data Mining

Instituições e organizações no mundo todo, com visão de futuro, têm utilizado as tecnologias de mineração de dados, aplicando algoritmos de Data Mining, para detecção de fraudes, minimização de riscos, antecipação de demandas de recursos, aumentar taxas de respostas em campanhas de marketing, minimizar atritos com clientes dentre outros. Os algoritmos de Data Mining são mecanismos que criam modelos de mineração de dados. Para criar estes modelos, os algoritmos primeiro analisam conjuntos de dados e procura padrões e tendências específicas. Os algoritmos utilizam os resultados dessas análises para definirem os parâmetros dos modelos de mineração. Esses parâmetros são aplicados pelos conjuntos de dados inteiros, para extrair padrões acionáveis e estatísticas detalhadas. Os modelos de mineração que os algoritmos criam podem assumir vários formatos, incluindo conjuntos de regras que descrevem como são agrupados os produtos em uma transação, incluem também árvores de decisão que prevêm se um determinado cliente comprará determinado produto, determinam modelos matemáticos que prevêm as vendas, formam conjuntos de clusters que descrevem como os casos em um conjunto de dados estão relacionados.

O software Microsoft SQL Server Analysis Services fornece vários algoritmos para serem usados nas soluções de mineração de dados. Esses algoritmos são subconjuntos de todos os algoritmos que podem ser usados para mineração de dados. Outros algoritmos de terceiros compatíveis com a especificação OLE DB para Data Mining também são utilizados.

O algoritmo Analysis Services inclui os seguintes tipos de algoritmos:

Algoritmos de classificação prevêm uma ou mais variáveis discretas, com base nos outros atributos do conjunto de dados. Um exemplo de um algoritmo de classificação é Algoritmo Árvores de Decisão da Microsoft.
Algoritmos de regressão prevêm uma ou mais variáveis contínuas, como lucro ou perda, com base nos outros atributos do conjunto de dados. Um exemplo de um algoritmo de regressão é Algoritmo MTS.
Algoritmos de segmentação dividem dados em grupos ou clusters de itens que têm propriedades semelhantes. Um exemplo de um algoritmo de segmentação é Algoritmo Microsoft Clustering.
Algoritmos de associação encontram correlações entre atributos diferentes em um conjunto de dados. A aplicação mais comum desse tipo de algoritmo é para criar regras de associação, que podem ser utilizadas em uma análise de cesta básica. Um exemplo de um algoritmo de associação é Algoritmo Associação da Microsoft.
Algoritmos de análise de seqüência resumem sequências frequentes ou episódios em dados, como um fluxo de caminho da Web. Um exemplo de um algoritmo de seqüência é Algoritmo MSC.

Para aplicação dos algoritmos de Data Minig, deve-se realizar uma seleção minuciosa para que seja realizada a melhor escolha, por exemplo, escolha do melhor algoritmo para uma tarefa empresarial específica pode ser um desafio. Embora possam ser utilizados algoritmos diferentes para executar a mesma tarefa empresarial, cada algoritmo produz um resultado diferente e alguns podem produzir mais de um tipo de resultado. Por exemplo, pode-se usar o algoritmo Árvores de Decisão da Microsoft não apenas para previsão, mas também como uma maneira de reduzir o número de colunas em um conjunto dados uma vez que a árvore de decisão pode identificar colunas que não afetam o modelo de mineração final.

...

Baixar como (para membros premium) txt (26.9 Kb) pdf (285.3 Kb) docx (36.2 Kb)

Continuar por mais 16 páginas »

Disponível apenas no TrabalhosGratuitos.com

Ler documento completo Salvar