TrabalhosGratuitos.com - Trabalhos, Monografias, Artigos, Exames, Resumos de livros, Dissertações
Pesquisar

Pergunta Sobre "Sobre acessibilidade, é CORRETO afirmar:"

Por:   •  29/8/2021  •  Artigo  •  533 Palavras (3 Páginas)  •  157 Visualizações

Página 1 de 3

Transformação de Dados

- Data Preparation for Data Mining

        Livro de preparação de dados

        Ele diz que realmente por mais que o Machine Learning é uma linguagem complicada e controlar todo o cenário, o resultado do Data Mining são impactados pelos dados, pelo formato dos dados.

        Importante relembrar a questão das transformação dos dados, porém mais focada ao Machine Learning.

        Exemplo famoso do Keggle, Titanic.

        A ideia é para aprendizado supervisionado.

        O atributo principal é survival. Verificar qual o atributo principal.

        Fazer uma análise dos dados.

        Validar a questão dos campos, dos shapes, dos tipos de dados, descrição dos dados (qual o registro e o tipo que ele detectou)

        Verificar a codificação dos dados.

        Categórico costuma colocar objetc.

        Problema de um atributo ser número e não categórico, o algoritmo pode fazer operação em cima dos valores do atributo. Pode ser considerado um atributo intervalar, ele vai querer medir uma distância entre os dois valores.

        Utilizar o describe para exibir as informações do dataset carregado de forma detalhado.

        Iremos trabalhar em cima de DataFrames

        .info gera um resumo dos dados

        .describe gera uma estatística descritiva dos dados

        Iremos filtrar os dados de acordo com o tipo da coluna.

        Pegar as colunas que são só objetcs

        Exibir os dados categóricos.

        Verificar os dados omissos

        Verificar se os dados estão balanceados

- Remover atributo irrelevantes

- Transformação das variáveis

        Criando uma nova coluna

        Pegando só a letra da cabine

- Valores omissos ou inconsistentes

        - Substituir por zero, media e outras valores correspondentes.

        Gerar um histograma

        Distribuição simétrica

        Necessário para saber por qual valor substituir valores faltantes, inconsistentes ou omissos

- Detectar os outliers

        Detectar o outlier

        Verificar a necessidade da remoção dos dados

- Criando nos atributos

        - Criado um atributo Family para somar todos que são da família

        - Utilizar o coeficiente da relação de Pearson

        - Reduzir dimensão dos dados removendo valores muito correlacionados

-

- Modelo ético para avaliação https://github.com/Trusted-AI/AIF360/tree/master/examples

-

...

Baixar como (para membros premium)  txt (2.4 Kb)   pdf (23.3 Kb)   docx (7.5 Kb)  
Continuar por mais 2 páginas »
Disponível apenas no TrabalhosGratuitos.com