TrabalhosGratuitos.com - Trabalhos, Monografias, Artigos, Exames, Resumos de livros, Dissertações
Pesquisar

MBA EM CIÊNCIA DE DADOS E BIG DATA ANALYTICS

Por:   •  29/4/2020  •  Trabalho acadêmico  •  907 Palavras (4 Páginas)  •  213 Visualizações

Página 1 de 4

[pic 1]

[pic 2]

UNIVERSIDADE ESTÁCIO DE SÁ

MBA EM CIÊNCIA DE DADOS E BIG DATA ANALYTICS

Tecnologias que utilizam BIG DATA

João Batista

               Trabalho da disciplina Prática e Laboratório I

Tutor: José Luiz dos Anjos Rosa

Fortaleza

2019

[pic 3]

Prática e Laboratório I

Apache Pig, Apache Spark, Hbase Hadoop

Apache Pig 

        É uma abstração do MapReduce. Podemos realizar todas as operações de manipulação de dados no Hadoop usando o Apache Pig. A propriedade mais importante do Pig é a paralelização, sua estrutura foi totalmente pensada para trabalhar com isso, o que por sua vez, permite a manipulação de conjuntos de dados muito grandes. Ele trabalha com dados de várias fontes, incluindo dados estruturados e não estruturados, armazenando os resultados no Hadoop Data File System.

exemplo de execução de um script PIG:

Após criar um arquivo-texto, enviei-o para máquina virtual através do FTP.

/trabalho/exemplos/pig.txt

Script pig.txt:

Marilia Fonseca        85995267847        Fortaleza        Engenheiro

Larissa Braga                84986372663        Natal                 Palestrante        

Carlos        Marques        31993728746        Maceio        Investidor

Claudia Duarte        51998274923        Porto Alegre        Engenheira

Maria        Andrade        71986320865        Salvador        Professora

Criei o arquivo /trabalho/exemplos/script01.pig:

A = LOAD '/trabalho/exemplos/pig.txt' using PigStorage (' ') as (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Profession: chararray);

B = FOREACH A generate FName, LName, MobileNo, Profession;

DUMP B;

Após isso rodei o script:

pig  /trabalho/exemplos/script01.pig

O Script foi executado sem especificar nada, o retorno foi:

Marilia Fonseca        85995267847        Fortaleza        Engenheiro

Larissa Braga                84986372663        Natal                 Palestrante        

Carlos        Marques        31993728746        Maceio        Investidor

Claudia Duarte        51998274923        Porto Alegre        Engenheira

Maria        Andrade        71986320865        Salvador        Professora

Apache Spark

        Tem o objetivo de processar grandes conjuntos de dados de forma paralela e distribuída. O Spark tem diversos componentes para diferentes tipos de processamentos, todos construídos sobre o Spark Core, que é o componente que disponibiliza as funções básicas para o processamento como as funções map, reduce, filter e collect.

Para o Spark usar um exemplo de contagem de palavras usando comandos de shell. O texto a seguir é os dados de entrada e o arquivo nomeado é spark.txt no caminho /trabalho/exemplos/

Spark.txt

people are not as beautiful as they look, as they walk or as they talk. they are only as beautiful as they love, as they care as they share.

Programa SparkWordCount.scala:

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

import org.apache.spark._

object SparkWordCount {

 def main(args: Array[String]) {

...

Baixar como (para membros premium)  txt (5.1 Kb)   pdf (124.7 Kb)   docx (99.1 Kb)  
Continuar por mais 3 páginas »
Disponível apenas no TrabalhosGratuitos.com