MBA EM CIÊNCIA DE DADOS E BIG DATA ANALYTICS

Por: João Batista • 29/4/2020 • Trabalho acadêmico • 907 Palavras (4 Páginas) • 346 Visualizações

Página 1 de 4

[pic 1]

[pic 2]

UNIVERSIDADE ESTÁCIO DE SÁ

MBA EM CIÊNCIA DE DADOS E BIG DATA ANALYTICS

Tecnologias que utilizam BIG DATA

João Batista

Trabalho da disciplina Prática e Laboratório I

Tutor: José Luiz dos Anjos Rosa

Fortaleza

2019

[pic 3]

Prática e Laboratório I

Apache Pig, Apache Spark, Hbase Hadoop

Apache Pig

É uma abstração do MapReduce. Podemos realizar todas as operações de manipulação de dados no Hadoop usando o Apache Pig. A propriedade mais importante do Pig é a paralelização, sua estrutura foi totalmente pensada para trabalhar com isso, o que por sua vez, permite a manipulação de conjuntos de dados muito grandes. Ele trabalha com dados de várias fontes, incluindo dados estruturados e não estruturados, armazenando os resultados no Hadoop Data File System.

exemplo de execução de um script PIG:

Após criar um arquivo-texto, enviei-o para máquina virtual através do FTP.

/trabalho/exemplos/pig.txt

Script pig.txt:

Marilia Fonseca 85995267847 Fortaleza Engenheiro

Larissa Braga 84986372663 Natal Palestrante

Carlos Marques 31993728746 Maceio Investidor

Claudia Duarte 51998274923 Porto Alegre Engenheira

Maria Andrade 71986320865 Salvador Professora

Criei o arquivo /trabalho/exemplos/script01.pig:

A = LOAD '/trabalho/exemplos/pig.txt' using PigStorage (' ') as (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Profession: chararray);

B = FOREACH A generate FName, LName, MobileNo, Profession;

DUMP B;

Após isso rodei o script:

pig /trabalho/exemplos/script01.pig

O Script foi executado sem especificar nada, o retorno foi:

Marilia Fonseca 85995267847 Fortaleza Engenheiro

Larissa Braga 84986372663 Natal Palestrante

Carlos Marques 31993728746 Maceio Investidor

Claudia Duarte 51998274923 Porto Alegre Engenheira

Maria Andrade 71986320865 Salvador Professora

Apache Spark

Tem o objetivo de processar grandes conjuntos de dados de forma paralela e distribuída. O Spark tem diversos componentes para diferentes tipos de processamentos, todos construídos sobre o Spark Core, que é o componente que disponibiliza as funções básicas para o processamento como as funções map, reduce, filter e collect.

Para o Spark usar um exemplo de contagem de palavras usando comandos de shell. O texto a seguir é os dados de entrada e o arquivo nomeado é spark.txt no caminho /trabalho/exemplos/

Spark.txt

people are not as beautiful as they look, as they walk or as they talk. they are only as beautiful as they love, as they care as they share.

Programa SparkWordCount.scala:

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

import org.apache.spark._

object SparkWordCount {

def main(args: Array[String]) {

...

Baixar como (para membros premium) txt (5.1 Kb) pdf (124.7 Kb) docx (99.1 Kb)

Continuar por mais 3 páginas »

Disponível apenas no TrabalhosGratuitos.com

Ler documento completo Salvar