Pronto para usar técnicas estatísticas e de aprendizado de máquina (machine learning) em grandes conjuntos de dados? Este guia prático mostra por que o ecossistema do Hadoop é perfeito para essa tarefa. Em vez de ter como foco a implantação, as operações ou o desenvolvimento de softwares geralmente associados à computação distribuída, você se concentrará nas análises particulares que poderá fazer, nas técnicas de armazém de dados (data warehousing) oferecidas pelo Hadoop e em fluxos de trabalho de alta ordem que esse framework é capaz de gerar.
Os cientistas e os analistas de dados aprenderão a usar diversas técnicas que variam da escrita de aplicações MapReduce e Spark com Python ao uso de modelagem avançada e gerenciamento de dados com Spark MLlib, Hive e HBase. Você também conhecerá os processos analíticos e os sistemas de dados disponíveis para desenvolver e conferir eficácia aos produtos de dados capazes de lidar com – e que, na verdade, exigem – quantidades enormes de dados.
Entenda os conceitos principais do Hadoop e do processamento em cluster.
Utilize padrões de projeto e algoritmos analíticos paralelos para criar jobs de análise de dados distribuídos.
Adquira conhecimentos sobre gerenciamento de dados, mineração e armazém de dados em um contexto distribuído usando Apache Hive e HBase.
Utilize Sqoop e Apache Flume para entrada de dados a partir de bancos de da
Código: |
L004-9788575225219 |
Código de barras: |
9788575225219 |
Peso (kg): |
0,560 |
Altura (cm): |
23,50 |
Largura (cm): |
17,00 |
Espessura (cm): |
1,80 |
Autor |
Jenny |
Editora |
NOVATEC EDITORA |
Idioma |
PORTUGUÊS |
Encadernação |
Brochura |
Páginas |
352 |
Ano de edição |
2016 |
Número de edição |
1 |