排序
Spark MLlib简介
MLlib 是 Spark 的机器学习库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。 MLlib 由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优...
Spark DStream相关操作
Spark开发实例(编程实践)
Spark总体架构和运行流程
Spark是什么?Spark和Hadoop的区别
MapReduce编程实例:单词计数
本节介绍如何编写基本的 MapReduce 程序实现数据分析。本节代码是基于 Hadoop 2.7.3 开发的。 任务准备 单词计数(WordCount)的任务是对一组输入文档中的单词进行分别计数。假设文件的量比较大...
MapReduce执行流程和Shuffle过程
Hadoop MapReduce架构
Hadoop MapReduce简介
ubuntu docker搭建Hadoop集群环境的方法
下面是在Ubuntu上使用Docker搭建Hadoop集群环境的详细方法: 安装Docker和Docker Compose 在Ubuntu上安装Docker和Docker Compose。可以执行以下命令来完成安装: #安装Docker sudo apt-get upda...