Hadoop-华尔子博-奥夏网

Hadoop MapReduce 是 Hadoop 平台根据 MapReduce 原理实现的计算框架，目前已经实现了两个版本，MapReduce 1.0 和基于 YARN 结构的 MapReduce 2.0。尽管 MapReduce 1.0 中存在一些问题，但是整...

大数据

天山雪莲2个月前

02714

Spark DStream相关操作

与 RDD 类似，DStream 也提供了自己的一系列操作方法，这些操作可以分成 3 类：普通的转换操作、窗口转换操作和输出操作。普通的转换操作普通的转换操作如表 1 所示表 1 普通的转换操作 Suo ...

大数据

48天前

03813

HDFS两种操作方式：命令行和Java API

HDFS 文件操作有两种方式：一种是命令行方式，Hadoop 提供了一套与 Linux 文件命令类似的命令行工具；另一种是 Java API，即利用 Hadoop 的 Java 库，采用编程的方式操作 HDFS 的文件。本节将...

大数据

王麻子1年前

06712

Spark总体架构和运行流程

本节将首先介绍 Spark 的运行架构和基本术语，然后介绍 Spark 运行的基本流程，最后介绍 RDD 的核心理念和运行原理。 Spark 总体架构 Spark 运行架构如图 1 所示，包括集群资源管理器（Cluster ...

大数据

王麻子2个月前

04111

Spark是什么？Spark和Hadoop的区别

Spark 是加州大学伯克利分校 AMP（Algorithms，Machines，People）实验室开发的通用内存并行计算框架。 Spark 在 2013 年 6 月进入 Apache 成为孵化项目，8 个月后成为 Apache 顶级项目。 Spark...

大数据

子博兄2个月前

02611

MapReduce编程实例：单词计数

本节介绍如何编写基本的 MapReduce 程序实现数据分析。本节代码是基于 Hadoop 2.7.3 开发的。任务准备单词计数（WordCount）的任务是对一组输入文档中的单词进行分别计数。假设文件的量比较大...

大数据

子博兄2个月前

05611

Hadoop MapReduce工作流程介绍

MapReduce 就是将输入进行分片，交给不同的 Map 任务进行处理，然后由 Reduce 任务合并成最终的解。 MapReduce 的实际处理过程可以分解为 Input、Map、Sort、Combine、Partition、Reduce、Outpu...

大数据

天山雪莲1年前

06911

Hadoop HBase数据库的详解介绍及使用范例

这里我们继续深入详细了解HBase,并通过一个实例使用HBase进行数据操作。 1. HBase数据模型HBase的数据模型主要包含: - Table:对应关系数据库中的表,用于存储类似数据。 - Row:对应表中的行,根据...

大数据

子博兄1年前

06411

ubuntu docker搭建Hadoop集群环境的方法

下面是在Ubuntu上使用Docker搭建Hadoop集群环境的详细方法：安装Docker和Docker Compose 在Ubuntu上安装Docker和Docker Compose。可以执行以下命令来完成安装： #安装Docker sudo apt-get upda...

操作系统

天山雪莲1年前

0597

Spark MLlib简介

MLlib 是 Spark 的机器学习库，旨在简化机器学习的工程实践工作，并方便扩展到更大规模。 MLlib 由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优...

大数据

子博网39天前

0496

12 下一页