HDFS共24篇

Spark Streaming编程模型,DStream 的操作流程和使用方法

Spark Streaming编程模型,DStream 的操作流程和使用方法-华尔子博-奥夏网
本节将介绍 Spark Streaming 的编程模型,包括 DStream 的操作流程和使用方法。 DStream 的操作流程 DStream 作为 Spark Streaming 的基础抽象,它代表持续性的数据流。这些数据流既可以通过外...
天山雪莲的头像-华尔子博-奥夏网天山雪莲1个月前
0336

Spark Streaming的系统架构

Spark Streaming的系统架构-华尔子博-奥夏网
本节首先分析传统流处理系统架构存在的问题,然后介绍 Spark Streaming 的系统架构及其工作原理和优势。 传统流处理系统架构 流处理架构的分布式流处理管道执行方式是,首先用数据采集系统接收...
南宫世家的头像-华尔子博-奥夏网南宫世家2个月前
04313

Spark生态圈简介

Spark生态圈简介-华尔子博-奥夏网
Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的,是一个力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的平台。 AMP 实验室运用大数据、...
王麻子的头像-华尔子博-奥夏网王麻子2个月前
03710

Spark RDD是什么?

Spark RDD是什么?-华尔子博-奥夏网
Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据处理。本节...
子博兄的头像-华尔子博-奥夏网2个月前
02710

Spark是什么?Spark和Hadoop的区别

Spark是什么?Spark和Hadoop的区别-华尔子博-奥夏网
Spark 是加州大学伯克利分校 AMP(Algorithms,Machines,People)实验室开发的通用内存并行计算框架。 Spark 在 2013 年 6 月进入 Apache 成为孵化项目,8 个月后成为 Apache 顶级项目。 Spark...
子博兄的头像-华尔子博-奥夏网子博兄2个月前
02611

MapReduce编程实例:单词计数

本节介绍如何编写基本的 MapReduce 程序实现数据分析。本节代码是基于 Hadoop 2.7.3 开发的。 任务准备 单词计数(WordCount)的任务是对一组输入文档中的单词进行分别计数。假设文件的量比较大...
子博兄的头像-华尔子博-奥夏网子博兄2个月前
05611

MapReduce执行流程和Shuffle过程

MapReduce执行流程和Shuffle过程-华尔子博-奥夏网
本节将对 Hadoop MapReduce 的工作机制进行介绍,主要从 MapReduce 的作业执行流程和 Shuffle 过程方面进行阐述。通过加深对 MapReduce 工作机制的了解,可以使程序开发者更合理地使用 MapReduc...
南宫世家的头像-华尔子博-奥夏网南宫世家2个月前
0355

MapReduce实例分析:单词计数

MapReduce实例分析:单词计数-华尔子博-奥夏网
单词计数是最简单也是最能体现 MapReduce 思想的程序之一,可以称为 MapReduce 版“Hello World”。单词计数的主要功能是统计一系列文本文件中每个单词出现的次数。本节通过单词计数实例来阐述...
南宫世家的头像-华尔子博-奥夏网南宫世家2个月前
03311

Hadoop MapReduce架构

Hadoop MapReduce架构-华尔子博-奥夏网
Hadoop MapReduce 是 Hadoop 平台根据 MapReduce 原理实现的计算框架,目前已经实现了两个版本,MapReduce 1.0 和基于 YARN 结构的 MapReduce 2.0。 尽管 MapReduce 1.0 中存在一些问题,但是整...
天山雪莲的头像-华尔子博-奥夏网天山雪莲2个月前
02714

Hadoop MapReduce简介

Hadoop MapReduce简介-华尔子博-奥夏网
本节首先简单介绍大数据批处理概念,然后介绍典型的批处理模式 MapReduce,最后对 Map 函数和 Reduce 函数进行描述。 批处理模式 批处理模式是一种最早进行大规模数据处理的模式。批处理主要操...
王麻子的头像-华尔子博-奥夏网王麻子2个月前
0305