大数据共50篇 第4页
大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

Spark Streaming的系统架构

Spark Streaming的系统架构-华尔子博-奥夏网
本节首先分析传统流处理系统架构存在的问题,然后介绍 Spark Streaming 的系统架构及其工作原理和优势。 传统流处理系统架构 流处理架构的分布式流处理管道执行方式是,首先用数据采集系统接收...
南宫世家的头像-华尔子博-奥夏网南宫世家3个月前
04313

Spark总体架构和运行流程

Spark总体架构和运行流程-华尔子博-奥夏网
本节将首先介绍 Spark 的运行架构和基本术语,然后介绍 Spark 运行的基本流程,最后介绍 RDD 的核心理念和运行原理。 Spark 总体架构 Spark 运行架构如图 1 所示,包括集群资源管理器(Cluster ...
王麻子的头像-华尔子博-奥夏网王麻子3个月前
04111

MapReduce执行流程和Shuffle过程

MapReduce执行流程和Shuffle过程-华尔子博-奥夏网
本节将对 Hadoop MapReduce 的工作机制进行介绍,主要从 MapReduce 的作业执行流程和 Shuffle 过程方面进行阐述。通过加深对 MapReduce 工作机制的了解,可以使程序开发者更合理地使用 MapReduc...
南宫世家的头像-华尔子博-奥夏网南宫世家3个月前
0385

Spark DStream相关操作

Spark DStream相关操作-华尔子博-奥夏网
与 RDD 类似,DStream 也提供了自己的一系列操作方法,这些操作可以分成 3 类:普通的转换操作、窗口转换操作和输出操作。 普通的转换操作 普通的转换操作如表 1 所示 表 1 普通的转换操作 Suo ...
子博兄的头像-华尔子博-奥夏网1个月前
03813

HBase常用Java API

本节介绍与 HBase 数据存储管理相关的 Java API(基于 HBase 版本 1.2.3)。 HBase 的常用Java API HBase 主要包括 5 大类操作:HBase 的配置、HBase 表的管理、列族的管理、列的管理、数据操作...
王麻子的头像-华尔子博-奥夏网王麻子3个月前
03813

NoSQL非关系型数据库简介及与关系数据库的区别

虽然关系型数据库系统很优秀,但是在大数据时代,面对快速增长的数据规模和日渐复杂的数据模型,关系型数据库系统已无法应对很多数据库处理任务。 NoSQL 凭借易扩展、大数据量和高性能及灵活的...
子博兄的头像-华尔子博-奥夏网子博兄1年前
03714

NoSQL数据库类型简介

NoSQL数据库类型简介-华尔子博-奥夏网
近些年来,NoSQL 数据库的发展势头很快。据统计,目前已经产生了 50 到 150 个 NoSQL 数据库系统。但是,归结起来,可以将典型的 NoSQL 划分为 4 种类型,分别是键值数据库、列式数据库、文档数...
子博兄的头像-华尔子博-奥夏网子博兄1年前
0379

Spark生态圈简介

Spark生态圈简介-华尔子博-奥夏网
Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的,是一个力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的平台。 AMP 实验室运用大数据、...
王麻子的头像-华尔子博-奥夏网王麻子3个月前
03710

Hadoop MapReduce简介

Hadoop MapReduce简介-华尔子博-奥夏网
本节首先简单介绍大数据批处理概念,然后介绍典型的批处理模式 MapReduce,最后对 Map 函数和 Reduce 函数进行描述。 批处理模式 批处理模式是一种最早进行大规模数据处理的模式。批处理主要操...
王麻子的头像-华尔子博-奥夏网王麻子3个月前
0365

MapReduce实例分析:单词计数

MapReduce实例分析:单词计数-华尔子博-奥夏网
单词计数是最简单也是最能体现 MapReduce 思想的程序之一,可以称为 MapReduce 版“Hello World”。单词计数的主要功能是统计一系列文本文件中每个单词出现的次数。本节通过单词计数实例来阐述...
南宫世家的头像-华尔子博-奥夏网南宫世家3个月前
03311