大数据共50篇 第3页
大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

HDFS架构和实现机制简介 HDFS 是什么?

HDFS架构和实现机制简介 HDFS 是什么?-华尔子博-奥夏网
HDFS 整体架构 HDFS 是一个主从 Master/Slave 架构。一个 HDFS 集群包含一个 NameNode,这是一个 Master Server,用来管理文件系统的命名空间,以及调节客户端对文件的访问。一个 HDFS 集群还包...
子博网的头像-华尔子博-奥夏网子博网3年前
05310

NoSQL数据库类型简介

NoSQL数据库类型简介-华尔子博-奥夏网
近些年来,NoSQL 数据库的发展势头很快。据统计,目前已经产生了 50 到 150 个 NoSQL 数据库系统。但是,归结起来,可以将典型的 NoSQL 划分为 4 种类型,分别是键值数据库、列式数据库、文档数...
子博兄的头像-华尔子博-奥夏网子博兄2年前
0379

HBase主要运行机制(物理存储和逻辑架构)

HBase主要运行机制(物理存储和逻辑架构)-华尔子博-奥夏网
本节将对 HBase 的主要运行机制进行简单介绍。 HBase 的物理存储 HBase 表中的所有行都是按照行键的字典序排列的。因为一张表中包含的行的数量非常多,有时候会高达几亿行,所以需要分布存储到...
子博网的头像-华尔子博-奥夏网子博网8个月前
0278

Spark MLlib简介

MLlib 是 Spark 的机器学习库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。 MLlib 由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优...
子博网的头像-华尔子博-奥夏网子博网6个月前
0496

Spark Streaming编程模型,DStream 的操作流程和使用方法

Spark Streaming编程模型,DStream 的操作流程和使用方法-华尔子博-奥夏网
本节将介绍 Spark Streaming 的编程模型,包括 DStream 的操作流程和使用方法。 DStream 的操作流程 DStream 作为 Spark Streaming 的基础抽象,它代表持续性的数据流。这些数据流既可以通过外...
天山雪莲的头像-华尔子博-奥夏网天山雪莲7个月前
0346

MapReduce执行流程和Shuffle过程

MapReduce执行流程和Shuffle过程-华尔子博-奥夏网
本节将对 Hadoop MapReduce 的工作机制进行介绍,主要从 MapReduce 的作业执行流程和 Shuffle 过程方面进行阐述。通过加深对 MapReduce 工作机制的了解,可以使程序开发者更合理地使用 MapReduc...
南宫世家的头像-华尔子博-奥夏网南宫世家8个月前
0395

Hadoop MapReduce简介

Hadoop MapReduce简介-华尔子博-奥夏网
本节首先简单介绍大数据批处理概念,然后介绍典型的批处理模式 MapReduce,最后对 Map 函数和 Reduce 函数进行描述。 批处理模式 批处理模式是一种最早进行大规模数据处理的模式。批处理主要操...
王麻子的头像-华尔子博-奥夏网王麻子8个月前
0415

HBase列式数据模型简介

HBase列式数据模型简介-华尔子博-奥夏网
数据模型是理解一个数据库的关键,本节介绍 HBase 的列式数据模型,与数据模型相关的基本概念,并描述 HBase 数据库的概念视图和物理视图。 数据模型概述 HBase 是一个稀疏、多维度、有序的映射...
子博兄的头像-华尔子博-奥夏网2年前
0265

Spark开发实例(编程实践)

Spark开发实例(编程实践)-华尔子博-奥夏网
本节将介绍如何实际动手进行 RDD 的转换与操作,以及如何编写、编译、打包和运行 Spark 应用程序。 启动 Spark Shell Spark 的交互式脚本是一种学习 API 的简单途径,也是分析数据集交互的有力...
南宫世家的头像-华尔子博-奥夏网南宫世家8个月前
0295