服务器共872篇 第69页

Spark是什么?Spark和Hadoop的区别

Spark是什么?Spark和Hadoop的区别-华尔子博
Spark 是加州大学伯克利分校 AMP(Algorithms,Machines,People)实验室开发的通用内存并行计算框架。 Spark 在 2013 年 6 月进入 Apache 成为孵化项目,8 个月后成为 Apache 顶级项目。 Spark...
子博兄的头像-华尔子博子博兄33天前
02611

MapReduce执行流程和Shuffle过程

MapReduce执行流程和Shuffle过程-华尔子博
本节将对 Hadoop MapReduce 的工作机制进行介绍,主要从 MapReduce 的作业执行流程和 Shuffle 过程方面进行阐述。通过加深对 MapReduce 工作机制的了解,可以使程序开发者更合理地使用 MapReduc...
南宫世家的头像-华尔子博南宫世家35天前
0355

Hadoop MapReduce简介

Hadoop MapReduce简介-华尔子博
本节首先简单介绍大数据批处理概念,然后介绍典型的批处理模式 MapReduce,最后对 Map 函数和 Reduce 函数进行描述。 批处理模式 批处理模式是一种最早进行大规模数据处理的模式。批处理主要操...
王麻子的头像-华尔子博王麻子35天前
0305

HBase主要运行机制(物理存储和逻辑架构)

HBase主要运行机制(物理存储和逻辑架构)-华尔子博
本节将对 HBase 的主要运行机制进行简单介绍。 HBase 的物理存储 HBase 表中的所有行都是按照行键的字典序排列的。因为一张表中包含的行的数量非常多,有时候会高达几亿行,所以需要分布存储到...
子博网的头像-华尔子博子博网38天前
0238

HBase Shell常用命令和基本操作(附带实例)

HBase Shell常用命令和基本操作(附带实例)-华尔子博
HBase 为用户提供了一个非常方便的命令行使用方式——HBase Shell。 HBase Shell 提供了大多数的 HBase 命令,通过 HBase Shell,用户可以方便地创建、删除及修改表,还可以向表中添加数据,列...
王麻子的头像-华尔子博王麻子1个月前
04413

NoSQL非关系型数据库简介及与关系数据库的区别

虽然关系型数据库系统很优秀,但是在大数据时代,面对快速增长的数据规模和日渐复杂的数据模型,关系型数据库系统已无法应对很多数据库处理任务。 NoSQL 凭借易扩展、大数据量和高性能及灵活的...
子博兄的头像-华尔子博子博兄1年前
03714

HDFS两种操作方式:命令行和Java API

HDFS两种操作方式:命令行和Java API-华尔子博
HDFS 文件操作有两种方式:一种是命令行方式,Hadoop 提供了一套与 Linux 文件命令类似的命令行工具;另一种是 Java API,即利用 Hadoop 的 Java 库,采用编程的方式操作 HDFS 的文件。 本节将...
王麻子的头像-华尔子博王麻子1年前
06712

HDFS读取和写入数据简介 HDFS的文件访问机制

HDFS读取和写入数据简介 HDFS的文件访问机制-华尔子博
HDFS的文件访问机制为流式访问机制,即通过 API 打开文件的某个数据块之后,可以顺序读取或者写入某个文件。由于 HDFS 中存在多个角色,且对应的应用场景主要为一次写入、多次读取的场景,因此...
子博兄的头像-华尔子博子博兄2年前
014811

HDFS基本原理和设计理念,HDFS 的局限性有哪些

HDFS基本原理和设计理念,HDFS 的局限性有哪些-华尔子博
HDFS基本原理和设计理念,HDFS 的局限性有哪些。为了解决存储结点负载不均衡的问题,HDFS 首先把一个文件分割成多个块,然后再把这些文件块存储在不同服务器上。这种方式的优势就是不怕文件太大...
王麻子的头像-华尔子博王麻子2年前
05130

Hadoop HDFS分布式文件系统简介及特性

Hadoop HDFS分布式文件系统简介及特性-华尔子博
Hadoop HDFS分布式文件系统简介及特性。大数据时代,需要处理分析的数据集的大小已经远远超过了单台计算机的存储能力,因此需要将数据集进行分区并存储到若干台独立的计算机中。
天山雪莲的头像-华尔子博天山雪莲3年前
02510