大数据（big data）是什么，海量、高增长率和多样化的信息资产-第2页

本节通过一个具体的编程实例来学习如何使用 HBase Java API 解决实际问题。在本实例中，首先创建一个学生成绩表 scores，用来存储学生各门课程的考试成绩，然后向 scores 添加数据。表 scores ...

# 数据库 # java # 时间戳

天山雪莲8个月前

05812

MapReduce实例分析：单词计数

单词计数是最简单也是最能体现 MapReduce 思想的程序之一，可以称为 MapReduce 版“Hello World”。单词计数的主要功能是统计一系列文本文件中每个单词出现的次数。本节通过单词计数实例来阐述...

# 函数 # HDFS # MapReduce 框架

南宫世家8个月前

03911

HDFS读取和写入数据简介 HDFS的文件访问机制

HDFS的文件访问机制为流式访问机制，即通过 API 打开文件的某个数据块之后，可以顺序读取或者写入某个文件。由于 HDFS 中存在多个角色，且对应的应用场景主要为一次写入、多次读取的场景，因此...

# 服务器 # 函数 # 客户端

子博兄3年前

014811

Hadoop HBase数据库的详解介绍及使用范例

这里我们继续深入详细了解HBase,并通过一个实例使用HBase进行数据操作。 1. HBase数据模型HBase的数据模型主要包含: - Table:对应关系数据库中的表,用于存储类似数据。 - Row:对应表中的行,根据...

# 数据库 # SQL # Shell

子博兄2年前

07311

Hadoop MapReduce工作流程介绍

MapReduce 就是将输入进行分片，交给不同的 Map 任务进行处理，然后由 Reduce 任务合并成最终的解。 MapReduce 的实际处理过程可以分解为 Input、Map、Sort、Combine、Partition、Reduce、Outpu...

# 函数 # 应用程序 # 负载均衡

天山雪莲2年前

06911

MapReduce编程实例：单词计数

本节介绍如何编写基本的 MapReduce 程序实现数据分析。本节代码是基于 Hadoop 2.7.3 开发的。任务准备单词计数（WordCount）的任务是对一组输入文档中的单词进行分别计数。假设文件的量比较大...

# 数据库 # 函数 # word

子博兄8个月前

05611

Spark是什么？Spark和Hadoop的区别

Spark 是加州大学伯克利分校 AMP（Algorithms，Machines，People）实验室开发的通用内存并行计算框架。 Spark 在 2013 年 6 月进入 Apache 成为孵化项目，8 个月后成为 Apache 顶级项目。 Spark...

# 服务器 # 函数 # SQL

子博兄8个月前

02611

Spark总体架构和运行流程

本节将首先介绍 Spark 的运行架构和基本术语，然后介绍 Spark 运行的基本流程，最后介绍 RDD 的核心理念和运行原理。 Spark 总体架构 Spark 运行架构如图 1 所示，包括集群资源管理器（Cluster ...

# 函数 # 磁盘 # 应用程序

王麻子8个月前

04411

Spark RDD是什么？

Spark 的核心是建立在统一的抽象弹性分布式数据集（Resiliennt Distributed Datasets，RDD）之上的，这使得 Spark 的各个组件可以无缝地进行集成，能够在同一个应用程序中完成大数据处理。本节...

# 函数 # target # 磁盘

8个月前

02710

Spark生态圈简介

Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的，是一个力图在算法（Algorithms）、机器（Machines）、人（People）之间通过大规模集成来展现大数据应用的平台。 AMP 实验室运用大数据、...

# 数据库 # SQL # go

王麻子8个月前

03710