大数据共50篇
大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

Spark MLlib简介

MLlib 是 Spark 的机器学习库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。 MLlib 由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优...
子博网的头像-华尔子博-奥夏网子博网1个月前
0496

数据挖掘是什么?

数据挖掘是什么?-华尔子博-奥夏网
什么是数据挖掘 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取出蕴涵在其中的,人们事先不知道的,但是具有潜在有用性的信息和知识的过程。 用来进行数据挖掘的数据...
南宫世家的头像-华尔子博-奥夏网南宫世家1个月前
03312

Spark Streaming编程实战(开发实例)

Spark Streaming编程实战(开发实例)-华尔子博-奥夏网
本节介绍如何编写 Spark Streaming 应用程序,由简到难讲解使用几个核心概念来解决实际应用问题。 流数据模拟器 在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近...
天山雪莲的头像-华尔子博-奥夏网天山雪莲1个月前
02413

Spark DStream相关操作

Spark DStream相关操作-华尔子博-奥夏网
与 RDD 类似,DStream 也提供了自己的一系列操作方法,这些操作可以分成 3 类:普通的转换操作、窗口转换操作和输出操作。 普通的转换操作 普通的转换操作如表 1 所示 表 1 普通的转换操作 Suo ...
子博兄的头像-华尔子博-奥夏网1个月前
03813

Spark Streaming编程模型,DStream 的操作流程和使用方法

Spark Streaming编程模型,DStream 的操作流程和使用方法-华尔子博-奥夏网
本节将介绍 Spark Streaming 的编程模型,包括 DStream 的操作流程和使用方法。 DStream 的操作流程 DStream 作为 Spark Streaming 的基础抽象,它代表持续性的数据流。这些数据流既可以通过外...
天山雪莲的头像-华尔子博-奥夏网天山雪莲2个月前
0336

Spark Streaming的系统架构

Spark Streaming的系统架构-华尔子博-奥夏网
本节首先分析传统流处理系统架构存在的问题,然后介绍 Spark Streaming 的系统架构及其工作原理和优势。 传统流处理系统架构 流处理架构的分布式流处理管道执行方式是,首先用数据采集系统接收...
南宫世家的头像-华尔子博-奥夏网南宫世家3个月前
04313

Spark Streaming简介

Spark Streaming简介-华尔子博-奥夏网
Spark Streaming 是 Spark 核心 API 的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。 Spark Streaming 支持从多种数据源获取数据,包括 Kafka、Flume、Twitter、ZeroMQ、Kin...
天山雪莲的头像-华尔子博-奥夏网天山雪莲3个月前
03214

Spark开发实例(编程实践)

Spark开发实例(编程实践)-华尔子博-奥夏网
本节将介绍如何实际动手进行 RDD 的转换与操作,以及如何编写、编译、打包和运行 Spark 应用程序。 启动 Spark Shell Spark 的交互式脚本是一种学习 API 的简单途径,也是分析数据集交互的有力...
南宫世家的头像-华尔子博-奥夏网南宫世家3个月前
0295

Spark生态圈简介

Spark生态圈简介-华尔子博-奥夏网
Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的,是一个力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的平台。 AMP 实验室运用大数据、...
王麻子的头像-华尔子博-奥夏网王麻子3个月前
03710

Spark总体架构和运行流程

Spark总体架构和运行流程-华尔子博-奥夏网
本节将首先介绍 Spark 的运行架构和基本术语,然后介绍 Spark 运行的基本流程,最后介绍 RDD 的核心理念和运行原理。 Spark 总体架构 Spark 运行架构如图 1 所示,包括集群资源管理器(Cluster ...
王麻子的头像-华尔子博-奥夏网王麻子3个月前
04111