分类: Spark - 惊羽的博客

Vol.20 企业生产环境当中 spark 任务提交的几种方式

spark 任务提交 4 种方式 spark 任务提交的方式通常有 4 种：spark-shell、spark-sql 、Thriftserver 服务、spark-submit。 spark-shell spark-shell 是 Spark 自带的交互式 Shell 程序，方便用户进行交互式编程...

2023-04-22 ·#周更挑战 #Spark

Vol.18 Redis 学习笔记

基本介绍 - 定义 - 基于内存的分布式的NoSQL数据库 - 设计 - 所有数据存储在内存中 - 内存数据同步磁盘,实现持久化 - 功能 - 提供高性能高并发的数据存储, 对外提供读写 - 主要用于数据库存储、数据缓存和消息中间件 - 特点 - 1.基于C语言开发,读写更快 - 2.基于内存实现数...

2023-04-09 ·#周更挑战 #Redis

Vol.10 Spark核心工作原理小记

整理学习 Spark 相关知识的笔记，查缺补漏。不得不说整理的时候重新捡起了很多遗忘的知识，Scala 我也很久很久没有写了, 现在公司用的是 Pyspark ，后面也整理记录下 Pyspark 的相关笔记。 **Spark 组件的数据抽象和上下文对象** **SparkCore** - 数据抽象:...

2023-02-12 ·#周更挑战 #Spark

Vol.09 M1款 MacBookPro 搭建 JupyterLab 数据分析环境

Python 用于数据分析的优势我就不多赘述，虽然当前基本不写 Python，但是我经常需要阅读 Python 代码，看别人写的数据处理逻辑，所以开始进一步学习 Pyspark 相关的知识。Jupyter 应该是学习 Python 数据分析最佳的工具了，趁着刚刚安装完，记录下自己环境配置跟常用的工具...

2023-02-05 ·#周更挑战 #Spark #Python

Vol.09 M1款 MacBookPro 搭建 JupyterLab 数据分析环境

Apache Spark：分布式并行计算框架（三）

Spark on Hive > 面试题：`spark on hive和hive on spark`区别？？？？ > 典型**基于Spark和Hive离线数仓**架构技术图，简易版本： ``` 1、SparkSQL分析数据 2、Hive 管理元数据 | Spark on Hive 架构，离线数据仓库分...

2020-10-03 ·#Spark

Apache Spark：分布式并行计算框架（二）

1、Spark 有哪些优化第一、公共优化 > 1、序列化（`Serialization`） ``` Spark中默认序列化方式： Java 序列化（Java serialization）要求数据类型必须实现序列化接口Serializable，比如HBase数据库读取数据时，封装到Result 设...

2020-09-28 ·#Spark

Apache Spark：分布式并行计算框架（一）

0、前言说明整理和汇总一下 Spark 容易混淆的概念和理论。 1、Spark 框架概念 ``` Apache Spark™ is a unified analytics engine for large-scale data processing. 1、unified 统一 Spark 框架可以...

2020-09-22 ·#Spark