spark 任务提交 4 种方式 spark 任务提交的方式通常有 4 种:spark-shell、spark-sql 、Thriftserver 服务、spark-submit。 spark-shell spark-shell 是 Spark 自带的交互式 Shell 程序,方便用户进行交互式编程...
标签: Spark
-
Vol.10 Spark核心工作原理小记
整理学习 Spark 相关知识的笔记,查缺补漏。不得不说整理的时候重新捡起了很多遗忘的知识,Scala 我也很久很久没有写了, 现在公司用的是 Pyspark ,后面也整理记录下 Pyspark 的相关笔记。 **Spark 组件的数据抽象和上下文对象** **SparkCore** - 数据抽象:...
-
Vol.09 M1款 MacBookPro 搭建 JupyterLab 数据分析环境
Python 用于数据分析的优势我就不多赘述,虽然当前基本不写 Python,但是我经常需要阅读 Python 代码,看别人写的数据处理逻辑,所以开始进一步学习 Pyspark 相关的知识。Jupyter 应该是学习 Python 数据分析最佳的工具了,趁着刚刚安装完,记录下自己环境配置跟常用的工具...
-
Vol.04 Hive / Spark 如何避免单节点全局排序?
最近因为经常对接模型算法,营销模型的一个应用场景是:按照模型打分取 TOPN 用户进行营销投放,由此就会产生一个全局排序的场景:**在用户量过亿的情况下,单点全局排序极其容易出现 OOM。**经历了几次线上事故之后,决心要彻底解决这个问题,跟同事请教了下,可以通过 **“加盐打散”** 来解决这个问...
-
Vol.03 数据开发当中如何验证数据结果准确性
前言说明 数据开发日常工作经常需要跟业务方核验数据,校验数据源、业务逻辑是否准确。这里的数据准确性跟 ETL 中的“精确一次性语义” 保证数据不丢失不重复不一样,说的是数据报表或者用户标签特征是否符合既定业务逻辑。 以我浅薄的经验来说,验证数据准确性主要从:明细数据逻辑验证、业务逻辑验证、白盒测试这...
-
SQLBoy日常工作技巧
入职新工作三周了,虽然还处理 SQLBoy 阶段,但是学习到了非常多小技巧,有必要记录一下,持续更新,避免遗忘。 - 规范需求记录,脚本备份,文档归类,代码片段,数字字典 - 封装公共参数和大数据脚本执行参数到脚本当中,执行脚本只需要引入变量 - 每一种 SQL 脚本方式封装一个方法,固定脚本执行格...
-
WordCount案例汇总
前言说明 整理一下曾经学习技术栈练习过的 WordCount 案例,总之很多计算引擎的样例都是 WordCount 经典永不过时,使用的很多函数和方法也是常用的。 MapReduce MapTask ```java package com.test; import org.apache.hadoop...
-
更好的日志框架:logback
基本介绍 Logback 是由 log4j 创始人设计的另一个开源日志组件 官方网站: $1 它分为下面下个模块: - logback-core:其它两个模块的基础模块 - logback-classic:它是 log4j 的一个改良版本,同时它完整实现了 slf4j API使你可以很方便地更换成其...
-
Apache Spark:分布式并行计算框架(三)
Spark on Hive > 面试题:`spark on hive和hive on spark`区别???? > 典型**基于Spark和Hive离线数仓**架构技术图,简易版本: ``` 1、SparkSQL分析数据 2、Hive 管理元数据 | Spark on Hive 架构,离线数据仓库分...
-
Apache Spark:分布式并行计算框架(二)
1、Spark 有哪些优化 第一、公共优化 > 1、序列化(`Serialization`) ``` Spark中默认序列化方式: Java 序列化(Java serialization) 要求数据类型必须实现序列化接口Serializable,比如HBase数据库读取数据时,封装到Result 设...
-
Apache Spark:分布式并行计算框架(一)
0、前言说明 整理和汇总一下 Spark 容易混淆的概念和理论。 1、Spark 框架概念 ``` Apache Spark™ is a unified analytics engine for large-scale data processing. 1、unified 统一 Spark 框架可以...
-
大数据常用脚本
一键启动 一键启动常用服务 ```bash #!/bin/bash if [ ! $1 ] then echo "please input [start|stop]" exit 1 fi #start hadoop echo " ----------- $1 dfs ------------ " s...
-
大数据常用命令
MySQL ```sql 启动 service mysqld start systemctl start mysql[d] 关闭 service mysqld stop #设置mysql开机启动 chkconfig mysqld on ``` Hadoop ```bash 全局组件启动与停止 sta...