> 本文由 chatGPT 生成,可能存在一定错误,请读者自行甄别。 Hive和ClickHouse都支持TTL(Time-To-Live)机制,可以帮助用户自动管理表的生命周期,包括数据的删除和归档等操作。下面将分别介绍Hive和ClickHouse的TTL机制。 Hive的TTL机制 在Hive...
分类: 日常工作
-
Vol.04 Hive / Spark 如何避免单节点全局排序?
最近因为经常对接模型算法,营销模型的一个应用场景是:按照模型打分取 TOPN 用户进行营销投放,由此就会产生一个全局排序的场景:**在用户量过亿的情况下,单点全局排序极其容易出现 OOM。**经历了几次线上事故之后,决心要彻底解决这个问题,跟同事请教了下,可以通过 **“加盐打散”** 来解决这个问...
-
Vol.03 数据开发当中如何验证数据结果准确性
前言说明 数据开发日常工作经常需要跟业务方核验数据,校验数据源、业务逻辑是否准确。这里的数据准确性跟 ETL 中的“精确一次性语义” 保证数据不丢失不重复不一样,说的是数据报表或者用户标签特征是否符合既定业务逻辑。 以我浅薄的经验来说,验证数据准确性主要从:明细数据逻辑验证、业务逻辑验证、白盒测试这...
-
Vol.02 推荐下今天发现的几个cheatsheet
今天发现了一个神奇的东西,名字叫 Cheat Sheet,就是各种语言工具的快捷键列表,这个对于我这样记不住各种东西的菜鸟帮助太大了,平时边用边记。 老年跟菜鸟的区别可能就是你对各种工具快捷键的熟悉程度。记录下常用的几个,纳入自己工作流当中。 - **Python 语言(有中文且也有其他工具语言的)...
-
开发环境准备
最近换了 M1 MBP,新电脑开发环境需要从头部署,汇总一下我开发环境常用的工具吧。 环境支持 - 资源下载 $1 $1 - 安装说明 $1 $1 开发工具 - IDEA ```sql -- 插件 Cosy Java Coding Atom Material Icons PDF Viewer Rai...
-
SQL中的行转列和列转行
MySQL 的行转列 ```sql case when + group by + max/sum 函数 ``` MySQL 的列转行 ```sql select 指定语句 + union 拼接即可 union 去重 union all 不去重 FLink 中 union 不去重,相当于 SQL中的 ...
-
WordCount案例汇总
前言说明 整理一下曾经学习技术栈练习过的 WordCount 案例,总之很多计算引擎的样例都是 WordCount 经典永不过时,使用的很多函数和方法也是常用的。 MapReduce MapTask ```java package com.test; import org.apache.hadoop...
-
管理配置文件的工具:Commons Configuration
一般读取配置文件,或者说集群环境传参的方式有如下几种: 1、Main 程序留出参数入口,通过 args 接收参数,运行 jar 的时候传入参数 2、将配置文件放入 resources ,通过类加载器获取参数文件,或者创建专门工具类读取resources 中的配置文件信息 这两种方法各有优缺点,第一种...
-
更好的日志框架:logback
基本介绍 Logback 是由 log4j 创始人设计的另一个开源日志组件 官方网站: $1 它分为下面下个模块: - logback-core:其它两个模块的基础模块 - logback-classic:它是 log4j 的一个改良版本,同时它完整实现了 slf4j API使你可以很方便地更换成其...