Cardinality estimate-基数估计中基于直方图（Histogram）和采样（Sampling）的方法|电子爱好者

admin管理员组
文章数量:1660165

一、背景介绍
数据库优化器最重要的一个内容就是计算cardinality，因为cost model是要通过cardinality来的最后的cost的（当然很多cost model不好，就算cardinality准确，得到的cost也是错误的，这个在另外的专题再去讨论）。Cardinality是什么：给定predicate，满足这个predicate的tuple数量，predicate里包括查询条件和join。

传统计算cardinality方法是基于histogram，下面简单介绍一下什么是histogram。数据库的histogram一般是基于列的统计，也就是说每一列都有一个histogram。如下图1是列f的histogram，列f一共有14个唯一值0~14（注意，10是没有的），平均分为了5个区间（每个区间称之为bin）[0,2]，[3,5]，[6,8]，[9,11]，[12,14]。每个区间对应了#records，即这个区间有多少个records，在每个区间内的分布为均匀分布。

图1 列f的histogram
如果我们要计算predicate(f=1)的cardinality，那么在histogram查一下f=1对应的bin平均包含了3条记录，则输出cardinality为3；如果计算predicate(f=12)的cardinality，定位到第5个bin，平均包含5个record，则输出cardinality为5，而实际为2，这个就是histogram的误差。

二、Sampling方法
本文是要介绍sampling计算cardinality，那么具体怎么做呢？简单的方法就是在f列上随机sample 100个记录，看一下符合predicate有几个，假如有4个，那么符合predicate的概率为4/100，而f一共包含了1,000,000条记录，那么cardinality的结果为4/100*1,000,000=40000。

上面是单表（不包含join）的情况算起来很简单，实际上sampling主要用来处理有join的cardinality的估计，也就是去算join size的大小。比如先在A表上sample 100个records，B表上也sample 100个records，再针对sample结果做join，符合join条件的有4个records，即比率为4/100，那么A表1,000,000大小（假设B表也100万大小）情况下，join size为40000。

本文标签：直方图基数方法 estimate cardinality

版权声明：本文标题：Cardinality estimate-基数估计中基于直方图（Histogram）和采样（Sampling）的方法内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1729849791a1215260.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Cardinality estimate-基数估计中基于直方图（Histogram）和采样（Sampling）的方法

更多相关文章

bios sgx需要开启吗_惠普HP笔记本预装win8改装成win7系统BIOS设置与安装方法

各浏览器中用iframe覆盖flash的方法，以及不能覆盖的情况

python 删除文件、清空目录的方法总结

ESTIMATE包计算肿瘤纯度

java的splititeration,Java Spliterator.estimateSize方法代碼示例

rviz导航——2D Pose estimate

estimate, underestimate and overestimate

【光流】——GMA:Learning to Estimate Hidden Motions with Global Motion Aggregation论文浅读

estimate()==＞从一组对应的点估算变换是否成功

(3D-HPE)Learning to Estimate 3D Human Pose and Shape from a Single Color Image

预测误差的自助法估计(Bootstrap estimate of prediction error)

No way to disable datapump estimate？

postgresql Count estimate

how to estimate the size of object

人体姿态估计（human pose estimate）

【mathematical statistics】2 point estimate

数学建模专栏 | 第三篇：MATLAB数据建模方法(上) —常用方法

python 实现用蒙特卡洛方法计算圆周率PI算法

天地伟业监控视频丢失恢复方法

联想小新window更新导致的Bitlocker恢复方法

发表评论

推荐文章

最新Ghost系统封装教程及封装工具原理

电脑加载,电脑加载慢又卡怎么办

一文看懂网卡驱动原理及移植方法

OCR文字识别，PDF格式转换

如何重装win7旗舰版系统(怎么重装win7旗舰版系统)

热门文章

软件测试（从练气境到陆地仙人）

解决手机邮箱登录学生邮箱时服务器无法连接的问题

Conservative Q-Learning for Offline Reinforcement Learning论文解读CQL

2022年第七届全国学生“学宪法 讲宪法”活动习题及答案

IBM X3650M3 M4网卡驱动

[Win10] [C# Desktop] Deskband 测试，可以实现鲁大师等任务栏嵌入窗口效果

电脑技巧：电脑系统盘文件清理指南

机器学习20：Transfer learning 迁移学习

html5兼容所以浏览器视频播放

huggingface笔记： accelerate estimate-memory 命令

最新文章

三星U盘格式化后数据不见了？3个方法帮您找回珍贵文件

格式化后数据恢复全解析

华恒2410常见问题

Windows Mobile平台智能系统存储器ROM和RAM解释

移动硬盘加密

联想e480一键恢复小孔_联想自带一键恢复没用了怎么处理

如何恢复U盘里格式化数据？别慌，有带图详细步骤！

ubuntu2

转载：基于AT91RM9200与LINUX2.6.26内核的嵌入式平台开发全过程

ArchLinux 2009.08 硬盘安装

u盘格式化后数据能恢复吗？这四款工具别错过！

u盘快速格式化后怎么恢复文件：深入解析与全面指南

授之以鱼不如授之以渔！五分钟教会您手工查杀***！

|--------硬件故障专题--------| 主板.CPU.硬盘.内存.显卡.声卡

s3c2410 一些移植常见问题

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

2022年第七届全国学生“学宪法讲宪法”活动习题及答案

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载