November 19, 2021
文章标签
https://www.microsoft.com/en-us/research/uploads/prod/2019/05/QuickInsights-camera-ready-final.pdf
本文是阅读微软 QuickInsight 论文的笔记(翻译),在此基础上, 会进行一些相关延伸。按照论文原文的行文思路组织本文的结构。
原文信息:
Rui Ding, Shi Han, Yong Xu, Haidong Zhang, and Dongmei Zhang. 2019. QuickInsights: Quick and Automatic Discovery of Insights from MultiDimensional Data. In Proceedings of ACM SIGMOD conference (SIGMOD’19), 15 pages. https://doi.org/10.1145/3299869.3314037
文中说的洞察(insight)是什么?
把有意思的数据模式(interesting pattern)统一叫做洞察。pattern 可以指相关性(correlation)、趋势(trend)、异常(anomaly)等
传统的可视化、探索式的数据分析可以用来发现 interesting pattern
为了加快数据的探索分析,可以将自动的 interesting pattern 推荐与可视化分析工具结合
Gartner 把自动模式检测(automated pattern detection)作为下一代 BI 分析平台的重要能力
interesting pattern 自动探索的难点
QuickInsights 解决了上述的难题
具体来说
QuickInsights 遇到的两个挑战
质量挑战(Quality challenge)
尽量避免容易推断的洞察(Easily Inferable Insights, EII)。由于 EII 肉见可见,仅能提供很少的信息,所以对用户来说不是那么有趣。因此需要高效检测并剔除无效低质量洞察。
效率挑战(Efficiency challenge)
如何应对挑战
质量挑战
EII 通常是因为数据集中内部维度依赖导致的。所以,对洞察主题(insight subjects)实施功能性依赖(functional dependency)检测,并通过高效的算法检测并排除功能性依赖导致的 EII
效率挑战
在洞察评估任务中,通过“最佳优先”(best-first)策略对任务划分优先级
在有限的时间窗口内,在真正评估各个洞察前,对预估任务的分数,分数高的任务运行的优先级更高
数据查询时智能批处理,合并数据请求,充分利用关联查询场景下的空间局部性,减少数据查询的次数
论文创新点