mining of massive datasets

发表于 2022/04/20 更新于 2022/10/21

作者 Song Zhou

2 分钟阅读

1.1 什么是数据挖掘

总结数据
- 比如谷歌的网页排名
- 比如数据聚合的思想（水井伦敦霍乱）
提取数据的主要特征
- frequent itemset 频繁项集（购物篮问题寻找购物篮中经常出现的商品组合）
- similarity item 相似项（比如亚马逊商店，将商品推荐给相似的顾客）

total information awareness

收集各种信息，分析预防恐怖分子，后因隐私问题被终止。

数据量大时，会出现一些不寻常的特征看起来很重要，但并不。

Bonferroni principal 在一些随机产生的数据中，很难找到想要的结果。比如从一堆随机数据中分析找到一些恐怖分子。可能得到的是许多根本不是恐怖分子的结果。

N篇文章，判断词的重要性。TF-IDF Term Frequency times Inverse Document Frequency

计算方式如下：

\[TF_{ij}=\frac{f_{ij}}{max_kf_{kj}}\] \[IDF_i=log_2(N/n_i)\]

$TF_{ij}$ 表示第

\[x_{n}-x_{n-1}=\frac{1}{2}(a_{n}+b_{n})-\frac{1}{2}(a_{n-1}+b_{n-1})\]

big_data

big data misc

本文由作者按照 CC BY 4.0 进行授权