正文
第一章
从庞大的数据中提取出对数据库拥有者有价值的信息。
跨学科:统计学、数据库技术、机器学习、模式识别、人工智能、可视化技术
公用微观数据样本 public use microdata sample PUMS
数据挖掘活动的类型:
- 探索性数据分析 Exploratory Data Analysis, EDA
对数据进行探索,对于要寻找什么并没有明确的想法。 - 描述建模 Descriptive Modeling
描述数据的所有特征,将数据区隔、分组、聚类。 - 预测建模 Predictive Modeling
分类和回归法。
建立一个模型,允许我们根据一个已知的变量来预测其他某个变量值。 - 寻找模式和规则
上面的三类都致力于建模,这个类型是致力于模式探测。
比如欺诈探测,频繁出现的商品组合等。
可以采用基于关联规则(associaion rule)的算法。 - 根据内容检索
用户有一种感兴趣的模式,并希望在数据库中找到相似的模式。
Google系统采用了称为“PageRank”的数学方法来基于连接模式估计各个网页的相对重要性。
还比如基于图象颜色、纹理和相对位置信息这样的内容描述提出查询。
评分函数:用于对给定模型或模型所选择参数的效果进行量化,以评价一个模型。广泛使用以下几种:
似然 likelihood
误差平方和
错误分类率
当模型已经确定,往往还需要发现模型中的最佳参数值,以使评分函数达到最大值或最小值(依赖于具体情况),这个任务称为优化(或
估计)问题。
数据挖掘的称谓:
数据挖掘,打捞(dredging),探察(snooping),垂钓(fishing)。
第二章
数据挖掘的有效性与原始数据的质量密不可分。GIGO (Garbage In, Garbage Out),非常形象。
数据质量分为两个方面:个别字段和记录的质量;数据集合的总体质量。
第四章
描述不确定性(uncertainty)的词汇:
- 概率 probability
- 偶然性 chance
- 随机性 randomness
- 运气 luck
- 意外 hazard
- 天数 fate
随想: 数据挖掘 - 不确定性建模 - 根据已有数据对未来事件预测 - 根据已有知识作出判断(诊断)- 专家系统 - 人工智能
频率论观点 frequentist view
主观概率观点认为,概率是一个人对一个特定事件能否发生的确信程度。因此概率不是外部世界的客观属性,而是个人的一种内心状态——因此可能由于个体的不同而不同。
从主观概率观点(subjective probability)派生出的数据分析理论和方法经常被称为贝叶斯统计(Bayesian statistics)。
第五章
数据挖掘算法是一个定义完备的(well-defined)过程,它以数据作为输入并产生模型或模型形式的输出。
定义完备制的是这个过程可以被精确的编码为有限的规则。
数据挖掘算法概览:
- CART(Classification and regression Trees)
- 反向传播(Backpropagation)
- A Priori
参考资源
-
《数据挖掘原理》-《Principles of Data Mining》 By David Hand, Heikki Mannila and Padhraic Smyth
-
《数据挖掘实践》- 《DataMining Cookbook》By Olivia Parr Rud


