正文

第一章

从庞大的数据中提取出对数据库拥有者有价值的信息。
跨学科:统计学、数据库技术、机器学习、模式识别、人工智能、可视化技术
公用微观数据样本 public use microdata sample PUMS

数据挖掘活动的类型:

  1. 探索性数据分析 Exploratory Data Analysis, EDA
    对数据进行探索,对于要寻找什么并没有明确的想法。
  2. 描述建模 Descriptive Modeling
    描述数据的所有特征,将数据区隔、分组、聚类。
  3. 预测建模 Predictive Modeling
    分类和回归法。
    建立一个模型,允许我们根据一个已知的变量来预测其他某个变量值。
  4. 寻找模式和规则
    上面的三类都致力于建模,这个类型是致力于模式探测。
    比如欺诈探测,频繁出现的商品组合等。
    可以采用基于关联规则(associaion rule)的算法。
  5. 根据内容检索
    用户有一种感兴趣的模式,并希望在数据库中找到相似的模式。
    Google系统采用了称为“PageRank”的数学方法来基于连接模式估计各个网页的相对重要性。
    还比如基于图象颜色、纹理和相对位置信息这样的内容描述提出查询。


评分函数:用于对给定模型或模型所选择参数的效果进行量化,以评价一个模型。广泛使用以下几种:
似然 likelihood
误差平方和
错误分类率

当模型已经确定,往往还需要发现模型中的最佳参数值,以使评分函数达到最大值或最小值(依赖于具体情况),这个任务称为优化(或
估计)问题。

数据挖掘的称谓:
数据挖掘,打捞(dredging),探察(snooping),垂钓(fishing)。

第二章

数据挖掘的有效性与原始数据的质量密不可分。GIGO (Garbage In, Garbage Out),非常形象。
数据质量分为两个方面:个别字段和记录的质量;数据集合的总体质量。

第四章

描述不确定性(uncertainty)的词汇:

  • 概率 probability
  • 偶然性 chance
  • 随机性 randomness
  • 运气 luck
  • 意外 hazard
  • 天数 fate

随想: 数据挖掘 - 不确定性建模 - 根据已有数据对未来事件预测 - 根据已有知识作出判断(诊断)- 专家系统 - 人工智能

频率论观点 frequentist view
主观概率观点认为,概率是一个人对一个特定事件能否发生的确信程度。因此概率不是外部世界的客观属性,而是个人的一种内心状态——因此可能由于个体的不同而不同。

从主观概率观点(subjective probability)派生出的数据分析理论和方法经常被称为贝叶斯统计(Bayesian statistics)。

第五章

数据挖掘算法是一个定义完备的(well-defined)过程,它以数据作为输入并产生模型或模型形式的输出。

定义完备制的是这个过程可以被精确的编码为有限的规则。

数据挖掘算法概览:

  1. CART(Classification and regression Trees)
  2. 反向传播(Backpropagation)
  3. A Priori


 

参考资源

  • 《数据挖掘原理》-《Principles of Data Mining》 By David Hand, Heikki Mannila and Padhraic Smyth

  • 《数据挖掘实践》- 《DataMining Cookbook》By Olivia Parr Rud

Post a comment

mail.png


相似文章|Related Entries

最近更新|Recent Entries

不定期更新|Handy Entries

相似标签|Related Tags

分类栏目|Categories

按月归档|By Month

2008
01
2007
12
10
07
06
05
04
03
02
01
2006
12
11
10
09
08
07
06
05
04
03
02
01
2005
11
10
09
08
07
04
03
2004
12
11
10
09
08
07
06
05
04
03
02
01
2003
12
10
09
08
06
2002
09
08
04
03
02
2001
12
09
07
06
05

站内链接|Site Links

Powered by
Movable Type 3.34