第27章＞12 机器学习学习笔记（一）

书签收藏评论目录封面

第一章绪论

1.1 引言

机器学习所研究的主要内容：关于在计算机上从数据中产生“模型”（model）的算法，即“学习算法”（learning algorithm）.

【学习算法：通过处理数据产生模型的算法】

有了学习算法，我们给它经验数据，它就能基于这些数据产生模型；在面对新情况时（例如看到一个没剖开的西瓜），模型会提供一个相应的判断（例如好瓜）.

如果说计算机科学研究关于“算法”的学问，那么机器学习就是研究关于“学习算法”的学问。

本书“模型”泛指从数据中学得的结果.

1.2 基本术语

要进行机器学习，先要有数据.假定我们收集了一批关于西瓜的数据。如下：

(色泽＝青绿;根蒂＝蜷缩;鼓声＝浊响)，

(色泽＝乌黑;根蒂＝稍蜷;敲声＝沉闷)，

(色泽＝浅白;根蒂＝硬挺;敲声＝清脆)

每对括号内是一条记录，“＝”意思是“取值为”.

这组记录的集合称为一个“数据集”(data set)，其中每条记录是关于一个事件或对象(这里是一个西瓜)的描述，称为一个“示例”(instance)或“样本”(sample).

反映事件或对象在某方面的表现或性质的事项，例如“色泽’“根蒂”“敲声”，称为“属性”(attribute)或“特征”(feature);属性上的取值，例如“青绿”“乌黑”，称为“属性值”(attribute value).

属性张成的空间称为“属性空间”(attribute space)、“样本空间”(sample space)或“输入空间”.

例如我们把“色泽”“根蒂”“敲声”作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置.由于空间中的每个点对应一个坐标向量，因此我们也把一个示例称为个“特征向量”(feature vector).

【这部分很容易理解，数学中有相关的基础】

一般地，令D=｛x?，x?，…，xm｝，表示包含m个示例的数据集，

每个示例由d个属性描述(如上面的西瓜数据使用了3个属性)，

则每个示例xi=（xi?；xi?；…；xid）是d维样本空间x中的一个向量，

xi∈χ，其中xij是xi在第j个属性上的取值(例如上述第3个西瓜在第2个属性上的值是“硬挺“)，

d称为样本xi的“维数”(dimensionality).

从数据中学得模型的过程称为“学习”(learning)或“训练”(training)，这个过程通过执行某个学习算法来完成，

训练过程中使用的数据称为“训练数据”(training data)，

其中每个样本称为一个“训练样本”(training sample)，

训练样本组成的集合称为“训练集”(training set).

学得模型对应了关于数据的某种潜在的规律，因此亦称“假设”(hypothesis);

这种潜在规律自身，则称为“真相”或“真实”(ground-truth)，学习过程就是为了找出或逼近真相.

本书有时将模型称为“学习器””(learner)，可看作学习算法在给定数据和参数空间上的实例化.

【这些都很自然，也很好理解，对数据进行规律化数据化，所列举的数据可以用二维数组表示】

若想预测是否为好瓜前面的数据不够，还需要“结果”信息。例如：

（（色泽＝青绿;根蒂＝蜷缩;鼓声＝浊响），好瓜）

这里关于示例结果的信息，“好瓜”，称为“标记”（label），拥有标记信息的示例，则称为“样例”（example）.

一般地，用（xi，yi）表示第i个样例，xi是d维向量，其中yi∈Υ是示例xi的标记，Υ是所有标记的集合，亦称“标记空间”（label space）或“输出空间”.

【线代的矩阵和增广矩阵】

若欲预测的是离散值，例如“好瓜”“坏瓜”，此类学习任务称为“分类”（classification）

若是连续值，例如西瓜成熟度0.95、0.37，称为“回归”（regression）

对只涉及两个类别的“二分类”（binary classification）任务，通常一个称“正类”（positive class），另一个称“反类”（negative class）

涉及多个类别，称“多分类”（multi-class classification）任务

一般地，预测任务是建立一个从输入空间到输出空间的映射.

“测试”（testing）

【千里之行始于足下，虽然这里介绍都还是简单的知识，但也有新的感悟。毕竟人类是擅长吃冷饭的。】

我们还可以对西瓜做“聚类”(clustering)，即将训练集中的西瓜分成若干组，每组称为一个“簇”(cluster);

这些自动形成的簇可能对应一些潜在的概念划分，例如“浅色瓜”“深色瓜”，甚至“本地瓜”“外地瓜”.

这样的学习过程有助于我们了解数据内在的规律，能为更深入地分析数据建立基础.

需说明的是，在聚类学习中，“浅色瓜”“本地瓜”这样的概念我们事先是不知道的，而且学习过程中使用的训练样本通常不拥有标记信息.

【这里我有一些不明白的地方，如何分组？】

根据有无标记信息，学习任务可大致分为“监督学习”（supervised learning）和“无监督学习”（unsupervised learning）.

分类和回归是前者的代表，聚类是后者的代表.

学得模型适用于新样本的能力称为“泛化”（generalization）能力

1.3 假设空间

归纳（induction）与演绎（deduction）是科学推理两大基本手段。“从样例中学习”显然是一个归纳过程，因此亦称“归纳学习”（inductive learning）.

归纳学习有狭义与广义之分，广义大体相当于从样例中学习，狭义则要求从训练数据中学得概念（concept），因此亦称“概念学习”或“概念形成”.

目前研究、应用都比较少，好的太困难。现实常用技术大多是产生“黑箱”模型.

概念学习中最基本的是布尔概念学习。

Ho Y C， Pepyne D L. Simple Explanation of the No-Free-Lunch Theorem and Its Implications[J]. Journal of Optimization Theory & Applications， 2002， 115(3):549-570.

No Free Lunch Theorem“没有免费的午餐”定理。NFL定理。

【lay了，睡下午觉了。】

第27章＞12 机器学习学习笔记（一）

三条半腿之爱

懒人有解

总裁的绝世奇恋

终于还是失去了你

在我三十五岁之后的日子

剑侠仙典

无泪

天行

王老板的穿越之旅

天地榜首

1628南海黎明

婚恋要懂心理学

遇见你最美的年华

灵介者

懒姬

第27章 ＞12 机器学习 学习笔记（一）

第27章＞12 机器学习学习笔记（一）