登陆注册
57953100000027

第27章 >12 机器学习 学习笔记(一)

第一章绪论

1.1 引言

机器学习所研究的主要内容:关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm).

【学习算法:通过处理数据产生模型的算法】

有了学习算法,我们给它经验数据,它就能基于这些数据产生模型;在面对新情况时(例如看到一个没剖开的西瓜),模型会提供一个相应的判断(例如好瓜).

如果说计算机科学研究关于“算法”的学问,那么机器学习就是研究关于“学习算法”的学问。

本书“模型”泛指从数据中学得的结果.

1.2 基本术语

要进行机器学习,先要有数据.假定我们收集了一批关于西瓜的数据。如下:

(色泽=青绿;根蒂=蜷缩;鼓声=浊响),

(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),

(色泽=浅白;根蒂=硬挺;敲声=清脆)

每对括号内是一条记录,“=”意思是“取值为”.

这组记录的集合称为一个“数据集”(data set),其中每条记录是关于一个事件或对象(这里是一个西瓜)的描述,称为一个“示例”(instance)或“样本”(sample).

反映事件或对象在某方面的表现或性质的事项,例如“色泽’“根蒂”“敲声”,称为“属性”(attribute)或“特征”(feature);属性上的取值,例如“青绿”“乌黑”,称为“属性值”(attribute value).

属性张成的空间称为“属性空间”(attribute space)、“样本空间”(sample space)或“输入空间”.

例如我们把“色泽”“根蒂”“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置.由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为个“特征向量”(feature vector).

【这部分很容易理解,数学中有相关的基础】

一般地,令D={x?,x?,…,xm},表示包含m个示例的数据集,

每个示例由d个属性描述(如上面的西瓜数据使用了3个属性),

则每个示例xi=(xi?;xi?;…;xid)是d维样本空间x中的一个向量,

xi∈χ,其中xij是xi在第j个属性上的取值(例如上述第3个西瓜在第2个属性上的值是“硬挺“),

d称为样本xi的“维数”(dimensionality).

从数据中学得模型的过程称为“学习”(learning)或“训练”(training),这个过程通过执行某个学习算法来完成,

训练过程中使用的数据称为“训练数据”(training data),

其中每个样本称为一个“训练样本”(training sample),

训练样本组成的集合称为“训练集”(training set).

学得模型对应了关于数据的某种潜在的规律,因此亦称“假设”(hypothesis);

这种潜在规律自身,则称为“真相”或“真实”(ground-truth),学习过程就是为了找出或逼近真相.

本书有时将模型称为“学习器””(learner),可看作学习算法在给定数据和参数空间上的实例化.

【这些都很自然,也很好理解,对数据进行规律化数据化,所列举的数据可以用二维数组表示】

若想预测是否为好瓜前面的数据不够,还需要“结果”信息。例如:

((色泽=青绿;根蒂=蜷缩;鼓声=浊响),好瓜)

这里关于示例结果的信息,“好瓜”,称为“标记”(label),拥有标记信息的示例,则称为“样例”(example).

一般地,用(xi,yi)表示第i个样例,xi是d维向量,其中yi∈Υ是示例xi的标记,Υ是所有标记的集合,亦称“标记空间”(label space)或“输出空间”.

【线代的矩阵和增广矩阵】

若欲预测的是离散值,例如“好瓜”“坏瓜”,此类学习任务称为“分类”(classification)

若是连续值,例如西瓜成熟度0.95、0.37,称为“回归”(regression)

对只涉及两个类别的“二分类”(binary classification)任务,通常一个称“正类”(positive class),另一个称“反类”(negative class)

涉及多个类别,称“多分类”(multi-class classification)任务

一般地,预测任务是建立一个从输入空间到输出空间的映射.

“测试”(testing)

【千里之行始于足下,虽然这里介绍都还是简单的知识,但也有新的感悟。毕竟人类是擅长吃冷饭的。】

我们还可以对西瓜做“聚类”(clustering),即将训练集中的西瓜分成若干组,每组称为一个“簇”(cluster);

这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜”“深色瓜”,甚至“本地瓜”“外地瓜”.

这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础.

需说明的是,在聚类学习中,“浅色瓜”“本地瓜”这样的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息.

【这里我有一些不明白的地方,如何分组?】

根据有无标记信息,学习任务可大致分为“监督学习”(supervised learning)和“无监督学习”(unsupervised learning).

分类和回归是前者的代表,聚类是后者的代表.

学得模型适用于新样本的能力称为“泛化”(generalization)能力

1.3 假设空间

归纳(induction)与演绎(deduction)是科学推理两大基本手段。“从样例中学习”显然是一个归纳过程,因此亦称“归纳学习”(inductive learning).

归纳学习有狭义与广义之分,广义大体相当于从样例中学习,狭义则要求从训练数据中学得概念(concept),因此亦称“概念学习”或“概念形成”.

目前研究、应用都比较少,好的太困难。现实常用技术大多是产生“黑箱”模型.

概念学习中最基本的是布尔概念学习。

Ho Y C, Pepyne D L. Simple Explanation of the No-Free-Lunch Theorem and Its Implications[J]. Journal of Optimization Theory & Applications, 2002, 115(3):549-570.

No Free Lunch Theorem“没有免费的午餐”定理。NFL定理。

【lay了,睡下午觉了。】

同类推荐
  • 三条半腿之爱

    三条半腿之爱

    一种病,两个人,三条半的腿,四季说不完的话,五味杂陈的体验,六亲相处的经历,七嘴八舌的邻居,九死不悔的爱情,十全十美的人生。
  • 懒人有解

    懒人有解

    讲述了六位年轻人在卖场上班的欢乐轻松惬意诙谐的生活。但是2000块钱的工资让平淡的生活捉襟见肘,想安心的做个废物看来是不可能了,,,,,
  • 总裁的绝世奇恋

    总裁的绝世奇恋

    豪门智慧、年轻、冷漠、帅气的总裁和山村奇女子的异地离奇爱情故事!从不可思议的相遇开始,到浪漫爱情的发展,到意想不到的结局,一直会给大家带来满满的惊喜!
  • 终于还是失去了你

    终于还是失去了你

    是否还能够再看你一眼,墨轩……要是早知道会是这种结果,我就不骗你了。绫,霖墨轩就真的值得你这样吗?你为什么就爱上他了,是不是我不杀他,你就不会死了?
  • 在我三十五岁之后的日子

    在我三十五岁之后的日子

    平凡的生活,也是充满了感动无奈,甚至还有启发,每个人都是孤独的,文字就是自己的镜子。
热门推荐
  • 剑侠仙典

    剑侠仙典

    我尊天道,剑法自然。仗剑天涯,笑傲仙途。
  • 无泪

    无泪

    不会写简介!!!!喜欢的点个赞,不喜欢的勿喷哦!!!
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 王老板的穿越之旅

    王老板的穿越之旅

    集齐6颗世界之心,就可以回家了!富贵不归故里,犹如锦衣夜行,所以这是一个人努力回家的故事。但是……“陛下三思,请看在万民面上,不要舍吾等而去!”“舰长不要走,还有好多崩坏要我们一起去讨伐啊!”“老师,学生们还有许多问题要向您请教!”“master……”“神灵大人……”“圣天子……”别担心,离别不过是暂时的,是为了更好的相遇而已。那么,故事在继续着……
  • 天地榜首

    天地榜首

    天地生道体,为我中榜首,乾坤重开日,榜首登顶时。
  • 1628南海黎明

    1628南海黎明

    四个退伍兵聚会时无意间发现了一个穿越蛋,并确定穿越过去后的时间是明朝末年时期,随即开始收集资源和召集有意穿越的人员,开发明末这个新世界。
  • 婚恋要懂心理学

    婚恋要懂心理学

    婚恋心理学是心理学的一门应用分支学科。恋爱结婚是每一位成年人,尤其是青年男女关心的大事。而婚恋问题不仅与社会、经济、意识形态等问题有关,还与一个人的生理、心理等问题有关。婚恋心理学涉及恋爱、结婚、性行为、夫妻关系、与父母子女的关系、家庭幸福的条件以及离婚等等的心理、生理问题。研究与正确处理这些问题,不仅与社会的安定和发展有密切关系,而且对每一位成年人(尤其是青年男女)身心的健康,是否能够具有良好的人际关系以及家庭幸福,都具有极其重要的现实意义。
  • 遇见你最美的年华

    遇见你最美的年华

    玩世不恭的总裁碰到萌系的天才设计师,会迸发出怎样的爱情火花呢?且看谢辰凌如何智斗慕晓钒!
  • 灵介者

    灵介者

    两个相碰的宇宙,在之间诞生的空间,会产生什么呢?
  • 懒姬

    懒姬

    举世无双很多种诠释。比如:白均瑶的美;比如:白苏玄的懒。深藏不露也有很多表现形式。比如:宁卿看似温文尔雅的笑容;比如:迟夜目空一切的心高气傲;比如:……白苏玄一如既往的懒。