——————————————
2021年10月18日,周一。
上午思政课。
点名举手答到才能下课放学走人,这套点名体系我愿称之为绝杀。思政作业又是写断手的一天。
下午焦藏藏仍然在马负乘位置。马涛日常学习。
马飞下午去医院检查腰上的淤伤。皮下软组织增生,就是上次打篮球被那个人的肘子戳了。倒是没啥大问题,但是要等很久自愈,但是不戳它倒也不痛了。
晚上马涛和焦藏藏去北边拿快递顺便吃饭,碰上了小芳和他朋友。
小武喊人帮忙搬快递小芳都不积极了,或为转折点。
晚上马飞马涛阿龙焦藏藏一起回去。
.
.
.
.
——————————————
2021年10月19日,周二。
上午是英语课。下午是数学课。当然,硕士生课程都有其名字,但焦藏藏就是叫英语、数学课。前几周按照焦藏藏制定的自己的培养方案,只开四门课程,思政课《新时代中……》,英语课《硕士生英语》,数学课《矩阵分析》,专业必修《机器学习》。马飞今天倒是一整天,上午下午晚上一天的课。
英语课讲到大数字的念法,有个小环节请个同学挑两位同学听写三个大数字,那个同学选的是第一排的胡qr,他直接点了室友焦藏藏上去,另一个是实验室小伙伴。
焦藏藏第一个数字听写直接节目效果拉满,自带喜感。
……
下午到晚上焦藏藏在准备机器学习课程展示,结果准备不完,然后晚上回寝室用电脑电量继续肝,肝到第二天凌晨两点半电脑没电,然后早上六点又起来继续搞到八点上课前。
午餐是马涛和焦藏藏去北苑吃的。马飞在后面被落下了,打电话发消息骂老焦。
下午午休后焦藏藏自然去马负乘座位准备机器学习展示。
晚餐马飞马涛和焦藏藏去南苑吃面,然后马涛配钥匙。
回实验室学习之前马飞马涛老焦在楼梯大中庭继续聊天。
晚自习很多人有那个“一面旗帜”任务,小武下去给大一讲课就拉着戴文马涛老焦一起。
晚上实验室侯阿龙他们项目好像要通宵,焦藏藏搞不完准备一起在实验室通宵,结果最后他们去公司还是怎么就没通宵,焦藏藏就只能回寝室了。
马飞马涛等焦藏藏,马飞直接又生气气了。本来英语课马飞就觉得被搞了。虽然好像是马涛和焦藏藏想要忠言,可惜逆耳。
.
.
.
.
——————————————
2021年10月20日,周三。雨。
上午机器学习。
焦藏藏上的时候,全场节奏直接带起来。
妈的焦藏藏能讲他喵一个小时。
“他好像真的想让我们明白。”有人在课下尿尿时说。
“多亏了他,我们组今天不用讲了,我们PPT都没做好。”
“雀食讲的牛逼。”
“诶?这不就是吗?”一个人看见了焦藏藏,“对了,哥们儿,你叫什么名字?”
“我叫焦藏藏。”焦藏藏这样说着。
“牛逼啊!”
“我只是准备久了一点。”焦藏藏谦虚。
“下一次要是你在我们组那岂不是带飞?”
.
回到位置,一圈马飞马涛阿龙阿正小武惊叹,甚至马飞开玩笑说后面的女生想认识一下你。
群里面也是一阵爆炸惊叹。
【小武同学】请把老焦牛逼
【小武同学】打在公屏上
【小武同学】“这里我就不点人翻译了“
到后面已经工作的小义都知道焦藏藏这事了:
【小义】老焦牛啊
【小义】没有对手了
【小义】以后老焦是我的榜样
【小义】两个月不到考上研究生
【小义】在学校里摘星揽月
【小义】i了i了
……
关于老焦展示的梗:
“他们俩做了ppt,但我想用自己的PPT!。”
“这里就不找同学翻译了。”
“虽然老师不让我推导。”
“有问题吗?我感觉前面讲的很清楚了。没有问题我溜了。”
……
阿正分享他实验室群聊关于焦藏藏的部分:
【王jq】这讲ppt的老哥真厉害啊
【王jq】我被他人格魅力迷住了
【田y】多厉害
【群主阿正】牛批吧
【田y】那你不得起来问他几个问题
【群主阿正】焦藏藏
……
研究生这两个月的“低保”发到银行卡了。马飞们欢庆!虽然每个月就600块,但是就是开心。
.
群聊早已是跨时间聊天了。
.
虽然焦藏藏说下午去网吧,但其实没有去。晚上八点睡到了十点半。焦藏藏心里奇怪怎么定时器没响,原来是没按开始。
马飞有组会。
小芳说下午的机器学习也有个老焦,讲了很久,逼得老师规定每组讲15分钟。
焦藏藏今天跳绳到了,结果下雨马飞马涛都没被老焦喊动。
马飞在七年群里发帮点信息结果半个小时没人有消息,气的马飞直接转让群主给焦藏藏。然后高情商小伙儿阿龙出场。
马涛分享LOL手游盲僧精彩操作,感叹“钢琴家”。
小芳“反智杠精”属性仍然长期存在。
马飞似乎心态护盾增强了许多,但对于搞心态和忠言逆耳有时候会模糊不清以至于破防。
盛学妹是最近搞马飞心态的优秀密码。
.
阴雨让人低沉。
大概马负乘回来的时候就是好天气了。结果说马负乘一个星期可能都出差回不来。BJ三环内生活水平很高,他每天都是贴钱活着。
.
.
.
.
下面给大家分享一下焦藏藏的稿子文字部分,虽然讲的时候也没咋按照稿子讲,只能说作了个参考。(下面的部分建议略过不看)
.
.
【ppt第一面】
老师同学们上午好,我是这一组的主讲人焦藏藏,另外两个组员是汪yk 和张xb ,他们俩都做了ppt,收集资料的主要是汪yk,汪yk的ppt也做的相对好一些,前天晚上他们把PPT给我,我一看,觉得照着念也感觉不通顺,为了给同学们呈现更好的课堂展示,我决定按照自己的思路来讲,所以我也做了ppt。
我们组要讲的是LDA和MMC,LDA是线性判别分析Linear Discriminant Analysis,MMC是最大间距准则Maximum Margin Criterion。
我两个组员的ppt要么把MMC放在LDA前面,要么把它们混在一起,而我认为LDA应该放在MMC前面讲,等我讲完我相信大家就明白为什么LDA在前MMC在后了。
老师要求我们着重讲MMC,而让我们比较为难的就是MMC,因为它的资料比其他的难找许多。难讲也要讲,我们现在来看目录。
【目录】
(念PPT)
【导言-1】
看这张ppt,这张ppt是我们能够找到的我们这门课的课程资料里唯一的一张提到MMC的ppt,扫一眼,这张ppt说MMC是解决小样本问题的常用方法之一,好,这里留个印象,一会儿有用。
【导言-2】
这里有张图表,上面有一些数据点和两条线PC1和PC2,这个PC1和PC2是我们上次讲课讲过的PCA主成分分析Principal Component Analysis,上次课讲了要找PCA主轴,是不是要找投影散的最开的那条?就是PC1了.
【导言-3】
这里简单画一下示例,我们用紫色的线代表蓝色数据的投影,黄色的线代表红色的投影,PC1就是我们找的PCA了。我们这里发现了一个问题:我们没办法用这个PC1来分开蓝色和红色的数据。但是我们看一下这个PCA认为不重要的轴PC2,让数据投影到PC2上看看。
【导言-4】
这里是把数据投影到PC2上,我们可以看到蓝色的数据,用紫色投影表示在左上方,红色数据用黄色投影表示在右下方,这样是不是好像能把这蓝色和红色的数据分开来了?所以对于PCA认为不重要的这个PC2我们好像找到了用处,即用来判别数据。
【导言-5,LDA是有监督】
我们上次课讲了PCA是无监督学习,我们稍微扫一眼什么是有、无监督学习,可以看到就是是否拥有标记。我们看这个小图,数据给了两种不同的颜色,这就是一种标记,我们刚刚用PC2区分开两种数据的时候就使用了这个颜色标记,所以我们刚刚的方法就是有监督学习。而我们刚刚的方法就是LDA的雏形。下面我们来看看LDA到底是什么。
【LDA概念-1】
线性判别分析(linear discriminant analysis)是谁谁不啦不啦一长串,没兴趣看,所谓概念只有学习过后,真的懂了,才能看到之后明白意思,会心一笑,能直接看概念懂的都是理解能力强的人。我们直接上个例子讲:
【LDA概念-2】
好,我们看这个图,就是LDA的二维数据示意图,这里为了简单给出的是两种数据,我们把加号叫正例,减号叫反例,椭圆表示数据簇的外轮廓,虚线表示投影,红色实心圆和实心三角形表示这两类样本投影后的中心点。那么有同学就要问了,焦藏藏,你给了这个图我除了看到两种数据投影在一条线上是分开的,其他的啥也不知道,你到底会不会讲啊?那我说你还不够聪明,聪明的人看到这里已经能自己写一篇论文提出线性判别分析了,可惜费舍尔已经在1936年提出了判别分析然后马上各种LDA就出来了。不过我说我也不够聪明,所以也要接着看LDA到底是什么。
【LDA概念-3,LDA思想】
(念PPT)
好,我把它念了一遍,大家已经懂了,它就是想把同类投影的尽可能近,异类尽可能远,然后新的进来之后也投影看它离谁近那它就是谁了,所以我们就做到了分辨种类这个功能,把分辨种类换个好一点的词,就是判别,所以就是机器学习的判别分析,因为是用的线性的,就叫线性判别分析,LDA怎么来得?就是这么来的。好,了解了LDA概念思想之后我们来看LDA的推导。
【LDA推导-1】
(念PPT)
我们数据必须是有标签的,否则那就不是有监督学习,也搞不了LDA,我们要的是那条直线,数学上其实就是要的那条直线的方向向量,求的方法就是用数学工具啦。
【LDA推导-2】
好,我们把要用到的基础的量解释一下含义。我们这里用最简单的二分类为例。数据集里面的x是具体数据,是向量,y是标签,是标量,也就是分类,0类和1类这两类。这里我用的向量都是列向量,因为我们用到的线代知识比较多,如果要行向量直接转置一下就行了。
下面这个y等于欧米伽转置乘以x,这个y不是上面的标签y,这个是计算投影,也是标量。后面就直接用欧米伽转置乘以x表示。左边的这三个分别表第i类示例的集合、均值向量、协方差矩阵.
最后这个欧米噶向量,就是我们需要的判别直线的方向向量。我们给它一个约束,设欧米噶为单位向量,有欧米伽的转置乘它本身等于1.
【LDA推导-3,举个例子】
我举个简单的例子来理解一下这些量,假设我们已经求得了判别直线的单位方向向量,那么两类的中心的投影也知道,算出xk的投影约等于2.68更靠近第0类,所以判别它属于0类。
【LDA推导-4】
(念PPT)
范数其实就是具有“长度”概念的函数。比如这里μ0和μ1是给出的可以求出的,欧米噶是变量。
这里就有同学要问了,我高数线代概率论好像没怎么用过范数这个东西啊?那我该怎么推导呢?那我悄悄告诉你个简单的东西,在这里我也没用范数,也推导了这一段。
【LDA推导-5】
从这一步到这一步,不明白的不就是范数这一坨吗?它本质还是要一个类之间的非负数值来表示类之间的散度,我们这里直接用投影减投影的平方就行了,当然如果你用范数那一套其实也是这个结果,不过范数在此是用于泛化。我们就单纯的这个二分类问题我这样推是没问题的。我来写一下,很快。
(白板写推导)
【LDA推导-6】
我们现在得到了这么一个商式,然后我们希望这个商式越大越好,这样我们找出的欧米噶对应的判别直线就越精确,我们的线性判别功能就越强。不过在此之前,我们还是觉得这个式子很不好看,我们决定把他整漂亮整简单一点,于是我们定义了这两个矩阵。
(念ppt)
w和b分别是within和between的首字母。也很好理解,类的内部就用协方差来衡量,越小越好,类之间就是中心之间距离的某种度量了,用这个部分来代表,所以这个式子就简化为:
【LDA推导-7】
(念ppt)
这一步推导还是有难度的,我不是这样推的,我就用我们学过的数学知识做也能做。
【LDA推导-8】
好了,一看到这种昏暗的照片就是轮到我推导的时间了。
(白板写推导)
到这里我说有另一种解法,其实数学里面这里可以讲很多,不过这里不是数学课,我们来简单看一下另一种我觉得还蛮正统的解法:
【LDA推导-9】
(念ppt)
【LDA推导-10】
二分类已经讲的很清楚了推广至多分类我们就简单点讲,一会儿主要讲MMC。
(念PPT)
其中ST扫一眼,我们后面MMC还会有
【LDA推导-11】
(念PPT+解释,结合前面的二分类)
【12】
【13】
【LDA小结-1】
在过去的几十年中,已经提出了多种降维算法,其中最著名的两种算法是主成分分析PCA和线性鉴别分析LDA
PCA是一种无监督算法,也就是说,PCA并没有利用样本的类别信息,因此,并不适用于以分类为目的的识别问题.与PCA不同,LDA是一种有监督算法,在构建LDA的目标函数时,考虑了样本的类别信息,因此,LDA更适合于分类问题.
LDA期望找到一个最优的投影矩阵,使得训练样本经过此投影矩阵投影后,不同类训练样本之间的距离尽可能的大,而同类训练样本之间的距离尽可能的小.
近年来,LDA算法由于其简单性和有效性,已在人脸识别、文本分类等问题中得到了广泛应用
LDA的一个主要缺陷是在求解最优投影矩阵的过程中需要保证类内散布矩阵是非奇异的.而对于模式识别中经常遇到的高维数据,其训练样本的数量相对较少,因此也就没法保证类内散布矩阵是非奇异的,这也就是所谓的小样本问题
说到这里不知道同学们还有没有印象我最开始就给大家放了一张课程资料里的PPT,讲的是什么?就是MMC是解决小样本问题的常用方法之一
【LDA小结-2】
为了克服LDA面临的小样本问题,研究人员已经提出了多种解决方法,如PCA+
LDA算法、零空间LDA算法(NLDA)、正交LDA、完备的LDA(CLDA)及最大间距准则MMC等.在这些算法中,MMC是其中最著名的一种.
MMC的核心就是以类间散布矩阵的迹与类内散布矩阵的迹之差作为鉴别准则,因此,MMC就不需要求解类内散布矩阵的逆矩阵,这样,MMC就从理论上避免了LDA中存在的因类内散布矩阵奇异而无法求解的问题。
【MMC优越性】
这是MMC提出者李海峰的论文里面的一部分,他在2003年的论文里提出MMC,然后这篇2006年的又是主要写MMC的发表在IEEE上面。MMC资料不像那面讲的同学们那么多,所以我们组只能翻论文了。这里就不找同学们翻译了,我简单说一说。
第一句就是MMC更厉害可以避免小样本问题。从几何学上说,MMC 最大限度地提高了类之间的(平均)间距。可以证明,MMC 比 PCA 更能代表类划分分离,就是判别。它又说加入约束条件可以从 MMC 中推出LDA,跟线性判别扯关系。然后通过使用其他一些约束条件,我们建立了新的线性和非线性特征提取器,这些特征提取器不会受到小样本量问题的影响,而小样本问题对 LDA 来说是严重影响稳定性的。与 LDA+PCA 不同的是,基于 MMC 的新特
征提取器在输入空间中最大化了类间散度,而不是SW的无效空间,最后就是实验证实它比LDA+PCA厉害。
【MMC概念-1到7】
(自由发挥)
【MMC概念-8,小结】
由于tr(Sb)衡量的是类均值向量的总体方差,大的tr(Sb)意味着类均值向量在
一个大的空间内散布。另一方面,小的tr(Sw)意味着每个类都有一个小的散布。
因此,大的J 表明,如果模式来自同一类别,则彼此接近,但如果来自不同类
别,则彼此相距甚远。因此,这个标准可能比 PCA 更能代表类的可分离性。回顾
一下,PCA 试图在线性变换后使总散点tr(St)最大化。但是,具有大的类内散射
的数据集也可能具有大的总散射,即使它具有小的类间散射,因为St=Sb+Sw
很明显,这样的数据是不容易分类的。对于 LDA 和 MMC 来说,很明显,两者的目
标非常相似。
【】自由发挥