第一幕
旁白:在帮助完网友兔子啦解决问题后,周启源时刻没有放松下来。他要给代码加上注释,写上 ReadMe 使用指南。周启源写完注释后,并将代码发送给坎德拉的第二天。
场景:微信聊天(坎德拉&周启源)
坎德拉:“博主您好,我用了您的代码,出现了一些问题,您给看看么?”
周启源:“什么问题?”
坎德拉:“就是出现了下面的问题”
[截图,里面显示错误信息:ModuleNotFoundError: No module named 'pyhanlp'].JPG
坎德拉:“你是不是忘了把pyhanlp发给我了?”
周启源:“你得安装一下 pyhanlp 这个模块[笑哭],你自己读一下英文嘛”
坎德拉:“额,因为我之前都是用matlab的,所以真的很是不习惯。能够具体说一下吗?”
周启源:“你打开 cmd,然后输入 pip install pyhanlp”
(注:cmd 就是 Windows 的命令提示符,也就是通常说的那个黑乎乎的窗口,一般上过大学的应该都明白,特别是计科的。)
坎德拉:“cmd是什么?”
周启源:“就是那个黑乎乎的窗口啊,你是一个人搞项目?你的 coder 应该懂的。你是 writer 还是 coder?”
坎德拉:“哦哦,我是writer。我跟他们说说”
周启源:“你现在几年级了?”
坎德拉:“我研二”
周启源:“哈哈,你什么学校的呀?”
坎德拉:“我是 x南大学的”
周启源:“你们的导师不帮你的吗?”
坎德拉:“没有,这个项目是我主持的,老师让我做的”
周启源:“嗯,趁 coder 在打代码,你就学学 Latex 吧,写论文要用到?”
坎德拉:“latex?哦,那个东西太麻烦了,不是很想学。我用word就行了”
周启源:“哦哦,随你吧”
没过几分钟......
坎德拉:“又出现问题了,麻烦您给看看”
周启源:“什么?”
坎德拉:[截图,里面显示错误信息:ModuleNotFoundError: No module named 'sklearn'].JPG
周启源:“你建议你仔细看一下英文,这个和上一个问题是一样的,没安装 sklearn 模块。”
坎德拉:“噢噢噢,谢谢博主”
“我们刚学python,还请博主耐心教导,多多包涵”
坎德拉:“博主大人,我们尝试了好几次,可能是我们的基础比较差,总是出错,可以麻烦您帮我运行一下第一问的代码吗?只是第一问就可以,我们只想看看第一问中每一小步的结果,可以么?”
周启源:“不可以,你要内化成自己的东西。我们老师说:‘所谓诚者,毋自欺也。’咱们搞学术,做项目的,不要作假”
坎德拉:“嗯嗯嗯,博主大人,我反思了,觉得您说的有道理,老师让我做也是对我有期望,我会好好运行直到弄明白的,谢谢!!”
“希望博主耐心教导”
“博主,我打算将您写在致谢上,可以吗?”
周启源(欣喜):“还是算了吧,你只要在参考文献上,加上我的论文就行了”
坎德拉:“不,我觉得遇到您,我们才有希望。是您的帮助,让我们如沐春风。我们没有指导老师,但您就是我们的指导老师。都说一日为师,终身为父,我们这点微不足道的感谢,又何足挂齿呢?”
周启源:“好,那你写完之后,记得跟我说一下,我把个人简介发给你”
坎德拉:“嗯嗯,好的[ok],我们是新手,以后还请多多包涵哈”
“还有就是,博主大人,谢谢你的代码,这几天我学到了很多,不过有的代码我总是运行不出来,可以麻烦看看C选题第一问中每个步骤的结果吗,截图或者是PPT都可以,只是第一问的就可以”
周启源:“哦,我整理后给你发过去。”
坎德拉:“好的,谢谢”(下)
场景:周启源宿舍
谢晨皓:“最近挺忙的嘛,在干嘛?”
周启源:“嗯,我在帮网友解答问题。”
谢晨皓:“我看你从两点开始,就坐在那里一动不动。”
周启源:“是啊,还没吃饭呢。”
谢晨皓:“哦,饭堂快关门了,要不要我带点东西给你?”
周启源:“好啊,麻烦你了。”
谢晨皓:“有一个叫‘青年杯’的数据挖掘比赛,你去吗?”
周启源:“嗯——,可以,一起去呗?”
谢晨皓:“我?我可能比许晓胜还水哦?”
周启源:“没关系,我一个人做也行,反正也习惯了,你参与进来,我反而觉得不习惯。既然可以拿奖,那当然多一个人分享这份荣誉,肯定是更好的。”
谢晨皓:“哦,那我却之不恭咯,还要麻烦你努力了。”
(两人下)
落幕
第二幕
旁白:自从坎德拉答应,将周启源写到致谢中取后,他就更愿意帮助坎德拉了。他甚至将《科学写作》、《The Not So Short In-tro-duc-tion To LATEX》等有关论文写作,以及 Latex 教学的电子书籍等,发给坎德拉,以帮助其完善论文的写作,而不是用 Word 写出垃圾论文。坎德拉对此亦深表感谢,一方面也马不停蹄地问问题。就这样,他们一直持续到“青年杯”比赛的最后一天。这一天,周启源正在楼下自习室,完善“青年杯”的论文。刚好,坎德拉来微信请教。
场景:微信聊天(坎德拉&周启源)
坎德拉:“博主,我看了您的论文。为什么第一问,解决文本分类的时候,用的卡方检验进行特征降维;而第二问,解决文本聚类问题的时候,用的PCA来降维呢?”
周启源:“我的论文不是有写的嘛,你看我论文呗”
坎德拉:“嗯嗯,我们知识储备不够,问的问题可能比较繁杂,还请博主多多包涵”
周启源:“你不是要写第一问嘛?看第二问干什么?”
坎德拉:“我们就想学习一下”
周启源:“卡方检验是《统计检验》里的内容,你们研究生没学过么?”
坎德拉:“学过,忘得差不多了,能简单地给我们讲讲么?谢谢了”
周启源:“第一问分类问题,有因变量,也就是类别,所以用卡方检验”
“第二问,文本聚类,没有类别,所以用 PCA 降维”
“就这么简单”
坎德拉:“好的,好的,麻烦博主了”
“我们都还刚开始学,有很多高深的东西不明白,还请博主,对我的问题多多包涵”
周启源;“没事,我今天在比赛,情绪可能有点焦躁”
坎德拉:“哦,那我会不会打扰到你啊,真是对不起”
周启源:“没事”
坎德拉:“我们在运行第二问的时候,出现了一个问题,你是不是没有把model.txt 文件发给我们啊?”
周启源(仔细检查文件):“我发了啊”
坎德拉:“那为什么出现下面的错误呢?”
坎德拉:[截图,错误信息:File “D:\xxxx\xxx\model.txt Not Found”].JPG
周启源:“天啊,你们将绝对路径改一下,不就行了么?你们 coder是 lu 多了么?”
坎德拉:“哦哦哦,不好意思,我们的python基础不太好”
周启源心想:什么鬼。
坎德拉:“对了,我们论文写好了,如果有什么不好的地方,您帮忙看一下呗,致谢那一块,就让您写啦。麻烦您明天改好,写好后一块发过来吧。”
旁白:第二天,周启源又是一夜没睡,一方面是因为比赛,一方面是因为改论文。比赛已经结束,论文也已改完。
周启源:“@坎德拉,论文已经改好了,致谢那一块,我大概写了一下。还有,就是论文是用 Word 写的,这一点不好。”
坎德拉:“嗯嗯,主要是这几天学python,没时间学那个 latex”
周启源:“行行行,那就这样吧。我还帮你加了两张流程图,你看看好不好”
坎德拉:“嗯,好。对了,这流程图是怎么画出来的,画得真好,教教我们呗?”
周启源:“就是用微软的 Visio,画图工具有很多的,3D 的话可以用 sketchup,工程制图用 CAD,PPT 和画图也是一个非常有用的画图工具”
坎德拉:“嗯嗯”
坎德拉:“我看了您论文的排版,双栏排版,真的好羡慕,能告诉我是怎么排版的吗?”
周启源:“就是 Latex 呀,我之前不一直跟你说了吗?”
坎德拉:“能发给我,你那篇论文的latex源文件吗?”
周启源:“可以”
周启源:[泰迪杯比赛].rar
周启源:“你解压下来,然后下面有很多.tex 文件,打开就可以看到源码了。”
坎德拉:“用怎么解压呢,会不会损坏里面的东西啊?”
周启源心想:哇!!!让暴风雨来得更猛烈些吧。
周启源:“没关系,用 RAR、360解压都可以”
坎德拉:“哦哦,那论文中的公式是怎么写的,那些代码都好复杂,我记不住”
周启源:“记不住也得记啊,用多了就没事了。一开始可能要上网查,但熟练了就不会那么生疏了”
“刚开始学的话,你也可以用的自己做的软件,他可以直接将图片中的公式,识别成 Latex 源代码”
坎德拉:“嗯嗯,软件是用什么做的呢,能不能把源码借我参考参考?”
周启源:“嗯,当然,软件我开源了,源代码随便看都行”
周启源:[图片识别文字软件开源链接].url
坎德拉:“嗯嗯,我解压了您刚刚的压缩包,然后打不开 tex 啊”
周启源:“你没下载 WinEdit,当然打不开啦!”
坎德拉:“噢噢噢,下载winedt,就可以了吧?”
周启源:“嗯,不过你还要学会几种 Latex 引擎,就是把 Latex 代码,转成 PDF 或者其他格式的引擎,和一些基本概念”
坎德拉:“啊,好麻烦。。。。”
周启源:[Latex 学习视频链接].url
周启源:“你可以自己先看看这个视频”
坎德拉:“好的,谢谢博主”
周启源:“写完论文后,记得发给我看看”
坎德拉:“一定”
落幕
第三幕
旁白:已经过了一周了,坎德拉依旧没有联系上周启源。虽然周启源表面上不介意,也一直不肯放下面子,去问坎德拉的论文情况。不过,另一个原因是,周启源他正在开发新软件。当时,他遇到了瓶颈期,因此这天正闷闷不乐的站在走廊上。此时,其舍友谢晨皓亦在走廊上。
场景:周启源宿舍,时间下午 11:30
周启源(站在走廊上,靠着扶手):“Hello,好久不见。”
谢晨皓:“好久不见你个头,不过,好谢谢你哈,让我参加比赛。”
周启源:“没关系,肥水不流外人田嘛,最近在忙什么?”
谢晨皓:“别抢我台词!”
周启源:“我打算开发一个软件。”
谢晨皓:“哦,什么样的软件呢?”
周启源:“我在帮助网友解决问题的时候,发现其实机器学习,可以用一个固定的套路来解决。特别是那些,不是 NLP 也不是计算机视觉的,纯数据问题。”
谢晨皓:“套路?你不是说‘陈词滥调,跟不上无厘头的节拍’吗?”
周启源:“但固定的套路,能够让一个普通人,变成一个数据分析师,虽然是普通的那种。”
“我最近越来越发现,其实企业里的一些数据分析师,就是套用 Python 的一些模块,按照一个固定的套路,解决问题的。”
“具体来说,就是数据预处理,包括特征过滤、降维,分析等等,我更乐意称之为特征工程;其次就是交叉验证、网格寻优,从机器学习模型中筛选出最好的模型,以及模型参数。当然,这一步通常被很多,自称为是‘数据分析大师’的人所忽略。”
“最后一步,用模型划分训练集、测试集,训练并计算模型在测试集中的拟合优度。当然,拟合优度的选择,有很多种。不过,普通的数据分析师,不会考虑这些。”
“最后,如果效果比较差,就用神经网络,仅此而已。这就是一个固定的套路。”
谢晨皓:“听起来很容易嘛。”
周启源:“可有人就被他里面的理论所吓到,转而使用那些现成的模块。有的人看到代码就头晕,于是转行了。前者,成为了普通数据分析师,我更乐意称为搬砖头的师傅。因为,他们在搬网络上的代码而已。”
“后者,一般被前者忽悠了,觉得代码很难,很复杂,就十分遗憾地,退出了这个改变二十一世纪的领域。”
谢晨皓:“我可能就属于后者。”
周启源:“所以,我打算开发一个软件,把这些代码都集成在一个 GUI 中。这样,就算是最傻逼的人,只要他上过高中,智力没有问题,都能操作得来。”
谢晨皓:“这不砸了很多人的饭碗了吗?”
周启源:“当造物主的皮鞭,打到人的身上的时候,人们才会进步。滥竽充数的人,只能一时得意,不能一直骗人。”
谢晨皓:“好的,我的造物主先生。你帮的网友,他论文写完了没,不是说要将你写到致谢里了吗?”
周启源:“他到现在都没回我。”
谢晨皓:“你自己去找他啊,要我,我微信电话轰他。”
周启源:“好吧,那我试试。”
旁白:周启源对坎德拉发起了微信聊天,只见响了一声,上面出现[网络异常,聊天结束]的字样。之后,就弹了出来。只见微信聊天上,出现了一条提示文本:
[微信提示文本:对方未添加你为朋友,对方添加后,才能进行通话]
周启源有种芥末上脑的感觉,上一次出现这种感觉,好像是在跟许晓胜、曾喜缘一起商量答辩的时候吧?这次倒是没瘫倒,他努力地定了定神。再次看向微信,之间上面赫然显示着:
[链接失败[话筒]]
[微信提示文本:对方未添加你为朋友,对方添加后,才能进行通话]
周启源再也坚持不住,他脑子一片空白。
周启源:“研究生......研二....... x南大学......坎德拉......坎德拉......”
周启源:“也请希望你能够......坎德拉......将心比心......将我的理念......坎德拉......传授给他人......让更多的人,能够......坎德拉.......”
周启源:“致谢.......个人资料......坎德拉.......”
忽然一股气窜上心房,周启源只觉咽喉有一丝甜甜的,脑子像被绞了一样。鼻子无法抑制地流着血,猛然一种嗽意不可阻挡。一口黑红的血,从他口中喷了出来。随即,身子重重地砸在地上。
谢晨皓:“启源?启源?醒醒啊!啊,他没呼吸了!快点啊,来人,来人,AED,谁能帮我拿 AED,快啊!!”
落幕