登陆注册
16592500000005

第5章 数据的收集管理和使用(2)

很多大公司正在数据管理这条路上学习,而当前我们面临着很多以往不曾遇见的问题。比如,我们是应该在各个部门里运作,还是集中管理数据?我们是应该在数据安全的前提下更开放,让更多人找到数据的价值,还是应该更封闭,让泄露数据的可能性更小?另外,个人隐私怎么去保护?我们怎么才能成为一家负责任的数据管理公司?这些都是代表性的难题。

现在,大型的互联网公司通常都同时拥有成百上千种在开发的项目,它们都在直接或间接地改变着数据,而在这种情况下,又如何保障数据安全?事实上,数据的源头已经“脏”了,而下游使用数据的人还不知道,同时,源头的数据使用者也没有责任告诉下游这些数据已经“脏”了。

所以,如果你数据使用得不好,这对你的发展影响也不会很大。但是如果你数据使用得好,而且将它作为公司的核心竞争力,那么你的麻烦就大了。因为你的数据源本来就来自各个地方,而每一个来源都没有责任要告诉你,今天从它那儿来的数据是正常的和可靠的。特别是大数据出现后,数据的精准与否更加重要。因为大数据在很多情况下,是利用外部数据来帮助内部数据进行调整的,如果你的内部数据难以保证“干净”的话,那么外部数据同样无法保证“干净”。

数据管理,是大数据行业的“脏活”、“苦活”和“累活”,是最悲催和最难解决的事情。如果没有这些背景做铺垫,人们对很多公司在做的所谓的大数据的运营就持有怀疑态度了。

注意数据分类的维度

在观察与分析数据中,我们要从中抽象出来,更好地将数据进行归类和整理,从而更加清晰地识别出数据的价值。

今天,我们多数人把自己关注的焦点放在结果上而忽略了过程,而事实上这些过程其实也蕴含了数据管理的过程和数据分类的过程。有些关键数据必须做好保护,若这几个数据变了,或者被污染了,前面的价值也就无法保证了。

有人肯定会问,管理数据是一个过程,能不能分解?能不能区分哪些元素是比较重要的?哪些是有代替品的?哪些是无可取代的?哪些是不可或缺的核心?其实,这些问题就包含数据战略。

所以,我们不可以含糊地应对,要从中抽象出来,更好地将数据进行归类和整理,从而更加清晰地给出数据的价值。

权威的数据公司从数据分类的角度将数据分为以下4种:

1.按照是否可以再生的标准来看,可以分为不可再生数据和可再生数据

不可再生数据通常就是最原始的数据,比如用户在访问网站时,浏览记录会追踪用户的行为,如果当时没有被记录下来,就没有其他数据来还原用户的行为了。这个有点像拿着相机拍闪电,抓拍很重要,一旦错过,闪电就不可能再重复刚才那一瞬间的光影了。因此,对于用户日志类等不可再生数据而言,必须要有很完善的保护措施和严格的权限设置。现在,很多系统都有备份多份数据的功能,理想情况应该是,因为磁盘损坏而造成数据丢失的案例应该越来越少。但是,因为系统升级失败和误操作等造成的数据丢失在各家公司都屡见不鲜,见怪不怪了。

可再生数据就是通过其他数据可以生成的数据,原则上,指标类数据的衍生数据都是可再生的——只要原始的不可再生数据还在,就可以通过重新运算来获得。不过千万不能因为“可再生”这个词语的存在,就对可再生数据不重视。有些可再生数据是通过很长时间的积累不断加工而成的,是长时间从海量数据中计算出来的,比如对某个用户在数个月内的连续购买行为产生的规律,如果未做保护,虽然仍然可再生,但是再生的时间却会给企业带来问题。因为即便对于有顶尖计算能力的公司来讲,都可能是数日,甚至是数周、数月,而这个时间过程可能就会对公司的某一项核心业务造成毁灭性的打击。

对不可再生的数据而言,已有的数据要严格保护,想要但是还没有的数据就要及早收集。举个例子,很多电子商务网站是不关注客户在商品详情页面有没有做滚屏操作的。如果这一类型的数据没有被记录下来,企业就无从知道详情页的有效性。当商品页面进行改版,需要对此类数据进行参考时,就没有办法来获得相应的数据支持,最后能做的就只能是等待在页面上进行布点开发,等待数据收集到之后再进行决策,这就造成了决策的延误。

对于可再生数据而言,要及早做好业务的预判和数据处理的规划,这样一来,数据在需要的时候就能够快速地获得应用,人们把这一数据称为数据中间层。

2.按照数据所处的存储层次来看,可以分为基础层、中间层和应用层

从数据的存储角度来说,数据有很多层次。基础层通常与原始数据基本一致,也就是仅仅存储最基本的数据,不做汇总,以尽量避免失真,从而用作其他数据研究的基础;中间层是基于基础层加工的数据,通常也被认为是数据仓库层,这些数据会根据不同的业务需求,按照不同的主体来进行存放;应用层则是针对具体数据问题的应用,比如作为解决具体问题的数据分析和数据挖掘的应用层的数据。

在存储层这个层面上,最大的问题就是数据的冗余和管理的混乱。尤其是对于一些拥有海量数据的大公司而言,数据的冗余问题尤为严重,由此造成了大量的浪费。

在大公司中,进行数据分析、开发、挖掘的人可能有数十甚至是数百人,这些人可能归属于不同的业务团队,为了满足不同的业务各自分析数据应用。这样一来,不同的人可能都从头开始建立起了一套包含基础层、中间层和应用层的数据,而彼此之间又没有合适的交流方式,也就造成了工作的浪费。那是不是应该把所有的数据进行更好的归纳或者管理呢?任何管理方法,无论是集中式管理,还是分散式管理,都各有利弊,而且人和业务多了之后,企业也很难进行集中式管理。专家给出的建议是,基础层必须统一,因为这是最基本的数据,而且基本数据是原始数据。除了备份的需求外没有必要在各个场合保留多份数据。只要保证这个数据有良好的元数据管理方式,就能极大地降低成本。

而对于中间层和应用层而言,则要视具体情况而定:如果公司的业务相对单一且成本压力比较大,则建议集中式管理;如果公司的业务量非常大,则可以由多个数据团队来进行分散式管理和应用,以保证基础层单位有最高的灵活性。

同类推荐
  • 宁夏:国民经济和社会发展第十二个五年规划纲要

    宁夏:国民经济和社会发展第十二个五年规划纲要

    宁夏回族自治区国民经济和社会发展第十二个五年规划纲要(2011—2015年),根据党的十七届五中全会精神和《中共宁夏回族自治区委员会关于制定国民经济和社会发展第十二个五年规划的建议》编制,主要阐明自治区党委、政府战略意图,明确政府工作重点,引导市场主体行为。本规划《纲要》是全区人民的行动纲领,是政府履行职能的重要依据。
  • 趣味经济学100问

    趣味经济学100问

    经济学并不意味着复杂的数学模型和演算公式,也并不仅仅充斥着晦涩的专业术语,本书帮你找到了通俗易懂、简便快捷、生动形象地学习经济学的好方法。全书用生动的故事和生活中的实际事例来解释深奥的经济学原理,突出趣味性,以简洁明了、幽默风趣的方式将那些高深的经济学道理用平白易懂的语言娓娓道出。本书将为那些希望轻松学习经济学的读者提供愉快、轻松的阅读体验,在享受阅读的乐趣中学会有用的经济学知识。
  • 中国民生60年

    中国民生60年

    一个真正实现了民生变革的社会,是可以适应各种不同意识形态的社会。一个具有良好的政治体制的社会,不但可以促进民生变革及其发展,也会促进生产力的发展。中国民生变革60年用事实证明了这一点。为了更好地前行,我们必须清醒地回首,并深深地思索。60年的民生变革怎么去形容和评价?古语云:鉴往知来。历史或许才是最好的回答。60年一个轮回,而中国民生变革的轮回需要回答和回味的的确太多太多。让本书带领你驻足回眸,去感受、去回味60年间,中国人民与中国民生变革历经的磨难和阵痛以及勇往直前的坚实步伐。
  • 2009~2010年电子信息产业经济运行状况与发展趋势

    2009~2010年电子信息产业经济运行状况与发展趋势

    《2009~2010年电子信息产业经济运行状况与发展趋势》含综合篇、行业篇、省市篇及附录四个部分,分行业、地区、领域回顾了2009年电子信息产业发展状况并对2010年电子信息产业发展趋势进行展望,并附有世界主要国家电子信息产业统计数据,反映了2009年我国电子信息产业发展全貌。
  • 郎咸平说对了吗

    郎咸平说对了吗

    著名经济学家曹建海作序推荐——在郎咸平先生恢弘的光环下,存在三点明显不足:一是郎教授在走穴上投入精力过多,没有时间治学,并且他将迈过知识创造年龄了;二是太惯于散兵游勇,不能团结更多的优秀人才;三是游走于富豪官员之中,对中国下层缺乏了解。
热门推荐
  • 我的校花俏女友

    我的校花俏女友

    大学毕业一个月的林天由于胳膊受伤,一直待在家里,在无聊至极的情况下,来到乡下上坟,却在偶然间得到了几千年后的智能海蓝和一个空间,看得到奇遇的林天如何纵横都市。
  • 我的明朝记事

    我的明朝记事

    一个普通女孩懵懂的撞入网游世界,跌的遍体鳞伤,她转而崛起,强势封神,以自己的理念、节奏重筑了一个世界,最终带着这个世界堕入无可逆转的毁灭。
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 山村怪事录

    山村怪事录

    临江村,三面环山,一面临海,每年总有那么一两件怪事发生,筱悦早就习惯了。这天她又搬条小凳子坐在太姥姥身边听她瞎扯,哦不,是听她讲古。嗯,她是孝顺的乖宝宝呀,看,她听的多认真呀……如果忽略她一点一点往下垂的小脑袋的话。
  • 月幽语

    月幽语

    她,以优异的成绩被名校录取他,有钱又花心他本来只想玩玩她的感情,可是后来却又发现自己喜欢上了她。她本来不喜欢他,但是在他穷追不舍的追求下,她终于接受了他。好不容易,两个人进入了热恋模式。那日,他搂着别的女生说:“我已经玩腻你了。”“我恨你…”这是她和他说的最后一句话。后来,她因家里发生了许多事而转学了。没有人知道她转到哪了,哪怕是她在这所学校最好的朋友也不知道。若干年后,她成功的考上国外一流大学,阴差阳错,她又碰见了他。“好久不见啊。”他看了看她,又看了看她旁边的男生,“这是…哥的新女朋友?”“是啊,怎么了?”“那她可能不就之后就是我的女朋友了,哥。”………
  • 农家弃女

    农家弃女

    她堂堂一铁血女特工竟然穿越了!还穿越成一未婚生子还被家人抛弃的女人!罢罢罢,反正她一直是一个人,无所谓,该怎么过怎么过,现在最重要的是赚钱养家养儿子。什么?婶婶想谋她的儿子卖钱?想都别想。
  • 梦之梦里花开

    梦之梦里花开

    第一次写这么长的文字,希望和它一起成长。美好的青春时光里,遇见美好的人与事,珍惜时光里的每一次成长与际遇。这个是有天晚上睡觉时,做梦梦到的画面。突然就想把它写下来。
  • 古董轶事

    古董轶事

    65年前,唐昭陵金冠横空问世,却不知所踪。65年后,一位少年决定沿着曾祖父未尽的事业前行,有关于古董的考古、交易、拍卖、倒斗、侦破案件等故事正在上演…
  • 两个人的独角戏

    两个人的独角戏

    我喜欢你,却不知道怎么爱你,选择错的方式却让原本属于你们的剧情便成了各自的独角戏……
  • 召唤萌妹

    召唤萌妹

    什么!能召唤印象中所有幻想人物的召唤水晶!等等!为什么只能召唤女性角色!!??子凡重生了,但随着醒来。却发现自己已经不再原来的大陆。而变成了落魄贵族,二级火系法师林炎!而且即将面临一场危及性命的赌斗,赌斗彩头居然还是自己娇嫩可人的贴身小侍女。不仅如此,自己的实力居然还不如对方!这怎么行!就这样,子凡和他漂亮的召唤人物再加上异界的大小美女们,开始了幸福的异界生活。一天上传两章,下午六到八点一章,晚上十到十二点一章。希望大家多多捧场。收藏与推荐都是永恒的动力。转战新书《神之遗密》书号2258536,用心之作。