登陆注册
48587300000011

第11章 管理科学(11)

周晓光,谭春桥,张强.基于Vague集的决策理论与方法[M].北京:科学出版社,2009

Atanassov.K.Intuitionistic fuzzy sets [J].Fuzzy Sets and Systems,1986,20: 87-96

A Method for Fuzzy Multi-Criteria Decision

Making Based on Vague Sets

XIE NingZHANG QiangMENG Fan-yong

(School of Management & Economics,Beijing Institute of Technology,

Beijing 100081.China)

Abstract: According to its promising advantage in dealing with fuzzy values,vague sets has been widely applied in multi-criteria decision making problems.However,the traditional aggregation operators of vague values assumed that criterias are independent,which in some circumstances can’t reflect the real decision behaviors precisely.Therefore,this paper make use of Choquet integral and vague sets,representing a new aggregation operator-Vague-Choquet integral operator,and compared it with traditional aggregation operators of vague values to illustrate its superiority.At last,an example is provided to verify the process of the new method.

Keywords: Vague Sets; Vague-Choquet Integral Operator; Fuzzy Multi-Criteria Decision Making

一种基于Rough集的中文LINGO算法

陈书炫、熊孟英

(北京理工大学管理与经济学院,北京100081)

摘要:随着互联网络的发展,网络时代的信息量在爆炸性的增长,用户如何从中准确而迅速的找到自己想要的信息,通过对Web搜索结果进行聚类是一种有效的方式。在中文环境下,本文采用一种广义的Rough集——容错关系来描述Web搜索结果,并采用LINGO算法聚类。实验表明它在时间性能、类标识质量以及正确率上都优于传统的K-Means算法。

关键词:Web搜索结果;聚类;Rough集;LINGO算法

中图分类号:TP301.6.文献标识码:A

0.引言

随着Internet/Web技术的快速普及和迅猛发展,各种信息资源可以从网络上很容易地获得,人们正享受着互联网所带来的好处,而且互联网正渐渐地成为人们工作生活中的一部分。同时随着互联网络的发展,网络时代的信息量在爆炸性地增长。这就给用户出了一道难题,如何从浩如烟海的Web信息资源中迅速而准确地寻找到自己所需的信息。

虽然现在有搜索引擎来为我们解决这个问题,但是搜索引擎还是有不尽如人意的地方,有很多用户找到自己真正需要的信息仍然非常困难。特别是对于用户不能清晰表达自己需要的查询,比如,我们在用“苹果”这个词在搜索引擎上搜索的时候,我们可以看到搜索引擎提供了一个按照与这个查询词的相关度从高到低排成的Web搜索结果列表,像很多的查询词一样,搜索结果中包含了很多的信息:有关于苹果公司介绍的,苹果公司的各种产品信息,iPod,iPhone(手机),iPad(平板电脑),MacBook(超薄笔记本)等,也有关于电影《青苹果》的,还有的是关于水果苹果的信息,等等。搜索引擎将这些信息混在一起,用户需要仔细浏览查询结果列表,排除不相关的内容,才有可能找到自己想要的信息。

针对这一情况,本文结合现有的Web搜索结果聚类研究,在中文环境下,设计了一种基于Rough集的中文Web搜索结果的LINGO算法。由于很多时候搜索结果的标题及文摘不能有效地反映所指向的网页的本身的内容,通过采用一种广义的Rough集——容错关系来表示Web搜索结果,从而丰富了对Web搜索结果的描述,并将其应用于LINGO算法中。从实验数据可知,这种算法在时间性能、类标识质量以及正确率上都优于传统的基于Rough集的K-Means算法。

本文其余部分组织如下:第1节介绍容错Rough集的概念;第2节介绍Web搜索结果表示的容错Rough集模型;第3节具体描述基于容错Rough集的中文Web搜索结果的LINGO算法;第4节在Google的搜索结果基础上进行了实验,并同基于Rough集的K-Means进行比较;第5节总结全文。

1.容错Rough集

经典Rough集合理论中近似空间的概念提供了在没有足够的可用信息条件下将属于某一特定全域的对象进行完全分类的一种近似分类分析方法。近似空间中对象的分类是基于等价关系的近似分类,这样的分类过于注重对象之间的差异,忽略了对象之间的相似性。为此Skowron A和Stepaniuk J提出了利用对象之间的一个容错关系(tolerance relation)进行近似分类的广义近似空间的概念。

2.Web搜索结果表示的容错Rough集模型

我们将每个Web搜索结果记为一个文档,对于Web搜索结果的集合,从D中取出M个特征词,运用向量空间模型,每个文档由一个权重向量表示,其中表示为在第i个文档中第j个特征词的权重。所有特征词组成的集合为。

3.基于容错Rough集的中文LINGO算法

由Stanislaw Osinski于2003年首次提出的LINGO算法是一个强调聚类描述质量的在线搜索结果聚类算法。该算法产生聚类过程与传统的产生聚类过程相比有一个明显的不同,即它先根据所给文档集,识别出文档集中的所有抽象概念,然后为每个抽象概念选取最合适的单词元(由单个词组成)或者短语(多个词的有序序列)作为对抽象概念的描述。然后根据这些聚类描述,从文档集中指派一些文档给聚类描述所代表的聚类。LINGO算法的先产生聚类描述,然后再指定聚类内容的思路,可以避免传统的聚类过程在最后产生的聚类描述中存在着语义上无法理解的现象。按照这一思想,本文设计了基于容错Rough集的中文LINGO算法,其过程大致如下:

3.1.构造“特征词-文档”矩阵

针对中文的特点,放弃了原来LINGO算法建立“字-文档”矩阵,而用“特征词-文档”矩阵来代替,这样能有效地提高效率。构造“特征词-文档”矩阵需要包括以下三个步骤:

(1)Web搜索结果的预处理和特征词选择

由于从主流搜索引擎上返回的搜索结果很可能有HTML标记,那么就需要对获得的Web网页去除HTML标记,转化为纯文本。然后对其分词,并通过一定的规则进行特征词选择,如:①搜索中的查询词忽略,因为返回结果一般都会包含的;②出现的文档频率小于一定阙值的词忽略;③在文档中出现频率小于一定阙值的词忽略;④适当控制词的总数;⑤数词忽略,如时间,价格等;⑥结合词的长度和词性进行适当控制(如对词的长度为1且不为名词的词忽略)。经过率选后生成了文档的词频矩阵TF,同时在计算频率时,考虑到在网页文件中标题(Title)相对于摘要(Summary)的重要性,置其不同的权重。

(2)建立特征词的容错关系矩阵

对于任意的两个特征词和,如果其在Web搜索结果集中共现的文档频率达到一定的阙值,则特征词和存在容错关系,即TOL[i,j]=1,否则TOL[i,j]=0,其中矩阵TOL是矩阵,M为特征词的个数。

(3)计算Web搜索结果文摘特征词权重

结合词频矩阵TF和容错矩阵TOL,利用上近似集合来计算每篇Web搜索结果的特征词权重。权重算法不仅需要处理文档中的特征词,还要处理文档上近似特征词(它可能不出现在文档中或不出现在下近似集中)。

3.2.抽象概念发现

对于抽象概念发现,使用的是隐含语义分析 (Latent Semantic Indexing,LSI)的方法,并借助矩阵的奇异值分解 (SVD)方法来实现,利用SVD 方法结果中的U 矩阵来获取文档的抽象概念。由上面得到的“特征词-文档”矩阵进行奇异值分解以获得列向量的正交基(Orthogonal basis),但并不是所有U矩阵的列向量被用来生成类标识,我们只选择前K个列向量,为了计算这个K值,我们使用一种基于F范式(Frobenius norms)的方法来计算“特征词-文档”矩阵和它的K阶近似矩阵的相似度。

3.3.聚类标识生成

首先,利用SuffixArray和LCP(最长公共前缀),结合关于完整短语的算法,得到Web搜索结果集的关键短语。同上文中得到的特征词,构造矩阵P,这是一个“特征词-(关键短语+特征词)”矩阵,构造的思路是把关键短语+特征词看成是伪文档,而特征词看成是索引项,利用上文中构造“特征词-文档”矩阵的方法来计算权重。则经过计算将第i个抽象概念中分值最高的特征词或者关键短语作为该抽象概念的描述提取出来,同时此分值作为该聚类标识的得分。对于每一个抽象概念我们尽量使用一个关键短语进行描述,而且尽量避免使用字,优先选择词语来作为聚类标识。最后一步是通过对候选聚类标识的进行合并,以得到最终的聚类标识。在里我们合并那些在对抽象概念描述上重叠的候选聚类标识。在矩阵P中,对得到的候选聚类标识两两之间计算相似度。当2个候选聚类标识的相似度大于一定的阈值时,只保留得分更高的那一个候选聚类标识而将另外一个舍弃;同样我们在得分相同的情况下,优先选择词语而淘汰字。

3.4.生成聚类内容

在已经得到聚类标识的情况下,按照LINGO算法先标识后聚类的思想,下一步的工作则是将Web搜索结果按照与聚类标识之间的相似度,将其分配到相应的聚类标识下从而完成聚类过程。在这里,我们遵循以下两个原则:依照软聚类的思想,允许类与类之间有重叠的内容,即只要大于一定的阈值即可,所以一个Web搜索结果可以同时分配到多个聚类标识下;设立一个标识名为“Other”的类,Web搜索结果对于所有的聚类标识的相似度都低于一定的阈值就分配到这一类中。

按照以上两个原则,参考LINGO算法,聚类内容生成过程的大致如下:(1)利用“特征词-(关键短语+特征词)”矩阵P,将聚类标识表示成“特征词-聚类标识”矩阵Q;(2)按照公式计算出矩阵C,则表示第i个聚类标识与第j个文档之间的相似度;(3)只要文档和某一聚类标识的相似度大于一定的阈值,则将此文档分配到该聚类标识下;(4)如果文档和所有聚类标识的相似度都小于一定的阈值,即发生失配,则将此文档分配到“Other”类中。

4.实验对比

聚类结果的有效性是衡量聚类算法优劣的标准。由于缺乏测试集合,为了对基于Rough集的K-Means和LINGO算法进行比较,我们主要从以下三个方面:时间性能、类标识质量(指有用的类的个数占类的总个数的百分比)和准确率。为了便于测试实验结果,使用查询词“苹果”,从Google上分别选取返回结果的文档数目为50篇、100篇、200篇,其中对于时间的测试是进行多次的测试,计算其平均值,类标识质量和正确率使用人工判断的方法。实验环境为:Visual Studio 2008编程,Vista操作系统,酷睿双核5750,内存2G。

实验结果表明,相对于基于Rough集的K-Means算法,基于Rough集的LINGO算法在时间性能上,类标识质量以及正确率上,都会更好。其主要是因为LINGO聚类算法是一个强调聚类描述质量的在线聚类,先产生聚类标识,然后再决定其聚类内容,所以LINGO算法能产生比较好的类标识质量以及正确率。

5.总结

本文设计与实现了基于Rough集的LINGO算法对中文Web搜索结果的聚类,通过对Web搜索结果自动聚类,可以帮助用户导航浏览,使用户能在更高的主题层次上来查看搜索引擎返回的结果,快速准确地查找到自己感兴趣的信息,从而可大大缩小所需浏览的搜索结果数量以及缩短查询所需要的时间。

同类推荐
  • 酒店电子商务

    酒店电子商务

    本书分基础与应用篇和实操篇两大部分,内容包括酒店电子商务与管理信息化、应用于酒店管理中的计算机网络、酒店CRM管理与应用、酒店网络营销、酒店前厅、客房信息化、酒店餐饮信息化等七章。
  • 巴菲特的投资智慧

    巴菲特的投资智慧

    本书摘录了巴菲特本人致股东函以及其他一些演讲中的观点,让读者全面系统地了解巴菲特的投资理论,同时,书中设有“活学活用”内容,通过生动的例子,全面准确地分析了巴菲特的观点,帮助读者更好地把握巴菲特投资精髓。相信读者在阅读完《巴菲特的投资智慧》之后,会对股神有更深入的了解和认识,为自己以后的投资生涯增添更多的智慧与策略,以便更好地在股市中遨游。
  • 管人用人有心计

    管人用人有心计

    本书正是一本讲解如何用人管人的参考书,从以下六个方面介绍了用人管人的重要心法。一、把人才看作企业的无价之宝,立足于企业的根本,选择适用的人才。二、全面考察人才的能力,将合适的人才放在合适的岗位,做到人尽其才、才尽其力。三、主动与下属交流,通过积极的交流方式达到高效沟通,进而做好员工的思想工作。四、员工需要的不仅仅是物质报酬,还需要一定的精神食粮。
  • 玫瑰面包营销学:妙趣横生的开店妙计

    玫瑰面包营销学:妙趣横生的开店妙计

    老板阿俊有着自己的一家小面包店,不求业绩赛过全国连锁的面包公司,但求在当地面包市场中分得自己的一杯羹。然而,和所有的小店老板面临的问题一样,随着大型超市、便利店以及连锁蛋糕店陆续开张,阿俊的小面包店因其资本势单力薄、产品多样化低,自然难以和大型的品牌竞争。日益惨淡的经营让这位曾经志在面包行业成就一番事业的小老板一筹莫展。你是否也和阿俊一样,正辛苦地操持着一家自己的小店,进货、选址、店铺各个方面都要靠自己里外张罗,还得每天面对着挑剔的顾客,在大品牌的挟持下夹缝里生存,感慨如今生意是越来越难做了……
  • 中国金融运行研究

    中国金融运行研究

    本书是民建中央财政金融委员会2002~2005年的研究文集,分析了我国金融运行的现状和存在的问题,提出了一些对策建议。
热门推荐
  • 临仙狂战

    临仙狂战

    亘古以来,,这个世界被一股神秘又强大的力量给封印住,但是每隔千载,众人口中未知的升天之门便会开启,踏入其中,可进入另一个浩瀚的天地,寻找到远古之时的秘辛!残酷的手段,血腥的法则,强者为尊,谁拥有无匹的力量,便可掌控他人,操纵命运与造化。存在于体内十六年的神秘白珠竟然是何物?少年因之崛起于茫茫大荒,驰骋无尽的寰宇!====================作者Q号;1805280923
  • 涨跌都没事儿

    涨跌都没事儿

    《千万圣杯》是一位隐形富豪出资举办的投资比赛,他的规则很简单,十万块和一个星期,你能赚多少。故事里的人给出了各种各样的成绩,有的第一周就赚到28万,有的一周只有一两万。有的做黄金外汇原油期货,有的做股票,有的赌球,有的去澳门赌博,还有的靠各种物物交易。只要能提供有效的交割单据,交易合同以及税收证明,这些都是有效的。
  • 海棠落尽青春晚

    海棠落尽青春晚

    胭脂点。海棠落尽青春晚。青春晚。少年游乐,而今慵懒。春光不可无人管。花边酌酒随深浅。随深浅。牡丹红透,荼香远。
  • 龙主三国

    龙主三国

    穿越成为刺杀董卓的勇士伍孚之子,获得拥有召唤之力的神兽小白龙。小白龙说:敌人有四个,分别是恶魔龙、九尾狐、魔狼、白象。它们打破了时空壁垒,穿越到了这个世界,妄图借助召唤之力,灭绝中华文明,从而彻底将中华文明从时空洪流中抹去。我得知时空壁垒被打破的消息,就带着四位好友随后而来,阻止它们的阴谋。根据我穿越前的消息,恶魔龙在欧洲、九尾狐去了扶桑、白象去了印度,魔狼在北方草原。而我的四位好友全部在大汉,分别是朱雀、玄武、青龙、白虎。
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 残痕之美人泪

    残痕之美人泪

    她一个冷血无情的杀手,被自己的妹妹所害,穿越到前世。他一个无情无爱的男人,没有任何人可以得到他的爱。他一个温柔似水的男人,为了她,可以付出自己的一切。“既然毒不死你,那本爷就让你求生不得,求死不能”迷糊中,一个冷酷的声音响起。她是自己自杀的,怎么成了毒死的。同样的面孔,可他的心里,对她却只有恨。恨她什么?只为一个可笑的理由,那是狗皇帝的妹妹。
  • 剑之枫

    剑之枫

    众神陨落的大陆,究竟隐藏着什么……他又能否找到回家之路。
  • 叹凡缘

    叹凡缘

    万千大道唯我琴道称尊,玄黄大陆修炼之道昌盛,历经五个纪元,大陆上古兽,荒兽,即将重现,深海妖魔即将降临,纪元之劫开始,各个道统各有绝世妖孽崛起,万道争锋,仙门现世。先修仙,再修神,终修主宰
  • 海贼王之无限果实

    海贼王之无限果实

    在大航海时代,路飞成为了极恶时代的领头羊,而我,卡米因为太过喜欢海贼王,日夜兼程,黑白颠倒,终于,在一阵迷糊之后,再次醒来的我,躺在了一个海岸上…