登陆注册
48710800000070

第70章 科普搜索的研究与实现(1)

吴晨生 刘彦君 张鲁冀 董晓晴

(北京市科学技术情报所,北京,100876)

摘要:本文综合应用主题搜索技术和深网信息集成技术,设计并实现了一个基于科普领域的主题深度搜索引擎。文中介绍了系统的体系结构、主题信息采集策略以及所使用的关键技术,并通过实验验证了网页分类器的高准确性,最后设计实验验证系统搜索效果并对相关工作进行了比较分析。

关键词:深网主题搜索引擎主题分类机器人网页分类器

一、引言

目前,针对某一领域的主题搜索引擎的研究已成为研究热点之一,超过50%的深网内容是特定于某个领域的,即面向某个领域,针对基于领域的深网信息集成技术的研究也成为当今信息检索领域研究的一个热点。本文所描述的科普深度搜索引擎正是上述两种技术结合于科普领域的产物。

二、系统结构

本文在传统的主题搜索引擎体系结构的基础上,加入了深网信息集成方案,研究并利用科普领域知识的特征,设计出科普深度搜索引擎的结构。

现对主要部分做简要说明:

(1)主题分类机器人:完成从web中采集科普领域信息并入库的工作;

(2)深网信息集成:协调调用相应机器人完成对指定深网网站的实时检索功能并将合并结果返回;

(3)索引器:完成对库中科普领域数据创建索引文件的工作;

(4)查询器:根据用户输入的查询条件查询索引文件并返回查询结果;

(5)用户接口:为用户提供综合的查询接口。

三、主题信息采集策略

本文研究分析了科普领域信息的特征,并根据这些特征,有针对性地设计主题信息采集策略。

1.科普领域信息特征分析

通过研究观察发现,科普领域信息在网络分布上和覆盖范围上有以下特征:

(1)网络分布上:科普领域信息多以块状分布于整个web中,其中每一个块多以独立的网站形式存在,少数块存在于大型网站的二级结构中,更少数的科普信息散落地存在于网络中。

(2)覆盖范围上:相较于其他主题信息如林业、农业以及医学等,科普领域信息覆盖范围较大,如天文、地理、生物、历史考古、IT等均属于科普领域。

针对上述特征分析,得出如下分析结果:

①科普领域信息的块状分布有利于我们对大部分信息的集中采集,目标是找到尽可能多的块,放弃少数散落的科普信息,这是对科普信息高效采集的一种考虑。

②基于领域的深网信息集成技术是科普领域信息搜索的可行思路。

③由于科普领域覆盖范围较宽,我们将科普主题进行了分解,将其分为天文主题、地理主题、生物主题、考古主题以及综合主题,分别提取各子类主题特征,综合所有细分主题的特征作为科普主题判断依据。

2.数据采集策略设计

根据上述分析,我们设计出两种科普数据采集方案:人工干预策略与先采集后过滤策略相结合的主题爬虫采集策略;科普领域深网信息集成方案。

(1)主题爬虫采集策略能够高效完成对大量科普领域信息的采集。策略描述如下:

①收集科普主题网站作为主题机器人爬行的种子urls并入库保存;

②机器人从库中读取一个url;

③机器人以读取到的url为起始链接,以宽度优先策略进行遍历;

遍历过程遵循规则:若待爬url为种子url域名内链接,则直接抓取此页面;否则,用网页分类器对此url页面进行分类过滤,若属于科普领域页面则抓取,否则放弃此url。

④循环上述②、③步骤。

(2)科普领域深网信息集成方案描述:首先,有针对性地选择查询效果好的科普网站,分别制作表单查询机器人;其次,设计调度机制。根据用户选择调用相应的表单查询机器人,由其填写表单进行实时深网信息采集。

四、关键技术

科普深度搜素引擎所使用的关键技术有主题爬虫技术、深网信息集成技术以及基于Lucene的索引机制,下面对这些技术进行详细分析。

1.主题分类机器人

科普深度搜索引擎的主题分类机器人通过站内网页判断和科普网页分类两种方式对网络信息进行过滤抓取,有较高的分类准确率和采集效率。

(1)机器人架构

机器人的制作基于工作流/组件技术的网页信息抽取系统VWIE来完成。利用VWIE的组件可扩展性,我们为其添加了分类器组件以及域名判断组件,用以实现具有页面过滤和站内页面判断功能的主题分类机器人的制作。

(2)分类器核心算法

SVM分类算法是目前分类效果非常好的一种文本分类算法,故本文系统分类器采用SVM分类算法。支持向量机理论(SVM)最初来源于数据分类问题的处理,简单地说,SVM就是要寻找一个满足要求的分割平面,使训练集中的点距离该平面尽可能地远,即寻求一个分割平面使其两侧的margin尽可能最大。一般分为线性可分和线性不可分两种情况讨论:

给定一组训练样本集(x1,y1),(x2,y2),…,(xi,yi),其中xi∈RN为N维向量,yi∈{-1,1}。

(3)分类器准确率实验

①分类训练样本设置

训练样本分为科普和非科普两类,我们对这两类进行了细分,尽可能多地将其划分为小类。

②实验结果

我们人工从目录网站及Google上共搜集到349个科普网站,随机从中选择50篇网页作为科普类网页,从新浪博客中人工选取50篇网页作为非科普类网页作实验数据。

实验结果表明:SVM分类器用于科普主题分类有较高的准确性。

2.深网信息集成

根据用户的选择协调调用相应机器人、机器人对用户选择的深网网站进行实时检索,最后合并机器人查询结果返回给用户接口。

(1)技术基础

系统深网信息集成的技术基础是基于网页结构分析的表单填写技术。

(2)集成框架

3.基于Lucene的检索机制

系统信息检索部分使用Lucene实现索引器和查询器功能,但Lucene中文分词并不十分理想,因此利用Lucene的可扩展性我们使用现在较为流行的开源中文分词庖丁解牛技术代替原有的分词。替换后效果明显,很大程度上优化了索引质量和查询效果。

索引器主要完成将切词形成的顺排档文档组织成倒排档索引数据。索引的建立即索引器的实现,主要分两步:首先构造一个Document的文档对象doc,其中包括描述数据域和正文数据域,这是因为只有符合Lucene.Document要求的文档才能使用Lucene对其建立索引。

同类推荐
  • 《Internet实用技术》作业集

    《Internet实用技术》作业集

    随着计算机应用的普及和社会信息化水平的提高,Internet已走进我们的生活。《Internet实用技术》这门课将带领我们走进网络的神秘殿堂,让我们认识网络,了解网络,进而学会使用网络,维护网络。其范围涵盖了在授课过程中所讲授的内容,题型多样,内容丰富,并附有两套模拟题,最后附有答案。学生可按照课程进度做习题来巩固和掌握知识。本作业集由李琳编写,由西北工业大学网络教育学院负责组稿和审定。因为时间仓促,水平有限,错误和不当之处在所难免,敬请读者批评指正。
  • 中国移动智能手机的秘密

    中国移动智能手机的秘密

    《中国移动智能手机的秘密》是一本关于移动终端和移动互联网的科普书。作者将这18年通信行业中的学习、思考、实践积累成《中国移动智能手机的秘密》与大家分享。书本系统总结了手机的发展历史、TD产业界“从2G向3G演进”的移动终端产业分化重组进程、智能手机的使用方法用方法和应用指南,以及对移动互联网发展独特思考。
  • 中国3D打印的未来

    中国3D打印的未来

    自2012年以来,有关3D打印的报道屡见报端,这一新型制造技术引起了全世界的广泛关注。《中国3D打印的未来》作者、中国3D打印技术产业联盟秘书长罗军认为,中国从20世纪90年代初开始涉足3D打印技术,并取得了巨大进展,但与国外同行相比仍存在一定差距。特别是中国3D打印企业普遍存在“小而散”、各自为政的现象,如何发挥整合优势、抱团发展是目前亟需解决的问题。如果能够加强同行合作,抱团发展,形成合力,相信3D打印会成为唯一一项中国有可能赶超世界先进水平的技术。
  • 综合应用软件设计

    综合应用软件设计

    本书是为计算机、信息管理等相关专业高年级本科生在开设相关课程时所编写的一本教学参考书,它将全面指导学生学习、熟悉和运用当今被广泛采纳的一些主流技术去进行综合应用软件设计的有效实践。
  • 办公软件高级应用

    办公软件高级应用

    日新月异的信息技术使计算机的应用渗透到各行各业,融入到我们的工作、学习和生活中,特别是在办公领域中运用计算机技术,可以实现办公自动化,成倍地提高工作效率。在众多的办公软件中,微软公司的Office系列软件是办公自动化软件中的佼佼者,其强大的功能深受全世界广大用户的青睐。根据当前业界的需求以及办公软件的实际应用范围,本书针对Office2003系列产品,深入讲解其高级应用知识和操作技能。
热门推荐
  • 明星名厨

    明星名厨

    一个地球的中国人,穿越到了仙女星。他将中国的文化带到了异世,也将中餐带到了他乡。他带去的歌曲,火遍了那个世界。他制作的电影电视,单部票房过百亿。他写的小说,被几千万的读者催更。他做的一碗牛肉拉面售价高达100元,还要限量供应。首相来吃过家乡的红烧狮子头,议长来吃过芋艿头扣肉煲。皇帝的外甥女儿是曹氏小餐馆的常客。这一切,来源于曹磊有一个“掠夺系统”。“掠夺系统”最厉害的方面是“精神探测”功能,它能将目标的记忆、经验、成就偷取,转换为曹磊的经验、成果……
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 通缉总裁的出逃妻

    通缉总裁的出逃妻

    他爱她爱得要命,宠她宠的要命,她却不领情,背着包袱逃之夭夭,可是平静的生活没有几天,他竟然发出通缉令,高额的赏金让她每日提心吊胆,罢了,她决定投降,认输,可是原来她的爱情并不是那么美好……
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 旦

    故事发生的时间设定在上世纪八十年代末至九十年代初的几年。以一个中学生及他的家庭为主线,描写了一个普通百姓家庭生活,以及在那个时代社会背景下人们的生存观念。
  • 鬼仙都

    鬼仙都

    修为尽失的修真高手霍东穿越到元气贫瘠的大都市,开始一段不一样的修炼之旅。
  • 一眼皆万年

    一眼皆万年

    黑夜里遇到,一眼万年苦难随他,幸福皆你以后的以后,我陪你
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 世界通史10

    世界通史10

    本书介绍了人类历史上1945年至今的历史故事,包括了美苏两大阵营的对峙、世界多元化格局、丰硕的科技文化成果等内容。
  • 粉红春梦

    粉红春梦

    什么?我勾引你?她瞪大眼睛,简直不能相信面前这个人的话.这人脸皮还真是厚啊.是你勾引我的好吗?我为什么要勾引你?你谁啊?她气愤.最近真是走霉运,失恋,没工作,现在连贞洁也丢了.天!我勾引你?我需要这样做吗?追我的女人都能排到三环以外呢!他洋洋得意.郑浩天万万没想到自己后来竟然被这个小女人吃得死死的!