计算机毕业论文,毕业论文,毕业设计 毕业论文免费检测 知网论文检测
当前位置: 骆驼论文网 > JAVA毕业设计 >

基于表单的网页内容获取系统设计

时间:2013-11-18 10:27来源: 骆驼毕业论文网 作者:编辑部
摘要 随着计算机技术的飞速发展,计算机信息化在管理中应用的普及,利用计算机进行基于表单的网页内容获取系统设计势在必行。传统的搜索引擎仅仅搜索互联网上称为 publicly indexable Web(PIW,可索引)的信息,也就是静态页面。但是,大量有用的信息都存储

QQ交谈计算机毕业设计,毕业设计,毕业论文,计算机毕业论文

摘要
随着计算机技术的飞速发展,计算机信息化在管理中应用的普及,利用计算机进行基于表单的网页内容获取系统设计势在必行。传统的搜索引擎仅仅搜索互联网上称为 publicly indexable Web(PIW,可索引)的信息,也就是静态页面。但是,大量有用的信息都存储在后台数据库中,没有显式的网址索引,要想获取他们,只能通过提交表单才能实现查询。我们称之为隐藏网页。研究表明,目前 Hidden Web大约有 307000 个站点,450000个后台数据库,1258000 个查询接口,其信息资源仍在迅速增长,当前主要的搜索引擎已经覆盖 Hidden Web 大约 1/3 的页面,然而,在Hidden Web信息覆盖率上当前搜索引擎存在技术上的本质缺陷,可见,通过填写表单获得后台数据库的信息是很有意义的。
本文采用JAVA技术所设计基于表单的网页内容获取系统管理可以满足基于表单的网页内容获取系统管理方面的需要。

关键字:Hidden Web;JAVA;基于表单的网页内容获取系统
HiWE(Hidden Web Exposer)[1]是斯坦福大学的一个研究项目,设计了一种可以抽取Hidden Web 内容的爬虫。在此系统中爬虫管理器负责管理搜集过程。它对下载的Web页面进行分析,包含表单的页面被送到表单处理器中专门处理。表单处理器先从页面中抽取出表单,再从预先准备好的数据集中选择数据自动完成表单填写,所以要求用户事先准备相应的表单数据集。HiWE只能面向特定的领域使用,而且必须在人工帮助下完成。此系统主要工作是让爬虫自己学习去填写查询接口,而不是怎样自主产生查询词,在抓取前需要准备一个庞大的词库,然后依次提交库里的查询词,效率低下,且此方法还很难在没有限制的条件下使用.
 Brower/Server体系结构介绍
浏览器/服务器结构(Browser/Server,缩写为B/S)是一种特殊的客户机/服务器结构,它是随着Internet技术的兴起,对C/S结构的一种变化或者改进的结构[6]。它主要应用在Internet,Intranett网是目前全球最大的计算机通信网,遍及全球几乎所有的国家和地区,Internet上提供了大量的服务,包括E-mail服务,文件传输服务,远程登录服务,BBS电子布告栏,News讨论区及www等。使用Internet可以得到很多便利,可以很方便的通过Internet提供的资料去查询和获取Internet的消息[7]。www是一个涉及全世界的信息系统,是Internet上高效、方便的检索工具,www能够将Internet上不同站点上的相关细细资源以超文本、多媒体的方式有机的“编织"在一起,Internet用户提供全球范围内的服务。在www中采用Browser/Server结构,该模式具有功能分明,位置透明,共享资源,服务封装,同步/异步操作以及可扩展性等主要特征[8]。
 

本文内容只是论文部分简介,如需了解更多详情请咨询本站客服! QQ交谈计算机毕业设计,毕业设计,工程硕士论文,计算机毕业论文
毕业论文搜集整理:毕业论文网 计算机毕业设计 计算机毕业论文 毕业设计


顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
计算机毕业设计
计算机毕业论文
论文发表