计算机毕业论文,毕业论文,毕业设计 毕业论文免费检测 知网论文检测
当前位置: 骆驼论文网 > JAVA毕业设计 >

基于java网络蜘蛛程序(含开题+任务书+PPT)

时间:2013-11-12 10:16来源: 骆驼毕业论文网 作者:编辑部
摘 要 在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。网络蜘蛛程序是Web搜索引擎技术中关键的一部分。 本论文基

QQ交谈计算机毕业设计,毕业设计,毕业论文,计算机毕业论文

摘  要
在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。网络蜘蛛程序是Web搜索引擎技术中关键的一部分。
本论文基于现有的知识理论实现了蜘蛛程序,从给定网址开始进行爬行搜索,利用数据库队列技术管理网页链接,将访问过的网页资源下载到本地硬盘保存。通过使用Lucene工具包对下载资源。利用java.url中的类实现Spider程序与外界通讯,以及处理网页中的URL连接,对蜘蛛程序的核心类(通讯核心、蜘蛛程序工作核心),资源索引的建立与搜索新型了详细的研究。
通过设计分析,完成了自己的蜘蛛爬行程序。程序按照初始设计功能完成,实现了对网络资源的收集和整理。功能通过了测试,程序可以正常稳定运行
最后论文对全文进行了总结,并对为了发展的方向进行了展望。
1.3 本论文的结构
第二章,程序设计目标及策略,主要描述对程序的设计与理解
第三章,对程序的设计、测试,叙述通过分析功能点,对各个功能点代码的设计及完成以及测试
第四章,对全文的总结,对程序发展的展望
网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通
过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页面的平均大小20K计算(包含图片),100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕)
自互联网发展以来,网络资源呈几何速度增加。抓取效率是一个蜘蛛程序的关键,抓取的效率和计算机硬件的性能、硬件的多少、网络的带宽有关系,但为了提高抓取效率不能一味地增加硬件,而是要利用有限的硬件资源在一定的时间内抓取最多的的网页。常见的提高抓取效率的策略有:采用多线程并发抓取、采用单线程、非阻塞I/O抓取、分布式抓取,把抓取工作分布到多台服务器完成,对于Google这样的搜索引擎还包括地理上的分布式,把抓取服务器机群分布到全球各个国家的主干网上抓取。
抓取重复。之所以会造成重复抓取,是因为:互联网上大量网页被其他网页引用,这就使得同一个网页的URL出现在多个不同的网页中,这就要求spider必须有URL消重功能。在获取大量资源后,将资源储存在本地,为信息检索提供资源。因此本文从以下几个技术实现Spider程序
 

本文内容只是论文部分简介,如需了解更多详情请咨询本站客服! QQ交谈计算机毕业设计,毕业设计,工程硕士论文,计算机毕业论文
毕业论文搜集整理:毕业论文网 计算机毕业设计 计算机毕业论文 毕业设计


顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
计算机毕业设计
计算机毕业论文
论文发表