当前位置:读零零>>花开美利坚> 第284章 谷歌一下
阅读设置(推荐配合 快捷键[F11] 进入全屏沉浸式阅读)

设置X

第284章 谷歌一下(1 / 2)

第284章谷歌一下

一个搜索引擎,还有比这更bang的东西么?

凯瑟琳未来自己经常登6的网站,大多都是通过“百度一下”而知道的。本章节参考自:http://www.bxwx.c新_笔_下_文_学凯瑟琳觉得,自己很有必要nong出一个搜索引擎来……

如果要追溯的话,搜索引擎的“历史”比or1ideeb还要长。早在eb出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。这些资源当时主要存在于各种允许匿名访问的FTp站点。

就目前而言,大多数网站都是大学的mén户网,其他的网站实在是太少了,于是搜索引擎的存在意义就被淡化了。

但是未来肯定不会如此。

且不说自己想要将这网上这些蛋疼的人分开,从另一方面而言,因为和《洛杉矶时报》的合作也快要开始了,综合类型的网站总是会出现的,于是搜索引擎就会变得必要起来。

“也许这是一个不错的注意……”凯瑟琳撑着下巴,然后在思考着。

而艾尔莎看看时间,已经快到下午…了,于是就去泡红茶了。

“什么主意?”

艾尔莎一边在拿着茶饼,一边问着。

“一个搜索引擎,一个能够让我们知道各种网站的一个好东西。”

“我们可以将自己想要的网页搜索出来?”

“对,就是这样。”

“这能办得到吗?”

“当然……”

虽然是肯定的回答,但是凯瑟琳最后的语气却变得有些奇怪。

搜索引擎依靠的是网络蜘蛛,即eb-spider。

这是一个很形象的比喻,就如同网络被人称为“net”一样(net就是“网”的意思)。

准确一点来说,网络蜘蛛就是通过网页的链接地址来寻找网页,从网站页开始读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。简而言之,网络蜘蛛就是一个爬行程序,一个抓取网页的程序。

未来的“百度”、“谷歌”等等网站,都是建立在这样的一个基础之上的。

可是凯瑟琳突然想到自己似乎根本就没有了解过“网络蜘蛛”这个东西,虽然知道原理,但是想要nong出来……似乎还有些麻烦。

“看来还给成立一个工作组才行。”

开始了抱着双手站了起来。

“我觉得我们公司的人才已经够紧张的了。”艾尔莎将红茶和茶饼放在了凯瑟琳的桌上。

“没关系,到了五月份,这种情况就能得到缓解。”Inte1与斯坦福大学的合作培养的第一批学生已经快要毕业了,有了他们的加入,公司的人才紧缺的问题必然能够得到一定程度的缓解。

“至少在未来十年内,我们公司的人才都有可能是供不应求,这是一个急扩张的产业,和那些传统行业是不一样的。”

——直到21世纪,这些行业对于人才的渴求依然是强烈的。

当然,中国除外——因为那里的人实在是太多了,乃至于都有了“IT民工”的说法。

凯瑟琳坐了下来,然后喝了一口红茶。

她一边喝着茶,一边在思考着应该如何写一个网络蜘蛛的程序出来。

评价一个网络蜘蛛的好坏,有三个方式,一个是覆盖率,网络蜘蛛的要目标是抓取互联网上所需的信息。因此,有价值的信息是否都收录,收录的比例是网络蜘蛛的基本评价指标;第二个则是时效xing,即事件生并在互联网上传播后(以新闻、论坛、博客等各种形式),用户需要通过搜索引擎尽快能检索到相应内容。而索引的前提是收录,因此需要网络蜘蛛尽快的抓取互联网上最新出现的资源;最后则是重复率,互联网上重复的内容很多,如何尽早的现页面重复并消除之,是网络蜘蛛需要解决的问题。除转载导致的重复外,重复总能体现为各种不同的模式,站点级重复,目录级重复,cgI级重复,参数级重复等等,及早现这些模式并进行处理,能节省系统的存储、抓取、建库和展现资源。

第一个问题最好解决,因为美国电信的根服务器就在诺亚。网页的覆盖率永远都是1oo。

需要解决的是第二和第三个问题。

事实上这也不是个大问题,原理很容易解决,最重要的一环在于需要一个高效率的程序。

光凭自己一个人的话,可能需要不少的时间。凯瑟琳一直梦想的是当一个甩手掌柜,这事怎么能够生呢?——于是,找人就是必须的。

最后,凯瑟琳决定从微软的phoenix-stargate开组chou调了三个人出来,帮助开这个网络蜘蛛程序。

反正星mén

上一章 目录 +书签 下一页