发新话题
打印

[推荐] 搜索引擎的关键技术( 此文章被查看:1374次,被回复:0篇!! )

本主题由 yunshan 于 2008-3-28 18:57 移动

搜索引擎的关键技术

通常网页搜索引擎由几个环节构成:数据采集、关键词分析、索引编制、搜索工具
这几个组成部分的功能如下:数据采集,从互联网上采集页面,作为建立索引的依据;关键词分析,对采集的网页进行分析,提取其中的关键词;索引编制,为网页和分析出的关键词建立一个可供检索的索引库;搜索工具,为用户提供访问索引和获得结果的用户界面。主要关键技术有:
1、信息采集技术——传统搜索引擎在信息采集的过程中,无须考虑信息所属的领域,只是收集,以数量取胜,也并未考虑是否为死链。而垂直搜索在信息采集过程中,要着重考虑信息质量,只收集相关网页而忽略不相关网页,也就是说垂直搜索的spider要更加专业,更加智能。
2、网页提取技术——对于传统搜索引擎而言,网页提取技术主要局限在对spider收集到的数据进行结构化操作;而对于垂直搜索,在结构化操作以后,还要对其进行数据挖掘,更进一步的分析,剔出不相关无意义的数据,从而提高信息的质量。例如商品的搜索,用户感兴趣的仅仅局限在价格、品牌等少数的几个方面,这便体现出网页提取技术的重要性。
3、语义相关性技术——传统搜索包含了包罗万象的信息,因此语义相关性较差,一词多义而造成搜索结果和用户本意差距较大的情况时常发生。而垂直搜索由于其只包含某个领域的信息,语言上一词多义的现象较少,这样完全有可能有必要进行这方面研究。
4、分词技术——百度对于中国的市场之所以能很自信,很大的原因就是中文分词上百度要领先其他知名搜索引擎。因此可以看出分词技术十分重要。而对于垂直搜索,由于其限定在某一个领域,这样就可以建立相关领域的专业词库或者是字典,这样大大增加了分词的准确性,这必然可以增进搜索结果的准确性。
索引——好的索引可以加快搜索速度,能够更准确地进行网页定位,从而减少执行的成本。垂直搜索所需要的信息只是传统搜索信息的一个子集,传统搜索上使用的索引方法就不一定适合垂直搜索;而且垂直搜索得到的数据结构化更强,怎样利用这样的优势,也是寻找适合垂直搜索的索引的原因之一。



© 本文为 GilSCMLife 共同所有,未经同意,请勿转载 ©如该文侵犯了您的版权,请联系管理员

TOP

发新话题