搜索引擎工作原理总结-抵奥云

您现在的位置是:主页 > 资讯 >

搜索引擎工作原理总结

2020-08-05 22:24 职场心得 747人已围观

 一、搜索引擎的主要工作流程
        包括页面收录、页面分析、页面排序、关键词查询。

二、页面排序

        在搜索引擎查询关键词后,结果页面中户显示与该关键词相关的页面,这些页面按照与关键词的接近程度由上而下进行排列。而决定排列次序的因素主要有页面的相关性、链接权重以及用户行为。
        页面相关性:指页面内容与用户所查询的关键词的接近程度(主要由关键词匹配度)、关键词密度、关键词分布及关键词的权重等决定。
        链接权重:分为内部链接额外部链接。(两个都是大部分用户需要的、链接到的页面很重要的),一定程度上说指向某一个页面的链接越多,该页面的权重越大。
        用户行为:指用户对搜索结果的点击行为,是衡量页面相关性的因素之一,是完善排序结果、提高排序结果质量的重要补充,这种因素是不可操控的。

三、网页(页面)分析

        搜索引擎首先对存储的原始页面建立索引,在过滤原始页面的标签信息,从中提取出网页中的正文内容;然后对正文的内容进行切词,并建立关键词索引,得到页面与关键词间的对应关系;最后对所有的关键词进行重组,从而建立关键词与页面间的对应关系。

四、页面收录
         指的是搜索引擎在互联网上进行数据采集。
         以下为页面的收录流程:
         收录原理:
         收录方式:广度优先、深度优先及用户提交。

五、关键词查询

        搜索引擎的查询机制:
        (1)在用户发出查询请求前完成被查询关键词的反向索引、相关页面的权重计算等工作。
        (2)为那些查询最频繁的关键词对应的页面排序列表建立缓存机制。
        查询的流程:
        (先对用户提供的查询条件进行切词,并且删除查询条件中没有意义的字或者词,再以切词结果作为条件在关键词反向索引列表中进行警醒,再判断是否存在匹配结果、存在则把所有与关键词相警醒的页面组成一个列表,最后把警醒的页面按照权责值从高到低进行排序,返回给用户。)

Tags:

站点信息

  • 文章统计19篇文章
  • 标签管理标签云
  • 微信公众号:扫描二维码,关注我们
  • 老鸿二维码