互联网搜索引擎整体架构

爬虫系统架构

爬虫禁爬协议

文档矩阵与倒排索引

文档与倒排索引

带词频的倒排索引

带词频与位置的倒排索引

Lucene 架构

Lucene 倒排索引

Lucene 索引文件准实时更新

ElasticSearch 架构

ES 分片预分配与集群扩容

网页排名算法 PageRank
PageRank,网页排名,又称网页级别,Google 左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以 Google 公司创始人拉里佩奇的姓来命名。
PageRank 让链接来投票

PageRank 算法








一个电影搜索引擎案例

文档文件 subject.dat

倒排索引文件
加权词频排序算法

源码
- Web 应用:https://github.com/itisaid/sokeeper
- 爬虫、倒排索引构建:https://github.com/itisaid/cmdb ���������
汉语处理组件包(汉语分词)
https://github.com/hankcs/HanLP

一个智能助理机器人案例
https://github.com/zhihuili/robot


