搜索引擎-03-搜索引擎原理

2024-04-04 07:54 由老马啸西风发表于 #后端开发

拓展阅读

搜索引擎-01-概览

搜索引擎-02-分词与全文索引

搜索引擎-03-搜索引擎原理

Crawl htmlunit 模拟浏览器动态 js 爬虫入门使用简介

Crawl jsoup 爬虫使用 jsoup 无法抓取动态 js 生成的内容

Crawl WebMagic 爬虫入门使用简介 webmagic

全网搜索引擎架构与流程如何？

全网搜索引擎的宏观架构如上图，核心子系统主要分为三部分（粉色部分）：

（1）spider 爬虫系统；

（2）search+index: 建立索引与查询索引系统，这个系统又主要分为两部分：

一部分用于生成索引数据 build_index

一部分用于查询索引数据 search_index

（3）rank 打分排序系统；

核心数据主要分为两部分（紫色部分）：

（1）web 网页库；

（2）index 索引数据；

全网搜索引擎的业务特点决定了，这是一个“写入”和“检索”分离的系统

如何写入

系统组成：由spider与search+index;两个系统完成。

输入：站长们生成的互联网网页。

输出：正排倒排索引数据。

流程：如架构图中的1，2，3，4：

（1）spider把互联网网页抓过来；

（2）spider把互联网网页存储到网页库中（这个对存储的要求很高，要存储几乎整个“万维网”的镜像）；

（3）build_index从网页库中读取数据，完成分词；

（4）build_index生成倒排索引；

如何建立索引

系统组成：由search+index;与rank两个系统完成。

输入：用户的搜索词。

输出：排好序的第一页检索结果。

流程：如架构图中的a，b，c，d：

（a）search_index获得用户的搜索词，完成分词；

（b）search_index查询倒排索引，获得“字符匹配”网页，这是初筛的结果；

（c）rank对初筛的结果进行打分排序；

（d）rank对排序后的第一页结果返回；

热门相关：我写的书实在太毒了至尊凰妃超级英雄美漫大幻想逼婚首席：影后前妻很抢手

枚举类型

枚举类型目录枚举类型1. 定义2. 枚举元素的值2.1 默认2.2 全部赋值2.3 部分赋值3. 枚举变量的定义方式3.1 先定义枚举类型，再定义枚举变量3.2 同时定义枚举类型和枚举变量3.3 忽略枚举名，直接定义枚举变量3.4 结合typedef关键字4. 总结 1. 定义枚举是用来代表整数 ...阅读全文

OAuth 2.0（Open Authorization 2.0）授权框架入门介绍

拓展阅读 OAuth 2.0-01-Overview OAuth2-02-java 整合 OAuth2-03-springboot 整合 oauth2 是什么？ OAuth 2.0（Open Authorization 2.0）是一种授权框架，允许第三方应用程序访问用户在另一个服务提供者上托管的资源 ...阅读全文

数据分析的利器，Pandas 软件包详解与应用示例

左手编程，右手年华。大家好，我是一点，关注我，带你走入编程的世界。公众号：一点sir 在中土大地上，有一位名为"数据剑客"的江湖人士，他手持一柄闪烁着银光的利剑，剑法犀利，能够破解数据的种种奥秘。传言他曾在一场数据风暴中横扫八方，击溃了无数数据乱象，以无情的数据剑法征服了各路数据恶徒。这位"数据 ...阅读全文

C++ While 和 For 循环：流程控制全解析

C++ Switch 语句使用 switch 语句选择要执行的多个代码块之一。语法 switch(expression) { case x: // 代码块 break; case y: // 代码块 break; default: // 代码块 } 它的工作原理如下： switch 表达式被评估 ...阅读全文

spring-5学习笔记

Spring5-2023/08/23(稍后更新6) 01 初识Spring 1.1 简介 Spring框架是由于软件开发的复杂性而创建的。Spring使用的是基本的JavaBean来完成以前只可能由EJB完成的事情。 Spring是一个轻量级控制反转（IoC）和面向切面（AOP）的容器框架历史： ...阅读全文

Redis连接超时排查实录

记一次Redis超时关键字：#spring-data-redis、#RedisTemplate、#Pipeline、#Lettuce spring-data-redis:2.6.3 1 现象时间轴（已脱敏） day01 线上发现接口耗时不正常变高 day02 其他接口mget操作偶现超时，陆续发 ...阅读全文

keycloak~在认证的action中自定义重定向地址

场景与实现逻辑我的登录接口，在输入账号密码成功后进行中间页中间页可以通过添加Authenticator的实现类来写逻辑 authenticate方法是渲染页面的，action方法是提交表单后的逻辑 context.success()方法表示认证成功，将进行重写向操作可以通过Response.s ...阅读全文

go~连接redis的方法

在Go语言中使用Redis，通常需要使用第三方库来实现与Redis服务器的交互。目前比较流行的Go语言Redis客户端库有go-redis和redigo等。这里以go-redis为例，简单介绍如何在Go语言中使用Redis。使用go-redis连接Redis数据库安装go-redis库：可以使 ...阅读全文

go~wasm插件的开发

Go和TinyGo是两种不同的Go语言编译器，它们之间有以下几点区别：目标平台： Go：Go语言编译器主要面向通用计算机平台，如Windows、Linux、macOS等。 TinyGo：TinyGo专注于支持嵌入式系统和物联网设备等资源受限的平台，如微控制器、嵌入式设备、WebAssembly等。 ...阅读全文

django原生FBV

1,django原生FBV urls.py # 1,django原生FBV path('origin/',FBV.view), path('origin2/<str:id>/',FBV.view_detail) view.py import json from django.db.models im ...阅读全文