nlp入门（三）基于贝叶斯算法的拼写错误检测器

2023-08-09 09:24 由过客匆匆，沉沉浮浮发表于 #后端开发

源码请到：自然语言处理练习: 学习自然语言处理时候写的一些代码 (gitee.com)

贝叶斯原理可看这里：机器学习算法学习笔记 - 过客匆匆，沉沉浮浮 - 博客园 (cnblogs.com)

一、数据预处理

将输入的数据全部变为小写方便后续处理

def words(text):
    return re.findall('[a-z]+', text.lower())

二、根据语料库统计不同单词出现的词频

单词字典每个单词词频默认为1，因为如果单词字典默认值为为0，那么出现了语料库中没有的单词，就会默认概率为0，导致新的单词无法被识别

def train(features):
    model = collections.defaultdict(lambda: 1)  # 如果默认为0则出现语料库中没有的新词会不识别，所以默认为1
    for f in features:
        model[f] += 1
    return model

三、打开语料库与构建字母表

NWORDS = train(words(open('data/big.txt').read()))
alphabet = 'abcdefghijklmnopqrstuvwxyz'

四、返回编辑距离为1的单词

单词a经过n次修改可以得到新的单词b，那我们叫b为a的编辑距离为1的单词，下面函数就返回编辑距离为1的单词

# 返回编辑距离为1的单词
def editsl(word):
    n = len(word)
    return set([word[0:i] + word[i + 1:] for i in range(n)] +  # 字母打多了一个
               [word[0:i] + word[i + 1] + word[i] + word[i + 2:] for i in range(n - 1)] +  # 字母打反了一个
               [word[0:i] + c + word[i + 1:] for i in range(n) for c in alphabet] +  # 字母打错了一个
               [word[0:i] + c + word[i:] for i in range(n + 1) for c in alphabet])  # 字母打少了一个

五、返回编辑距离为2的单词

# 考虑编辑距离为2的单词
def known_edits2(word):
    return set(e2 for e1 in editsl(word) for e2 in editsl(e1) if e2 in NWORDS)

六、判断单词是否在语料库中

def known(words):
    return set(w for w in words if w in NWORDS)

七、纠正拼写错误的单词

优先考虑原单词a是否在语料库中，如果存在就返回原单词，不存在就考虑编辑距离为1的单词，返回使用频率最高的那个如果编辑距离为1的单词也不在语料库中，那么就考虑编辑距离为2的单词，同样，如果编辑距离为2的单词都不在语料库中，那么这可能是一个新的单词，直接返回单词本身

def correct(word):
    candidates = known([word]) or known(editsl(word)) or known_edits2(word) or [word]
    return max(candidates, key=lambda w: NWORDS[w])

八、测试结果

print(correct('appl'))
print(correct('appla'))
print(correct('learw'))
print(correct('tess'))
print(correct('morw'))

SpringBoot3之Web编程

> 标签：Rest.拦截器.swagger.测试; # 一、简介基于`web`包的依赖，SpringBoot可以快速启动一个`web`容器，简化项目的开发；在`web`开发中又涉及如下几个功能点： **拦截器**：可以让接口被访问之前，将请求拦截到，通过对请求的识别和校验，判断请求是否允许通过； ...阅读全文

quarkus依赖注入之十：学习和改变bean懒加载规则

为了降低启动时间，quarkus下的常规作用域bean遵循懒加载规则，但有时我们希望bean可以更早实例化，本篇，咱们一起来了解懒加载规则和改变规则的方法 ...阅读全文

《深入理解Java虚拟机》笔记：垃圾收集算法和HotSpot的算法实现

由于垃圾收集算法的实现涉及大量的程序细节，而且各个平台的虚拟机操作内存的方法又各不相同，因此本节不打算过多地讨论算法的实现，只是介绍几种算法的思想及其发展过程。 ...阅读全文

切面实现下单请求防重提交功能（自定义注释@repeatSubmit）

##### 该切面功能适用场景 - 下单请求多次提交，导致生成多个相同的订单 ##### 解决方案 - 前端解决：限制点击下单按钮为1次后失效。不足：用户体验下降，能绕过前端 - 后端解决：防重提交切面解决，自定义注释实现该功能（如下) - 步骤： - 自定义注释类RepeatSubmit - 创建 ...阅读全文

9、Spring之代理模式

## 9.1、环境搭建 ### 9.1.1、创建module ![image](https://img2023.cnblogs.com/blog/2052479/202308/2052479-20230806234218377-617105837.png) ### 9.1.2、选择maven ![i ...阅读全文

Go 变量

在Go中，有不同的**变量类型**，例如： - `int` 存储整数（整数），例如123或-123 - `float32` 存储浮点数字，带小数，例如19.99或-19.99 - `string` - 存储文本，例如“ Hello World”。字符串值用双引号括起来 - `bool` 存储具有两个 ...阅读全文

学好Elasticsearch系列-分词器

本文已收录至Github，推荐阅读 👉 [Java随想录](https://github.com/ZhengShuHai/JavaRecord) 微信公众号：[Java随想录](https://mmbiz.qpic.cn/mmbiz_jpg/jC8rtGdWScMuzzTENRgicfnr91C5 ...阅读全文

零基础尝试搭建docker和nacos环境

一、安装docker 参考 https://blog.csdn.net/m0_59196543/article/details/124749175 这篇文章，感谢大佬分享 1、检查是否安装过docker，如果有，则卸载 yum remove docker \ docker-client \ dock ...阅读全文

最近台风肆虐，让我们用Python获取天气数据，分析一下台风到底要去哪！

最近台风肆虐，已进入我国24小时警戒线！台风“卡努”到底要去哪儿？作为一个Python程序员，虽然我帮不上忙，但是时时关注一下还是可以的，顺便祈祷一下台风往东边某个小日子过得不错的小岛吹。于是我花了一分钟，用Python写了一个获取天气数据的代码，然后进行数据分析，看看到底吹不吹的过去。首先我 ...阅读全文

python教程入门学习笔记第8天安装插件sublimeREPL 设置快捷键 BUG解答

6、安装插件sublimeREPL 需要安装插件：sublimeREPL，才能在sublime编译器中接受键盘输入的信息，才能执行交互结果插件安装快捷键：ctrl+shift+P，打开插件安装面板输入install后，选择package control:install package 安装插件管 ...阅读全文