今天给各位分享corrector的的知识,其中也会对pycorrector错别字识别进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
平时我们写一些文字机会都会需要纠正错别字,打字的时候很快,有时候会打算。比如我这种喜欢文章的就是,但是自己每次去检查费时费力,不能让自己专注于写文字的乐趣上。
今天我们就来研究下如何用技术手段帮助我们检测错别字。
这是一个中文文本纠错工具。可以对错别字进行纠正。我们来尝试下。
pip3installpycorrector\n\n
这里的pip是Python包管理工具,该工具提供了对Python包的查找、下载、安装、卸载的功能。
如果你使用这个命令的时候报notfound
那么就需要先安装一下这个包管理工具。我这边是mac安装一下python即可。
brewinstallpython\n
执行这个命令安装成功之后,会看到下图。
pip3installpycorrector\n使用
我们安装好pycorrector之后就可以开始使用了。
我们新建一个文件pycorrectorTest.py,切记不能叫pycorrector,因为这个会导致和系统的包名字重复,导致重复引入失败。
importpycorrector\n\ncorrected_sent,detail=pycorrector.correct('少先队员因该为老人让坐')\nprint(corrected_sent,detail)\n
然后我们写入以上代码。
python3pycorrectorTest.py\n
会出现以下界面
因为执行的时候规则方法默认会从路径~/.pycorrector/datasets/zh_giga.no_cna_cmn.prune01244.klm加载kenlm语言模型文件,如果检测没有该文件,则程序会自动联网下载。当然也可以手动下载模型文件(2.8G)并放置于该位置。
由于这个模型比较慢,建议找个网速比较好的地方进行下载。
[['因该',4,6,'word'],['坐',10,11,'char']]\n
返回类型是list,[error_word,begin_pos,end_pos,error_type],pos索引位置以0开始。
OK,关于corrector的和pycorrector错别字识别的内容到此结束了,希望对大家有所帮助。