您的位置 首页 > 德语常识

bigdict德语,jieba中文分词

大家好,今天来为大家解答bigdict德语这个问题的一些问题点,包括jieba中文分词也一样很多人还不知道,因此呢,今天就来为大家分析分析,现在让我们一起来看看吧!如果解决了您的问题,还望您关注下本站哦,谢谢~

1、说到中文分词,就不得不说到jieba

2、jieba基于Python的中文分词工具,安装使用非常方便,直接pip即可,功能强大

3、jieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语,也可以用list(jieba.cut(...))转化为list

4、jieba.cut方法接受三个输入参数:

5、jieba.cut_for_search方法接受两个参数,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细

6、a='南京市长江大桥'\nt=jieba.cut(a,cut_all=True)#精准模式,默认\nprint(''.join(t))\n>>>南京市长江大桥\nt=jieba.cut(a,cut_all=True)#全模式\nprint(''.join(t))\n>>>南京南京市京市市长长江长江大桥大桥\ns=jieba.cut_for_search(a)#搜索引擎模式\nprint(''.join(s))\n>>>南京京市南京市长江大桥长江大桥\n添加自定义词典

很多时候我们需要针对自己的场景进行分词,会有一些领域内的专有词汇。开发者可以指定自己自定义的词典,以便包含jieba词库里没有的词。

7、虽然jieba有新词识别能力,但是自行添加新词可以保证更高的正确率。

8、用法:jieba.load_userdict(file_name)加载自定义字典,file_name为自定义词典的路径,

9、词典格式和dict.txt一样,一个词占一行,每一行分三部分,一部分为词语,另一部分为词频(可省略),最后为词性(可省略),用空格隔开

10、调整字典:使用add_word(word,freq=None,tag=None)和del_word(word)可以在动态修改字典

11、jieba.add_word("长江大桥",freq=20000,tag=None)

12、使用suggest_freq(segment,tune=True)可调节单个词语的词频,使其能(或不能)被分出来。

13、#利用调节词频使“尬”,“笑”都能被分出来

14、jieba.suggest_freq(("尬","笑"),tune=True)

15、停用词过滤主要是自己构造停用词表文本文件,并将文本中的内容读入list,对分词后的结果逐个检查是否在停用词列表中,如果在,就过滤掉,最后得到过滤后的结果。

16、一般是用来过滤掉一些无意义的并且大量出现的词

17、关键词提取所使用停止词(StopWords)文本语料库可以切换成自定义语料库的路径。jieba.analyse.set_stop_words(file_name)#file_name为自定义停用词语料库的路径

18、jieba.analyse.extract_tags(sentence,topK=20,withWeight=False,allowPOS=())

19、关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径

20、用法:jieba.analyse.set_idf_path(file_name)#file_name为自定义语料库的路径

21、jieba.posseg.POSTokenizer(tokenizer=None)新建自定义分词器,tokenizer参数可指定内部使用的jieba.Tokenizer分词器。jieba.posseg.dt为默认词性标注分词器

22、importjieba.possegaspg\na='比老版蜘蛛侠里的毒液差太多了。节奏拖沓,流水线的套路,生涩的笑梗,失败中的失败,除了特效越做越好,整部片只能说失望至极'\nwords=pg.cut(a)\nforword,flaginwords:\niflen(word)>1:\nprint(word,flag)\n

jieba分词器在处理中文分词中是非常好的,但是,jieba分词器默认的分词语料库dict.txt确存在问题:

23、dict.txt中存在许多单字,例如:”大”,”午”,”我”,而且给予单字的词频特别高,都具有万以上的词频数,我们都知道词频与权重是成正比的,那么在分词的过程中就会优先处理这些单词,而与其相关的词语就会被忽略,这就导致分词结果不准确的问题。

24、为了更好的使用jieba分词,将其词频设置非常小.也可以将dict.txt中的单字全部去掉,下载你所需要的词典,然后覆盖'jieba/dict.txt'即可或者用jieba.set_dictionary('data/dict.txt.big')

END,本文到此结束,如果可以帮助到大家,还望关注本站哦!

本站涵盖的内容、图片、视频等数据,部分未能与原作者取得联系。若涉及版权问题,请及时通知我们并提供相关证明材料,我们将及时予以删除!谢谢大家的理解与支持!

Copyright © 2023