大家好,今天来为大家解答bigdict德语这个问题的一些问题点,包括jieba中文分词也一样很多人还不知道,因此呢,今天就来为大家分析分析,现在让我们一起来看看吧!如果解决了您的问题,还望您关注下本站哦,谢谢~
1、说到中文分词,就不得不说到jieba
2、jieba基于Python的中文分词工具,安装使用非常方便,直接pip即可,功能强大
3、jieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语,也可以用list(jieba.cut(...))转化为list
4、jieba.cut方法接受三个输入参数:
5、jieba.cut_for_search方法接受两个参数,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细
6、a='南京市长江大桥'\nt=jieba.cut(a,cut_all=True)#精准模式,默认\nprint(''.join(t))\n>>>南京市长江大桥\nt=jieba.cut(a,cut_all=True)#全模式\nprint(''.join(t))\n>>>南京南京市京市市长长江长江大桥大桥\ns=jieba.cut_for_search(a)#搜索引擎模式\nprint(''.join(s))\n>>>南京京市南京市长江大桥长江大桥\n添加自定义词典
很多时候我们需要针对自己的场景进行分词,会有一些领域内的专有词汇。开发者可以指定自己自定义的词典,以便包含jieba词库里没有的词。
7、虽然jieba有新词识别能力,但是自行添加新词可以保证更高的正确率。
8、用法:jieba.load_userdict(file_name)加载自定义字典,file_name为自定义词典的路径,
9、词典格式和dict.txt一样,一个词占一行,每一行分三部分,一部分为词语,另一部分为词频(可省略),最后为词性(可省略),用空格隔开
10、调整字典:使用add_word(word,freq=None,tag=None)和del_word(word)可以在动态修改字典
11、jieba.add_word("长江大桥",freq=20000,tag=None)
12、使用suggest_freq(segment,tune=True)可调节单个词语的词频,使其能(或不能)被分出来。
13、#利用调节词频使“尬”,“笑”都能被分出来
14、jieba.suggest_freq(("尬","笑"),tune=True)
15、停用词过滤主要是自己构造停用词表文本文件,并将文本中的内容读入list,对分词后的结果逐个检查是否在停用词列表中,如果在,就过滤掉,最后得到过滤后的结果。
16、一般是用来过滤掉一些无意义的并且大量出现的词
17、关键词提取所使用停止词(StopWords)文本语料库可以切换成自定义语料库的路径。jieba.analyse.set_stop_words(file_name)#file_name为自定义停用词语料库的路径
18、jieba.analyse.extract_tags(sentence,topK=20,withWeight=False,allowPOS=())
19、关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径
20、用法:jieba.analyse.set_idf_path(file_name)#file_name为自定义语料库的路径
21、jieba.posseg.POSTokenizer(tokenizer=None)新建自定义分词器,tokenizer参数可指定内部使用的jieba.Tokenizer分词器。jieba.posseg.dt为默认词性标注分词器。
22、importjieba.possegaspg\na='比老版蜘蛛侠里的毒液差太多了。节奏拖沓,流水线的套路,生涩的笑梗,失败中的失败,除了特效越做越好,整部片只能说失望至极'\nwords=pg.cut(a)\nforword,flaginwords:\niflen(word)>1:\nprint(word,flag)\n
jieba分词器在处理中文分词中是非常好的,但是,jieba分词器默认的分词语料库dict.txt确存在问题:
23、dict.txt中存在许多单字,例如:”大”,”午”,”我”,而且给予单字的词频特别高,都具有万以上的词频数,我们都知道词频与权重是成正比的,那么在分词的过程中就会优先处理这些单词,而与其相关的词语就会被忽略,这就导致分词结果不准确的问题。
24、为了更好的使用jieba分词,将其词频设置非常小.也可以将dict.txt中的单字全部去掉,下载你所需要的词典,然后覆盖'jieba/dict.txt'即可或者用jieba.set_dictionary('data/dict.txt.big')
END,本文到此结束,如果可以帮助到大家,还望关注本站哦!