博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【Python 数据分析】jieba文本挖掘
阅读量:6713 次
发布时间:2019-06-25

本文共 1547 字,大约阅读时间需要 5 分钟。

jieba是一个强大的分词库,完美支持中文分词

安装jieba

使用命令安装

pip install jieba

出现上图表示安装成功了

jieba分词模式

全模式

全模式:试图将句子精确地切开,适合文本分析,输出的是多有可能的分词组合

import jiebastr = "我是一个中国人"word1 = jieba.cut(str,cut_all=True)for item in word1:    print(item)

运行结果:

一个
中国
国人

 

精确模式

精确模型:把句子中所有的可以分词的词语都扫描出来,速度非常快,但不能解决歧义

注意:没有参数cut_all的情况下,默认为精确模式

import jiebastr = "我是一个中国人"#word1 = jieba.cut(str)word1 = jieba.cut(str,cut_all=False)for item in word1:    print(item)

运行结果:

一个
中国

搜索引擎模式

搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词

import jiebastr = "我是一个中国人"word1 = jieba.cut_for_search(str)for item in word1:    print(item)

词性标注

使用jieba.posseg可以对词性进行标注

import jieba.possegstr = "我是一个中国人"word1 = jieba.posseg.cut(str)#.flag 词性#.word 词语for item in word1:    print(item.word+"--"+item.flag)

运行结果:

我--r

是--v
一个--m
中国--ns
人--n

词性说明

自定义词库

例如:我们现在想对句子【豆花鱼是一种很好吃的鱼】做一次分词

import jieba.possegstr = "豆花鱼是一种很好吃的鱼"word1 = jieba.posseg.cut(str)for item in word1:    print(item.word+"--"+item.flag)

分词结果:

豆花--n

鱼--n
是--v
一种--m
很--zg
好吃--v
的--uj
鱼—n

【分析】按理来说,豆花鱼是一个名词,但是现在词库没有这个名词,所以分错了

那么接下来我们就自定义分词词库

找到路径C:\Users\OLIVER\AppData\Local\Programs\Python\Python36\Lib\site-packages\jieba

我们可以看到现在存在一个dict.txt文件,那么我们现在新建一个文件Add_dict.txt

 

接着我们引入该词库进行分词

import jieba.posseg#引入词库jieba.load_userdict("C:/Users/OLIVER/AppData/Local/Programs/Python/Python36/Lib/site-packages/jieba/Add_dict.txt")str = "豆花鱼是一种很好吃的鱼"word1 = jieba.posseg.cut(str)for item in word1:    print(item.word+"--"+item.flag)

运行结果:

豆花鱼--nz

是--v
一种--m
很--zg
好吃--v
的--uj
鱼—n

我们从上述的结果中可以清晰看到【豆花鱼】已经变成一个其他专有名词了。

注意:新增的词库每次使用都需要引用,它不是一次引入终生使用的

转载地址:http://qwelo.baihongyu.com/

你可能感兴趣的文章
转】 Kafka文件存储机制那些事
查看>>
jquery怎么在点击li标签之后添加一个在class,点击下一个li时删除上一个class?...
查看>>
在Docker中运行web应用
查看>>
spring boot 框架 启动更新项目,以及生成 "实体_"文件
查看>>
android启动模式
查看>>
arcgis api for js入门开发系列七图层控制
查看>>
JavaScript EventLoop
查看>>
新安装个Myeclipse,导入以前做的程序后程序里好多错,提示The import java.util cannot be resolved...
查看>>
第六篇:GPU 并行优化的几种典型策略
查看>>
Cronolog 分割 Tomcat8 Catalina.out日志 (转)
查看>>
Linux Platform驱动模型(二) _驱动方法
查看>>
商城系统购物车功能分析实现
查看>>
Java之Builder模式(并用OC实现了这种模式)
查看>>
module_loader.py
查看>>
SFINAE 模板替换失败而非报错的应用
查看>>
Java 反射详解
查看>>
mySQL中replace的用法
查看>>
[Angularjs]处理页面闪烁的方法
查看>>
SQL Server如何固定执行计划
查看>>
MD5骨骼动画模型加载
查看>>