! pip3 install jieba --user

Looking in indexes: https://mirrors.163.com/pypi/simple/
Collecting jieba
  Downloading https://mirrors.163.com/pypi/packages/c6/cb/18eeb235f833b726522d7ebed54f2278ce28ba9438e3135ab0278d9792a2/jieba-0.42.1.tar.gz (19.2 MB)
     |████████████████████████████████| 19.2 MB 5.5 MB/s eta 0:00:01
Building wheels for collected packages: jieba
  Building wheel for jieba (setup.py) ... done
  Created wheel for jieba: filename=jieba-0.42.1-py3-none-any.whl size=19314478 sha256=fc1caf3779617163018e2bada6fd3396db7d0ea2ece4189f4bd50e218fc3e871
  Stored in directory: /home/fli/.cache/pip/wheels/56/4a/b1/390288a7f489bd85658e785332ec02a46a61da35d9d2197757
Successfully built jieba
Installing collected packages: jieba
Successfully installed jieba-0.42.1


import jieba

# 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))

Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.545 seconds.
Prefix dict has been built successfully.

Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学


# 精确模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))

Default Mode: 我/ 来到/ 北京/ 清华大学


# 搜索引擎模式
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  
print(", ".join(seg_list))

小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造


test_sent = (
"李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿\n"
"例如我输入一个带“韩玉赏鉴”的标题，在自定义词库中也增加了此词为N类\n"
"「台中」正確應該不會被切開。mac上可分出「石墨烯」；此時又可以分出來凱特琳了。"
)


# 未使用个人字典
words = jieba.cut(test_sent)
print('/'.join(words))

李小福/是/创新/办/主任/也/是/云/计算/方面/的/专家/;/ /什么/是/八/一双/鹿/
/例如/我/输入/一个/带/“/韩玉/赏鉴/”/的/标题/，/在/自定义词/库中/也/增加/了/此/词为/N/类/
/「/台/中/」/正確/應該/不會/被/切開/。/mac/上/可/分出/「/石墨/烯/」/；/此時/又/可以/分出/來凱/特琳/了/。


# 加载个人字典后的结果
jieba.load_userdict("data/userdict.txt")
words = jieba.cut(test_sent)
print('/'.join(words))

李小福/是/创新办/主任/也/是/云计算/方面/的/专家/;/ /什么/是/八一双鹿/
/例如/我/输入/一个/带/“/韩玉赏鉴/”/的/标题/，/在/自定义词/库中/也/增加/了/此/词为/N/类/
/「/台中/」/正確/應該/不會/被/切開/。/mac/上/可/分出/「/石墨/烯/」/；/此時/又/可以/分出/來/凱特琳/了/。


import jieba.analyse
sentence = (
"苍茫的天涯是我的爱，绵绵的青山脚下花正开，什么样的节奏是最呀最摇摆，\
什么样的歌声才是最开怀，弯弯的河水从天上来，流向那万紫千红一片海，\
哗啦啦的歌谣是我们的期待，一路边走边唱才是最自在，我们要唱就要唱得最痛快，\
你是我天边最美的云彩，让我用心把你留下来，悠悠的唱着最炫的民族风，\
让爱卷走所有的尘埃，你是我心中最美的云彩，怎么没就让你留下来，\
永远都唱着最炫的民族风，是整片天空最美的姿态，我听见你心中永远的天籁，\
登上天外云霄的舞台")

jieba.analyse.extract_tags(sentence, topK=15, withWeight=False, allowPOS=())

['最美',
 '云彩',
 '留下来',
 '什么样',
 '永远',
 '花正开',
 '爱卷',
 '悠悠的',
 '万紫千红',
 '民族',
 '整片',
 '天外',
 '心中',
 '开怀',
 '弯弯的']


jieba.analyse.textrank(sentence, topK=15, withWeight=False, 
                       allowPOS=('ns', 'n', 'vn', 'v'))

['留下来',
 '登上',
 '整片',
 '姿态',
 '歌声',
 '开怀',
 '歌谣',
 '期待',
 '天空',
 '舞台',
 '用心',
 '就让',
 '天籁',
 '河水',
 '摇摆']

中文文本处理¶

中文分词(Chinese Word Segmentation)¶

中文分词算法分类¶

中文分词工具示例¶

“结巴”中文分词(jieba)¶

Jieba 分词基本模式¶

添加自定义词典¶

关键词提取 (Key Word Extraction)¶

Jieba 基于 TF-IDF 算法的关键词抽取示例¶

Jieba基于 TextRank 算法的关键词抽取¶