Exce表格网

jiebar分词excel(jieba分词应用)

来源:www.0djx.com  时间:2022-12-21 12:00   点击:189  编辑:表格网  手机版

1. jieba分词应用

python的包都是英文的,但有一个包里有jieba库可以将中文进行分词。

1. jieba的江湖地位

NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件。

“最好的”这三个字可不是空穴来风,jieba在开源社区的受欢迎程度非常之高。

jieba项目目前的github star数已经达到24k,其他热门分词组件像HanLP star数20k、ansj_seg star数5.6k、pkuseg-python star数5k。可见jieba已经稳居中文分词领域c位。

jieba的主要功能是做中文分词,可以进行简单分词、并行分词、命令行分词,当然它的功能不限于此,目前还支持关键词提取、词性标注、词位置查询等。

更让人愉悦的是jieba虽然立足于python,但同样支持其他语言和平台,诸如:C++、Go、R、Rust、Node.js、PHP、 iOS、Android等。所以jieba能满足各类开发者的需求。

2. 如何学jieba

据我所知,jieba最靠谱的文档是github项目的readme,因为它似乎还没有独立的使用文档。但由于使用起来简单,看readme也能快速上手。国内各大博客有关于jieba的使用教程,但需要甄别下准确度和时效性,因为jieba项目一直在更新。

2. 利用jieba进行中文分词

jieba是优秀的中文分词第三方库

3. jieba分词使用

jieba库函数是python中一个重要的第三方中文分词函数库。

jieba库函数是第三方库,不是python安装包自带的,因此,需要通过pip指令安装。

Windows 下使用命令安装:在联网状态下,在命令行下输入 pip install jieba 进行安装,安装完成后会提示安装成功 。

jieba库函数的三种模式:精确模式、全模式、搜索引擎模式。 

1.精确模式:把文本精确的切分开,不存在冗余单词;

2.全模式:把文本中所有可能的词语都扫描出来,有冗余;

3.搜索引擎模式:在精确模式基础上,对长词再次切分。

4. jieba分词作用

搜索Python官网,进入找到PYPI,点击进入。

然后再在新搜索框内搜索jieba,找到jieba0.39,鼠标左键点击准备下载。

点击download files,选择要保存的文件夹,进行下载。

可以直接解压到当前文件夹,解压完成直接是一个jieba的文件夹。

然后将此解压的文件夹放在安装Python的lib-site-packages文件夹当中即可。

然后打开Python,可以使用import jieba直接调用jieba分词了。

5. 在线jieba分词

对汉字进行分词的时候需要用到。

顶一下
(0)
0%
踩一下
(0)
0%
相关评论
我要评论
用户名: 验证码:点击我更换图片