1. jieba分词应用
python的包都是英文的,但有一个包里有jieba库可以将中文进行分词。
1. jieba的江湖地位
NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件。
“最好的”这三个字可不是空穴来风,jieba在开源社区的受欢迎程度非常之高。
jieba项目目前的github star数已经达到24k,其他热门分词组件像HanLP star数20k、ansj_seg star数5.6k、pkuseg-python star数5k。可见jieba已经稳居中文分词领域c位。
jieba的主要功能是做中文分词,可以进行简单分词、并行分词、命令行分词,当然它的功能不限于此,目前还支持关键词提取、词性标注、词位置查询等。
更让人愉悦的是jieba虽然立足于python,但同样支持其他语言和平台,诸如:C++、Go、R、Rust、Node.js、PHP、 iOS、Android等。所以jieba能满足各类开发者的需求。
2. 如何学jieba
据我所知,jieba最靠谱的文档是github项目的readme,因为它似乎还没有独立的使用文档。但由于使用起来简单,看readme也能快速上手。国内各大博客有关于jieba的使用教程,但需要甄别下准确度和时效性,因为jieba项目一直在更新。
2. 利用jieba进行中文分词
jieba是优秀的中文分词第三方库
3. jieba分词使用
jieba库函数是python中一个重要的第三方中文分词函数库。
jieba库函数是第三方库,不是python安装包自带的,因此,需要通过pip指令安装。
Windows 下使用命令安装:在联网状态下,在命令行下输入 pip install jieba 进行安装,安装完成后会提示安装成功 。
jieba库函数的三种模式:精确模式、全模式、搜索引擎模式。
1.精确模式:把文本精确的切分开,不存在冗余单词;
2.全模式:把文本中所有可能的词语都扫描出来,有冗余;
3.搜索引擎模式:在精确模式基础上,对长词再次切分。
4. jieba分词作用
搜索Python官网,进入找到PYPI,点击进入。
然后再在新搜索框内搜索jieba,找到jieba0.39,鼠标左键点击准备下载。
点击download files,选择要保存的文件夹,进行下载。
可以直接解压到当前文件夹,解压完成直接是一个jieba的文件夹。
然后将此解压的文件夹放在安装Python的lib-site-packages文件夹当中即可。
然后打开Python,可以使用import jieba直接调用jieba分词了。
5. 在线jieba分词
对汉字进行分词的时候需要用到。
- 相关评论
- 我要评论
-