首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

一文掌握jieba分词器的常见用法,附带案例

  • 25-04-24 02:40
  • 4013
  • 11153
blog.csdn.net

更多内容请见: python3案例和总结-专栏介绍和目录

文章目录

    • 一. jieba分词器的基础知识
      • 1.1 jieba分词支持4中方式
    • 二. jieba的基本用法
      • 2.1 精确模式、全模式和Paddle分词模式
      • 2.2 词性标注
      • 2.3 识别新词
      • 2.4 搜索引擎模式分词
    • 三. 调整词典
      • 3.1 使用自定义词典
      • 3.2 动态修改词典
      • 3.3 调节次频
    • 四. 关键词提取
      • 4.1 基于TF-IDF算法的关键词提取
      • 4.2 基于TextRank算法的关键词提取
    • 五. 停用词过滤
    • 六. 词频统计
    • 案例:新闻关键词的提取与汇总

一. jieba分词器的基础知识

安装:pip install jieba
安装:pip3 install paddlepaddle-tiny
如果出现超时的情况,指定清华源:pip3 install paddlepaddle-tiny -i https://pypi.tuna.tsinghua.edu.cn/simple

1.1 jieba分词支持4中方式

  • 精确模式:将句子最精确的切分开,适合文本分析时使用;
  • 全模式:将句子可以生成词语的词都扫描出来,速度非常快,但有歧义的词语也会被扫描出来;
  • 搜索引擎模式:会在精确模式的基础上对长词语再进行切分,将更短的词切分出来,适用于搜索引擎分词;
  • Paddle模式:利用PaddlePaddle深度学习框架ÿ
数据知道的成长之路
微信公众号
成长进阶、技术分享、资源获取
注:本文转载自blog.csdn.net的数据知道的文章"https://cuiyonghua.blog.csdn.net/article/details/121094116"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
复制链接
复制链接
相关推荐
发表评论
登录后才能发表评论和回复 注册

/ 登录

评论记录:

未查询到任何数据!
回复评论:

分类栏目

后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2492) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

热门文章

101
推荐
关于我们 隐私政策 免责声明 联系我们
Copyright © 2020-2025 蚁人论坛 (iYenn.com) All Rights Reserved.
Scroll to Top