仓库 Issues 博客
语言: 全部
排序: 最多forks
找到相关仓库约为912
搜索工具
快速中文分词分析word segmentation
Java 14 79 15 更新于 2023-05-25
地区、PE值、总资产、流动资产、固定资产、留存资产等) 对抓取的新闻文本按照,去停用词、加载新词、分词的顺序进行处理 利用前两步中所获取的股票名称和分词后的结果,抽取出每条新闻里所包含的(0支、1支或多支)股票名称,并将所对应的所有股票代码,组合成与该
Python 5 17 14 更新于 2023-02-10
一个好用的数据查重引擎。包含了数据建模,清洗算法设计,查重,结构导出等功能。查重的算法中对数据每个属性均可以设定权重和灵活选择比对算法。使用的中文分词引擎对较长中文句子进行分司和比对。
Java 10 28 13 更新于 2023-12-18
盘古分词组件,Forked from Eaglet
C# 13 38 13 更新于 2024-02-08
基于springboot的在线答题系统,使用HanLP分词分词,结合mysql自带的全文搜索功能实现问题的全文搜索
Java 1 14 12 更新于 2022-03-09
OpenNLP 是一个机器学习工具包,用于处理自然语言文本。支持大多数常用的 NLP 任务,例如:标识化、句子切分、部分词性标注、名称抽取、组块、解析等
Java 6 32 12 更新于 2024-02-21
sphinx结合结巴分词,在 https://github.com/frankee/sphinx-jieba 基础上解决了安装出错问题
C++ 3 8 11 更新于 2023-01-27
模仿锤子M1新出的BigBang功能,轻松分词,重新造句,基于讯飞分词SDK实现
Android 21 49 10 更新于 2022-11-15
基于结巴分词java版实现(https://github.com/huaban/jieba-analysis)进行的改进,以适用于词频统计
Java 1 8 10 更新于 2022-07-19
elasticsearch的ik分词器动态扩展词库
Java 7 18 10 更新于 2024-01-31
pkuseg-python:一个高准确度的中文分词工具包 pkuseg-python 简单易用,支持多领域分词,在不同领域的数据上都大幅提高了分词的准确率
Python 11 37 9 更新于 2023-11-23

推荐博客

...