找到相关仓库约为917个
搜索工具
排序方式:
最多stars
文本分类器集合 一个强大易用的Java文本分类工具包 特色 功能全面 内置信息检索中各种常用的文本预处理方法,如语言感知分词、词干提取、繁简转换、停用词去除、同义词插入、n-gra
本项目实现为“搞个大新闻”网站后台python脚本部分。 实现了对中国新闻网,凤凰网,新浪新闻网的新闻爬虫 完成了新闻分词,两次TF-ID值计算完成特征提取,DBSCAN数据聚类, 基于内容的个性化推荐等 源码文档中:fenghuangnews.py,xinlangnews
个人网站项目分前台和后台两个系统,前台用于展示,后台则用于管理数据和基本配置。 前台系统: 首页展示文章和热门频道等,基于Lucene.Net+盘古分词做了站内搜索引擎优化,还包括注册、登录、找回密码、发送邮件、激活邮件、广告位、点赞、Ajax异步评论、静态页、上传图片、支付购买积分等功能;
Chinese analysis plugin which using IK analysis for Elasticsearch
基于结巴分词java版实现(https://github.com/huaban/jieba-analysis)进行的改进,以适用于词频统计
sphinx结合结巴分词,在 https://github.com/frankee/sphinx-jieba 基础上解决了安装出错问题
自然语言处理探索入门的整个心路历程都记录在这个工程下面。保存的内容有: 中文分词: Ansj 复旦大学(fnlp) 中科院(nlp) 斯坦福(Stanford segments、Stanford ner、Stanford pos tagger、Stanford
基于java开发的,在springBoot框架上开发的,用到了redis,mongoDB,ElasticSearch IK及其中文分词,搭建fastdfs文件系统,以及rabbitmq,即时通讯用的环信,mysql数据库脚本已没有,需要自己再根据自己需求设计,该项目仅供参考
推荐博客
...