找到相关仓库约为894个
搜索工具
排序方式:
最多watches
本项目实现为“搞个大新闻”网站后台python脚本部分。 实现了对中国新闻网,凤凰网,新浪新闻网的新闻爬虫 完成了新闻分词,两次TF-ID值计算完成特征提取,DBSCAN数据聚类, 基于内容的个性化推荐等 源码文档中:fenghuangnews.py,xinlangnews
sphinx结合结巴分词,在 https://github.com/frankee/sphinx-jieba 基础上解决了安装出错问题
中文分词库 IKAnalyzer,基于IK-Analyzer-2012FF修改而来,适用Lucene 5.2.1
The IK Analysis plugin integrates Lucene IK analyzer (http://code.google.com/p/ik-analyzer/) into opensearch, support customized
为应用提供全文检索功能,目前的版本(2.x 3.x)基于 Sphinx 0.9.8,支持使用 Python 定义数据源,支持中文分词
推荐博客
...