找到相关仓库约为899个
搜索工具
排序方式:
最多stars
华中科技大学-自然语言处理实验-2021 简单搭建一个Bi-LSTM+CRF的中文分词框架,并且利用基于深度学习的方法进行中文命名实体识别。
人民日报命名实体识别数据集预处理程序,生成BMES标记的数据,并保留分词信息、词性标注信息。renminribao NER pretreatment.
1.功能单一,只有中文分词功能,没有词性标注及分析等功能 2.分词速度快(词库实现了分块查询,比一般的分词系统上快3-4倍) 3.分词准确率高(实现了管道输出输入,分词过程被划分为多个单独处理的阶段) 4.一键部署,容易使用(可以作为java包直接调用,也可以二次开发,代码开源)
基于nltk的微博热点趋势大数据分析 在本次案例中,我们首先需要载入通过爬虫程序抓取的微博文本内容,然后使用结巴分词对每个博主的微博进行分词处理,然后汇总每个博主的分词获得总词袋,再计算总词袋中词汇的每日文档频率(视每个博主每天所有微博为一个文档)。这样我们可以获得每一天微博热点词汇的排行。
爬取某东商品评价,对评价进行数据处理,分词,概率、词云图可视化,用朴素贝叶斯和支持向量机进行分类训练,可以预测文本内容和文件内容并保存为csv文件
推荐博客
...