中文NLP工具包中文NLP工具
工具包综合NLP工具包
流行的英语/多语言NLP工具包常用的英语或支持多语言的NLP工具包
中文分词
信息提取信息提取
QA和Chatbot问答和聊天机器人
2. 语料库
3. 组织相关中文NLP组织和会议
4. 学习资料
中文NLP工具包中文NLP工具
工具包综合NLP工具包
-
清华的THULAC中文词法分析工具包(C ++ / Java / Python)
-
中科院的NLPIR(Java)
-
哈工大的LTP语言技术平台(C ++)
-
复旦(Java)的FudanNLP
-
BosonNLP,由Boson(商业API服务)
-
HanNLP(Java)
-
SnowNLP(Python)Python库,用于处理中文文本
-
YaYaNLP(Python)纯python 编写的中文自然语言处理包,取名于“牙牙学语”
-
DeepNLP(Python)深度学习NLP管道在Tensorflow上使用预训练的中文模型实现。
-
chinese_nlp(C ++和Python)中文自然语言处理工具和示例
-
中文文本语料库的中文注释器(Python)注解
流行的英语/多语言NLP工具包常用的英语或支持多语言的NLP工具包
-
斯坦福大学的CoreNLP(Java)
-
NLTK(Python)
-
spaCy(Python)
-
OpenNLP(Java)
-
gensim(Python)Gensim是一个Python库,用于使用大型语料库进行主题建模,文档索引和相似性检索。
中文分词
-
Jieba结巴中文分词(Python)做最好的Python
-
kcws深度学习中文分词(Python)BiLSTM + CRF与IDCNN + CRF
-
ID-CNN-CWS(Python)迭代膨胀卷积用于中文分词
-
Genius中文分词(Python)Genius是一个开源的python中文分词组件,采用CRF(条件随机场)条件随机场算法。
-
loso中文分词(Python)
信息提取信息提取
-
MITIE(C ++)库和信息提取工具
-
小鸭(Haskell)语言,引擎和工具,用于表达,测试和评估输入字符串上的可组合语言规则。
-
IEPY(Python)IEPY是一个专注于关系提取的信息提取开源工具。
-
呼吸管:专注于信息提取的培训数据创建和管理系统
-
在TensorFlow中使用LSTM实现的神经关系提取
-
中文命名实体识别的神经网络模型
-
信息提取-使用IDCNN / biLSTM + CRF的中文命名实体识别,以及使用biGRU + 2ATT的关系提取中文实体识别与关系提取
QA和Chatbot问答和聊天机器人
-
Rasa NLU(Python)将自然语言转换为结构化数据
-
用于对话软件的基于Rasa Core(Python)机器学习的对话引擎
-
Chatterbot(Python)ChatterBot是用于创建聊天机器人的机器学习会话对话引擎。
-
Chatbot(Python)基于向量匹配的情境式聊天机器人
-
Tipask(PHP)是一个开放源码的PHP问答系统,基于Laravel框架开发,易于扩展,具有强大的负载能力和稳定性。
-
QuestionAnsweringSystem(Java)一个Java实现的人机问答系统,能够自动分析问题并发出提示答案。
-
使用TensorFlow实现序列的聊天机器人模型的序列(Python)
-
使用深度学习算法实现的中文阅读理解问答系统(Python)
-
DuReader中文阅读理解基线代码(Python)
语料库
-
开放知识图谱OpenKG
-
大规模中文概念图谱CN-Probase 公众号介绍
-
CLDC中文语言资源联盟
-
维基百科转储
-
98年人民日报词性标注库@百度盘
-
百度百科 100gb 语料@百度盘密码neqs出处应该是梁斌penny大神
-
搜狗20061127新闻语料(包含分类)@百度盘
-
UD中文(用于培训POS)
-
中文word2vec模型
-
中文word2vec模型之维基百科中文使用2017年6月20日中文维基百科语料训练的脚本和模型文件。
-
同义词:中文近义词工具包基于维基百科中文和word2vec训练的近义词库,封装为python包文件。
-
Chinese_conversation_sentiment中文情感数据集可能对情感分析有用。
-
中文突发事件语料库 Chinese Emergency Corpus
-
dgk_lost_conv中文对白语料汉语会话语料库
-
用于训练中英文对话系统的语言料库
-
八卦版问答中文语料
-
汉语拆字字典
-
中国股市公告信息爬取通过python脚本从巨潮网络的服务器获取中国股市(sz,sh)的公告(上市公司和监管机构)
-
tushare财经数据接口 TuShare是一个免费,开源的python财经数据接口包。
-
保险行业语料库 [ 52nlp介绍Blog ]保险领域的OpenData用于机器学习任务
-
最全中华古诗词数据库唐宋两朝近一万四千古诗人,接近5.5万首唐诗加26万宋诗。两宋时期1564位词人,21050首词。
-
DuReader中文阅读理解数据
-
中文语料小数据包含了中文命名实体识别,中文关系识别,中文阅读理解等一些小量数据
-
中文数据预处理材料中文分词词典和中文替换词
相关中文NLP组织和会议
-
中国中文信息学会
-
NLP Conference Calender NLP社区中的主要会议,期刊,研讨会和共享任务。
学习资料学习资料
-
中文深度学习书
-
Stanford CS224n带有深度学习的自然语言处理2017
-
牛津CS DeepNLP 2017
-
Dan Jurafsky和James H. Martin的语音和语言处理
-
52nlp我爱自然语言处理
-
hankcs编码农场
-
文本处理实践课资料文本处理实践课资料,包含文本特征提取(TF-IDF),文本分类,文本聚类,word2vec训练词向量和名词词林中文相似度计算,文档自动摘要,信息抽取,情感分析与观点挖掘等实验。
转载网址:https://github/NLPchina/Awesome-Chinese-NLP
更多推荐
精选的中文NLP(自然语言处理)资源列表
发布评论