pytorch 文本预处理 jieba hanlp 命名实体识别词性标注

编程入门 行业动态 更新时间:2024-10-26 18:26:21

pytorch 文本预处理 jieba hanlp 命名实体识别<a href=https://www.elefans.com/category/jswz/34/1752467.html style=词性标注"/>

pytorch 文本预处理 jieba hanlp 命名实体识别词性标注

预处理

jieba中文分词

1.首先对文本进行n_gram分词
2.根据上一步的结果 对词典的的词语进行对比
3.获取对比后的结果 就是分词结果

中文简体分词
也可以进行中文繁体分词

import jieba
content = "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"
# 根据是否能组成词语进行分词,并且不存在重复
x = jieba.lcut(content, cut_all=False)
print(x)
# 根据是否能组成词语进行分词,存在重复
x = jieba.lcut(content, cut_all=True)
print(x)
# 返回的是一个迭代器
x = jieba.cut(content, cut_all=True)
print(next(x))
# 搜索引擎模式 对比较长的词 再次进行划分 适用于搜索引擎分词
x = jieba.lcut_for_search(content)
print(x)

用户也可以进行自定义一个词典

hanlp

import hanlp# 中文分词
content = "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"
tokenizer = hanlp.load('CTB6_CONVSEG')  # 加载预训练模型
a = tokenizer(content)
print(a)# 英文分词
# tokenizer = hanlp.utils.rules.tokenize_english
from hanlp.utils.lang.en.english_tokenizer import tokenize_english
tokenizer = tokenize_englishb = tokenizer('Mr. Hankcs bought hankcs for 1.5 thousand dollars.')
print(b)

命名实体识别(NER)

词性标注(POS)

更多推荐

pytorch 文本预处理 jieba hanlp 命名实体识别词性标注

本文发布于:2024-03-23 17:12:45,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1740734.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:词性   实体   文本   pytorch   hanlp

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!