pytorch 文本预处理 jieba hanlp 命名实体识别词性标注

编程入门行业动态更新时间:2024-10-26 18:26:21

pytorch 文本预处理 jieba hanlp 命名实体识别<a href=https://www.elefans.com/category/jswz/34/1752467.html style= 词性标注"/>

pytorch 文本预处理 jieba hanlp 命名实体识别词性标注

预处理

jieba中文分词

1.首先对文本进行n_gram分词
2.根据上一步的结果对词典的的词语进行对比
3.获取对比后的结果就是分词结果

中文简体分词
也可以进行中文繁体分词

import jieba
content = "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"
# 根据是否能组成词语进行分词，并且不存在重复
x = jieba.lcut(content, cut_all=False)
print(x)
# 根据是否能组成词语进行分词，存在重复
x = jieba.lcut(content, cut_all=True)
print(x)
# 返回的是一个迭代器
x = jieba.cut(content, cut_all=True)
print(next(x))
# 搜索引擎模式 对比较长的词 再次进行划分 适用于搜索引擎分词
x = jieba.lcut_for_search(content)
print(x)

用户也可以进行自定义一个词典

hanlp

import hanlp# 中文分词
content = "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"
tokenizer = hanlp.load('CTB6_CONVSEG')  # 加载预训练模型
a = tokenizer(content)
print(a)# 英文分词
# tokenizer = hanlp.utils.rules.tokenize_english
from hanlp.utils.lang.en.english_tokenizer import tokenize_english
tokenizer = tokenize_englishb = tokenizer('Mr. Hankcs bought hankcs for 1.5 thousand dollars.')
print(b)