Pytorch 中文语言模型（BertRoberta）进一步预训练（further pretrain）|电子爱好者

admin管理员组
文章数量:1608850

Pytorch 中文语言模型（Bert/Roberta）进一步预训练（further pretrain）

1.Motivation
2.相关链接
3. 具体步骤
- 3.1 依赖项
- 3.2 数据格式
- 3.3 代码运行
4. 结果
- 4.1 完整的目录结构
- 4.2 训练过程
- 4.3 训练结果
5 .附录

1.Motivation

Bert是在大规模的语料下进行MLM训练得到的结果。然而，在具体的任务下，再在自己新的数据集进行finetune的效果并不会特别好。因此，需要利用domain内的语料对Bert预训练模型进行进一步的MLM训练，也就是further pretrain/ repretrain，与此相关的论文有ACL2020论文《Don’t Stop Pretraining 》，也有一篇将主题模型与bert相结合做semantic matching的工作，它们的目的都是提升Bert在target domain的效果。

2.相关链接

主要参考以下链接

Pytorch中文语言模型bert预训练代码
旧版本transformer官方再训练链接
新版本transformer官方再训练链接

按照链接1上的说明进行操作，我没有将代码跑通，主要是版本问题和Out of memory 问题。于是，尝试链接3下的官方链接，但是也失败了，数据预处理过程就出现了问题，因为服务器不能访问dataset 库里面提供的text.py外网链接，后来通过copy的方式将text.py 文件保存在本地解决了该问题，但是后面又出现了0 sample的问题、index出界的问题，根源还是数据的预处理过程，这样搞了一天，我也服了我自己。最后，还是根据链接1，重新debug，至少它的数据处理没问题，将代码跑通。

3. 具体步骤

3.1 依赖项

务必安装以下版本的transformer，其他版本不保证，至少最新的我试过不行。

transformers==3.0.2
torch = 1.4.0

3.2 数据格式

我的数据格式如下：

每一行就是一条数据，数据之间没有空一行，注意此数据格式对应的参数--line_by_line应该设置为True

若数据格式为：

每一行就是一条数据，数据之间有空一行，注意此数据格式对应的参数--line_by_line应该设置为False。这种数据我没有尝试过，我猜的是设置为False，哈哈哈哈

3.3 代码运行

run_language_model_bert.py 具体代码见附录
运行命令：

python run_language_model_bert.py     --output_dir=further_pretrain_sentiment     --model_type=roberta--model_name_or_path=robert_pretrain_model     --do_train     --train_data_file=train_sentiment_500k.txt     --mlm --per_device_train_batch_size=32    --line_by_line    --overwrite_output_dir    --block_size=128

参数说明：

output_dir :输出路径，训练结束后，该文件夹下会保存训练之后的文件，包括pytorch_model.bin、vocab.txt、config.json等等
model_type：设置为bert或者roberta
model_name_or_path：原始的Bert/Roberta模型路径，我这里是robert_pretrain_model
do_train ：训练的Flag
train_data_file ：自己的训练语料路径，我的文件是与代码在同一路径下的train_sentiment_500k.txt
do_eval ：验证的Flag，为了节省时间，我没有进行验证，可以自己选择
eval_data_file ：自己的验证语料路径，在验证flag为True的情况下
mlm：我们要做的就是MLM训练，因此设置为True
per_device_train_batch_size: 训练时，每个gpu上运行的batch 大小，根据自己情况进行设置，我这里GPU共2张卡，每张卡16GB，我设置的大小为32
line_by_line: 根据自己的语料格式，自行选择，若每两条数据之间没有空一行，务必设置为True
overwrite_output_dir:是否覆盖output_dir下已有的文件。若不设置为True，输出路径下有文件时，代码会停止运行，给人提示。自己依情况选择
block_size :若设置为-1，则会取语料中句子的最大长度 与 512 之间的较小值。一般语料句子最大长度都比较长，因此会很大，则会造成out of memory现象，即使再减小batch_size也无济于事，之前就是因为这个问题，解决了很久，最后看代码、问师兄才解决，我一看out of memory，就减小batch_size，然而并没有什么用。因此，务必自己设定一个句子长度最大值，我这里是128.

4. 结果

4.1 完整的目录结构

其中，cached_lm_BertTokenizer_1000000000000000019884624838654_train.txt等类似文件是代码运行数据预处理之后产生的。

4.2 训练过程

原始代码会自动调用多GPU，我设置了让它只调用0号GPU.
先运行：export CUDA_VISIBLE_DEVICES=0
再运行 3.3命令行
下图显示的是--per_device_train_batch_size=128 、--block_size=64 0 号 GPU使用情况：

4.3 训练结果

训练结果保存在指定的 output_dir下，训练结束后，该文件夹下生成以下文件：

若设置了do_eval 验证的Flag，该文件夹下还应有验证的结果保存文件eval_results_lm.txt

5 .附录

run_language_model_bert.py代码如下：

# coding=utf-8
# Copyright 2018 The Google AI Language Team Authors and The HuggingFace Inc. team.
# Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
"""
Fine-tuning the library models for language modeling on a text file (GPT, GPT-2, CTRL, BERT, RoBERTa, XLNet).
GPT, GPT-2 and CTRL are fine-tuned using a causal language modeling (CLM) loss. BERT and RoBERTa are fine-tuned
using a masked language modeling (MLM) loss. XLNet is fine-tuned using a permutation language modeling (PLM) loss.
"""


import logging
import math
import os
import torch
from dataclasses import dataclass, field
from typing import Optional

from transformers import (
    CONFIG_MAPPING,
    MODEL_WITH_LM_HEAD_MAPPING,
    AutoConfig,
    AutoModelWithLMHead,
    AutoTokenizer,
    DataCollatorForLanguageModeling,
    HfArgumentParser,
    LineByLineTextDataset,
    PreTrainedTokenizer,
    TextDataset,
    Trainer,
    Trainer,
    TrainingArguments,
    set_seed,
)


logger = logging.getLogger(__name__)


MODEL_CONFIG_CLASSES

本文标签：中文模型语言 Pytorch RoBERTa

版权声明：本文标题：Pytorch 中文语言模型（BertRoberta）进一步预训练（further pretrain）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1728547684a1163069.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Pytorch 中文语言模型（BertRoberta）进一步预训练（further pretrain）

Pytorch 中文语言模型（Bert/Roberta）进一步预训练（further pretrain）

1.Motivation

2.相关链接

3. 具体步骤

3.1 依赖项

3.2 数据格式

3.3 代码运行

4. 结果

4.1 完整的目录结构

4.2 训练过程

4.3 训练结果

5 .附录

更多相关文章

python官网下载步骤图解,python官方中文文档下载

5分钟手把手教你FL Studio 21中文直装版2024最新免费下载安装图文激活教程

VUE 中文文档

微生物相关网络构建教程中文Microbial association network construction tutorial

会声会影2024中文英文破解版一键安装包下载

小偷模拟器 Thief Simulator V20230207 最新中文学习版 单机游戏游戏下载免安装【3.27G】

怎么设置Google Play的语言？

google play console网站页面的语言切换

GooglePlay Console语言设置

4.R语言常用开发工具——《跟老吕学R》

FL studio破解版 V20.8.3 最新中文破解版

NVIDIA GPU MIG多实例&amp;Multi-Instance GPU-中文用户指南

第十七章 模型压缩及移动端部署

我的模型有多快？——深度学习网络模型的运算复杂度、空间占用和内存访问情况计算

Unity TextMeshPro中文使用与优化（繁简）

Pytorch 中文语言模型（BertRoberta）进一步预训练（further pretrain）

location.href传递中文参数 跳转页面400； Note: further occurrences of HTTP header parsing errors will be logged

【全网最强C语言学习】C语言入门篇（主线）——初识C语言①

yolov8数据标注、模型训练到模型部署全过程

C语言 常量、变量

发表评论

推荐文章

ubuntu在vmware的安装,ubuntu装机后基本配置,ubuntu常用快捷键,ubuntu下安装Anaconda,ubuntu下安装qmake,修改pythonpython3的指向(可选操作

Java项目在Linux环境使用aspose把word转pdf乱码问题

i.MX6ULL - 远程视频监控方案实现（nginx-rtmp流媒体服务器、ffmpeg推流）

微软官方下载windows 7啦

除了快，5G 有哪些关键技术？

热门文章

小米盒子4C本地内存存放电影、音乐

Swift 会成为 2022 年十大流行编程语言之一么？

php显示word,php 浏览word

2. 爬取网站实训图片并下载

win10专业版驱动开发

人人商城 后台开启WAP访问后 微信浏览器 跳过授权 手机号密码登录

无线网卡有几种接口？怎么给电脑选择一款合适的无线网卡？

OceanBase 分布式数据库【信创国产化】- 登录 OceanBase 租户

win10计算机域填写,win10如何加入域_windows10域如何创建

MySQL常见面试题汇总（建议收藏！！！）

最新文章

电脑忘记密码无法登录解决方案

win11家庭版开机密码忘记了怎么办？

电脑忘记开机密码很着急？一招搞定

win11系统 忘记开机密码重置密码方法

[转]信息安全相关理论题(三)

windows电脑忘记了开机密码

win10计算机用户密码,win10台式电脑怎么设置开机密码

iPhone开机密码什么时候会用到？忘记了怎么办？

电脑开机密码忘记了，怎么办？

破解WiFi！！——由airmon-ng引起的纷争

1 “IT小百科”之“电脑开机密码忘记了怎么办”

Wins10系统忘记开机密码快速解锁方法（图文教程）

进bios怎么改开机密码

渗透测试--6.2.mdk3攻击wifi

[转]信息安全相关理论题(二)

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

小偷模拟器 Thief Simulator V20230207 最新中文学习版单机游戏游戏下载免安装【3.27G】

NVIDIA GPU MIG多实例&Multi-Instance GPU-中文用户指南

第十七章模型压缩及移动端部署

location.href传递中文参数跳转页面400； Note: further occurrences of HTTP header parsing errors will be logged

C语言常量、变量

人人商城后台开启WAP访问后微信浏览器跳过授权手机号密码登录

win11系统忘记开机密码重置密码方法

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载