HWDB1.1数据集

编程入门行业动态更新时间:2024-10-27 12:36:23

HWDB1.1<a href=https://www.elefans.com/category/jswz/34/1771445.html style= 数据集"/>

HWDB1.1数据集

❤️【专栏：数据集整理】❤️ 之【有效拒绝假数据】

👋 Follow me 👋，一起 Get 更多有趣 AI、冲冲冲 🚀 🚀

❤️ 如果文章对你有帮助、欢迎一键三连

我这里对其代码做分析和使用说明：

这里是原作者代码链接，感谢原作者PeppaPeppaPeppa

文章目录

- 📔 .gnt 转换 .png 教程如下
- 📕 gnt2png.py 文件代码
- 📗 HWDB1.1数据集 .gnt格式数据快速获取途径如下

📔 .gnt 转换 .png 教程如下

项目目录结构如下：

请点击这个链接查看 ——alz 文件解压方法教程，If you need…
或者浏览最下方 HWDB1.1数据集 .gnt格式数据快速获取途径，后台回复，即可直接获取 gnt 文件

运行命令：

python gnt2png.py

📕 gnt2png.py 文件代码

只需替换 train_data_dir 和 test_data_dir 的路径即可运行

import os
import numpy as np
import struct
from PIL import Image
# data文件夹存放转换后的.png文件
data_dir = 'data'
# 路径为存放数据集解压后的.gnt文件
train_data_dir = os.path.join('', 'wordDatas/trn_gnt')
test_data_dir = os.path.join('', 'wordDatas/tst_gnt')def read_from_gnt_dir(gnt_dir=train_data_dir):def one_file(f):header_size = 10while True:header = np.fromfile(f, dtype='uint8', count=header_size)if not header.size: breaksample_size = header[0] + (header[1] << 8) + (header[2] << 16) + (header[3] << 24)tagcode = header[5] + (header[4] << 8)width = header[6] + (header[7] << 8)height = header[8] + (header[9] << 8)if header_size + width * height != sample_size:breakimage = np.fromfile(f, dtype='uint8', count=width * height).reshape((height, width))yield image, tagcodefor file_name in os.listdir(gnt_dir):if file_name.endswith('.gnt'):file_path = os.path.join(gnt_dir, file_name)with open(file_path, 'rb') as f:for image, tagcode in one_file(f):yield image, tagcodechar_set = set()
for _, tagcode in read_from_gnt_dir(gnt_dir=train_data_dir):tagcode_unicode = struct.pack('>H', tagcode).decode('gb2312')char_set.add(tagcode_unicode)
char_list = list(char_set)
char_dict = dict(zip(sorted(char_list), range(len(char_list))))
print(len(char_dict))
print("char_dict=", char_dict)import picklef = open('char_dict', 'wb')
pickle.dump(char_dict, f)
f.close()
train_counter = 0
test_counter = 0
for image, tagcode in read_from_gnt_dir(gnt_dir=train_data_dir):tagcode_unicode = struct.pack('>H', tagcode).decode('gb2312')im = Image.fromarray(image)
# 路径为data文件夹下的子文件夹，train为存放训练集.png的文件夹dir_name = 'data/train/' + '%0.5d' % char_dict[tagcode_unicode]print(dir_name)if not os.path.exists(dir_name):os.mkdir(dir_name)im.convert('RGB').save(dir_name + '/' + str(train_counter) + '.png')print("train_counter=", train_counter)train_counter += 1
print('Train transformation finished ...')
for image, tagcode in read_from_gnt_dir(gnt_dir=test_data_dir):tagcode_unicode = struct.pack('>H', tagcode).decode('gb2312')im = Image.fromarray(image)
# 路径为data文件夹下的子文件夹，test为存放测试集.png的文件夹dir_name = 'data/test/' + '%0.5d' % char_dict[tagcode_unicode]if not os.path.exists(dir_name):os.mkdir(dir_name)im.convert('RGB').save(dir_name + '/' + str(test_counter) + '.png')print("test_counter=", test_counter)test_counter += 1
print('Test transformation finished ...')