1 Star 0 Fork 258

王晟俊/书法体识别APPv2

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
1_Xy.py 1.99 KB
一键复制 编辑 原始数据 按行查看 历史
王晟俊 提交于 2024-05-30 07:13 . update 1_Xy.py.
# 0. 引入必要的包
import os
from tqdm import tqdm
import numpy as np
import glob
from sklearn.model_selection import train_test_split
from util import get, preprocess_image, dump
# 1. 读取配置文件中的信息
train_dir = get("train") # 获取 训练数据路径
char_styles = get("char_styles") # 获取 字符样式列表,注意: 必须是列标
new_size = get("new_size") # 获取 新图像大小元组, 注意: 必须包含h和w
# 2. 生成X,y
print("# 读取训练数据并进行预处理,")
# 初始化特征列表和标签列表
X = []
y = []
# 循环遍历每个书法体类别
for style in char_styles:
# 使用glob查找特定书法体的所有图片
image_files = glob.glob(os.path.join(train_dir, f"train_{style}*"))
# 使用 tqdm 显示进度条
for file_path in tqdm(image_files, desc=f"处理 {style} 图像"):
# 调用preprocess_image函数处理图像
img = preprocess_image(file_path, new_size)
# 把预处理过的图像添加到X中
X.append(img)
# 获取图像对应的类别添加到y中,类别索引与 char_styles 列表中的顺序相对应
y.append(char_styles.index(style))
# 将列表转换为numpy数组
X = np.array(X)
y = np.array(y)
# 3. 分割测试集和训练集
print("# 将数据按 80% 和 20% 的比例分割")
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 4. 打印样本维度和类型信息
print("X_train: ", X_train.shape, X_train.dtype) # 训练集特征的维度和类型
print("X_test: ", X_test.shape, X_test.dtype) # 测试集特征的维度和类型
print("y_train: ", y_train.shape, y_train.dtype) # 训练集标签的维度和类型
print("y_test: ", y_test.shape, y_test.dtype) # 测试集标签的维度和类型
# 5. 序列化分割后的训练和测试样本
# 创建保存文件的目录,如果不存在的话
os.makedirs('./Xys', exist_ok=True)
Xy = (X_train, X_test, y_train, y_test)
dump(Xy, "(X_train, X_test, y_train, y_test)", './Xys/Xy')
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/Valle_y/shufa_app_2.git
git@gitee.com:Valle_y/shufa_app_2.git
Valle_y
shufa_app_2
书法体识别APPv2
master

搜索帮助