代码拉取完成,页面将自动刷新
#!/usr/bin/python3.9
# -*- coding: utf-8 -*-
import math
import json
import os
import random
# 用于将原始文本数据分割成不同大小的数据集,例如1%,10%,30%的样本数据,以便于进行小样本学习。
# 对现有样本数据进行小样本生成,分别是1%,10%,30%
current_path = os.getcwd()
dir_name_array = ["nky-chicken", "nky-chickenpig", "nky-pig"]
percent_array = [1, 10, 30]
for dir_name in dir_name_array:
text_dir_path = os.path.join(current_path, "data", "dataset", "NER", dir_name)
input_text_path = os.path.join(text_dir_path, "all.txt")
# 打开原始文件
with open(input_text_path, 'r') as file:
lines = file.readlines()
for percent in percent_array:
percent_text_dir_path = os.path.join(text_dir_path, "percent_{}".format(percent))
print(percent_text_dir_path)
if not os.path.exists(percent_text_dir_path):
os.makedirs(percent_text_dir_path)
# 计算前百分之多少的行数
percentage = percent / 100
number_of_lines_to_get = int(len(lines) * percentage)
# 获取前百分之多少的行
selected_lines = lines[:number_of_lines_to_get]
# 将选取的行保存到新文件
new_txt_file_path = os.path.join(percent_text_dir_path, "all.txt")
with open(new_txt_file_path, 'w') as file:
file.writelines(selected_lines)
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。