代码拉取完成,页面将自动刷新
同步操作将从 零壹博弈/ResnetGPT_DeepReinforcementLearning 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
import json
import numpy as np
def 读取训练数据(路径):
输入表单 = []
输出表单 = []
with open(路径, encoding='utf-8') as f:
while True:
行 = f.readline()
if not 行:
break
json_行 = json.loads(行)
内容 = json_行['内容______']
内容_输入 = 内容['输入______']
内容_输出 = 内容['输出______']
#这里的数据还得进行分割先暂时分割成16份吧
单元长度 = len(内容_输入)//16
for i in range(16):
#print(内容_输入[i*单元长度:(i+1)*单元长度])
输入表单.append(内容_输入[i*单元长度:(i+1)*单元长度])
输出表单.append(内容_输出[i*单元长度:(i+1)*单元长度])
return 输入表单, 输出表单
def 写出词标号引索(总词表, 词_数表路径, 数_词表路径):
print("正在写出词的标号引索数据可能需要较长时间")
标号_到_字符 = {}
字符_到_标号 = {}
标号_字符 = []
# 标号_到_字符 = list(set(总表单))
i = 0
j = 0
for 词表 in 总词表:
j = j + 1
for 字符 in 词表:
if 字符 not in 标号_字符:
标号_字符.append(字符)
字符_到_标号[字符] = i
标号_到_字符[i] = 字符
i = i + 1
if j % 10000 == 0:
print(i, 标号_到_字符[i - 1], j/len(总词表))
#print(标号_到_字符[1], 标号_到_字符[111], len(标号_到_字符))
with open(词_数表路径, 'w', encoding='utf-8') as f:
json.dump(字符_到_标号, f, ensure_ascii=False)
with open(数_词表路径, 'w', encoding='utf-8') as f:
json.dump(标号_到_字符, f, ensure_ascii=False)
def 读出引索(词_数表路径, 数_词表路径):
with open(词_数表路径, encoding='utf-8') as f:
词_数表= json.load(f)
with open(数_词表路径, encoding='utf-8') as f:
数_词表 = json.load(f)
return 词_数表, 数_词表
def 生成训练用numpy数组(输入表单, 词_数表, numpy数组路径):
表_1 = []
表_2 = []
i = 0
临 = ''
for 表单 in 输入表单:
表_3 = []
for 字符 in 表单:
if (u'\u0041' <= 字符 <= u'\u005a') or (u'\u0061' <= 字符 <= u'\u007a'):
if 临 == '':
临 = 字符
else:
临 = 临 + 字符
else:
if 临 == '':
if 字符.lower() in 词_数表:
表_3.append(词_数表[字符.lower()])
else:
表_3.append(14999)
else:
if 临.lower() in 词_数表:
表_3.append(词_数表[临.lower()])
else:
表_3.append(14999)
临 = ''
if 字符.lower() in 词_数表:
表_3.append(词_数表[字符.lower()])
else:
表_3.append(14999)
if 临 != '':
if 临.lower() in 词_数表:
表_3.append(词_数表[临.lower()])
else:
表_3.append(14999)
临 = ''
if len(表_3) != 667:
# 表_1.append(np.array(表_3[0:-1]))
# 表_2.append(np.array(表_3[1:]))
print(表_3)
else:
表_1.append(np.array(表_3[0:-1]))
表_2.append(np.array(表_3[1:]))
if i % 1000 == 0:
print("数据转化为numpy数组完成度百分比{}".format(i / len(输入表单) * 100))
i = i + 1
print("数据转化为numpy数组完成。")
输入np = np.array(表_1)
输出np = np.array(表_2)
np.savez(numpy数组路径, 输出np=输出np, 输入np=输入np)
def 生成测试用numpy数组(输入表单, 词_数表):
表_1 = []
for 字符 in 输入表单:
if 字符.lower() in 词_数表:
表_1.append(词_数表[字符])
else:
表_1.append(14999)
输入np = np.array(表_1)
return (输入np)
def 生成训练用numpy数组_A(输入表单, 词_数表, numpy数组路径):
表_1 = []
表_2 = []
i=0
临=''
for 表单 in 输入表单:
表_3=[]
for 字符 in 表单:
if (u'\u0041' <= 字符 <= u'\u005a') or (u'\u0061' <= 字符 <= u'\u007a'):
if 临 == '':
临 = 字符
else:
临 = 临 + 字符
else:
if 临 == '':
if 字符.lower() in 词_数表:
if 字符 != ' ':
表_3.append(词_数表[字符.lower()])
else:
表_3.append(14999)
else:
if 临.lower() in 词_数表:
if 临 != ' ':
表_3.append(词_数表[临.lower() ])
else:
表_3.append(14999)
临=''
if 字符.lower() in 词_数表:
if 字符 != ' ':
表_3.append(词_数表[字符.lower() ])
else:
表_3.append(14999)
if 临!='':
if 临.lower() in 词_数表:
if 字符 != ' ':
表_3.append(词_数表[临.lower() ])
else:
表_3.append(14999)
临 = ''
if len(表_3)!=667:
#表_1.append(np.array(表_3[0:-1]))
#表_2.append(np.array(表_3[1:]))
print(表_3)
else:
表_1.append(np.array(表_3[0:-1]))
表_2.append(np.array(表_3[1:]))
if i % 1000 == 0:
print("数据转化为numpy数组完成度百分比{}".format(i/len(输入表单)*100))
i = i + 1
print("数据转化为numpy数组完成。")
输入np = np.array(表_1)
输出np = np.array(表_2)
np.savez(numpy数组路径, 输出np=输出np, 输入np=输入np)
def 读取训练数据_A(路径):
输入表单 = []
with open(路径, encoding='utf-8') as f:
while True:
行 = f.readline()
if not 行:
break
json_行 = json.loads(行)
内容 = json_行['input']
输入表单.append(内容)
return 输入表单
def 生成测试用numpy数组_A(输入表单, 词_数表):
表_3 = []
临 = ''
for 字符 in 输入表单:
if 字符.lower() in 词_数表:
if (u'\u0041' <= 字符 <= u'\u005a') or (u'\u0061' <= 字符 <= u'\u007a'):
if 临 == '':
临 = 字符
else:
临 = 临 + 字符
else:
if 临 == '':
if 字符.lower() in 词_数表:
if 字符.lower() != ' ':
表_3.append(词_数表[字符.lower()])
else:
表_3.append(14999)
else:
if 临.lower() in 词_数表:
if 临.lower() != ' ':
表_3.append(词_数表[临.lower()])
else:
表_3.append(14999)
临 = ''
if 字符.lower() in 词_数表:
if 字符.lower() != ' ':
表_3.append(词_数表[字符.lower()])
else:
表_3.append(14999)
输入np = np.array(表_3)
return (输入np)
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。