1 Star 0 Fork 0

wakeupppp/grammarVAE

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
make_zinc_dataset_str.py 867 Bytes
一键复制 编辑 原始数据 按行查看 历史
mkusner 提交于 2017-03-09 07:38 . fix zinc string dataset make code
import numpy as np
import pdb
from models.utils import many_one_hot
import h5py
f = open('data/250k_rndm_zinc_drugs_clean.smi','r')
L = []
chars = ['C', '(', ')', 'c', '1', '2', 'o', '=', 'O', 'N', '3', 'F', '[', '@', 'H', ']', 'n', '-', '#', 'S', 'l', '+', 's', 'B', 'r', '/', '4', '\\', '5', '6', '7', 'I', 'P', '8', ' ']
DIM = len(chars)
for line in f:
line = line.strip()
L.append(line)
f.close()
count = 0
MAX_LEN = 120
OH = np.zeros((249456,MAX_LEN,DIM))
for chem in L:
indices = []
for c in chem:
indices.append(chars.index(c))
if len(indices) < MAX_LEN:
indices.extend((MAX_LEN-len(indices))*[DIM-1])
OH[count,:,:] = many_one_hot(np.array(indices), DIM)
count = count + 1
f.close()
h5f = h5py.File('zinc_str_dataset.h5','w')
h5f.create_dataset('data', data=OH)
h5f.create_dataset('chr', data=chars)
h5f.close()
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/wakeuppp/grammarVAE.git
git@gitee.com:wakeuppp/grammarVAE.git
wakeuppp
grammarVAE
grammarVAE
master

搜索帮助