代码拉取完成,页面将自动刷新
#!/bin/env python3
import pickle
import common as C
import argparse, csv, sys, collections
counts = collections.defaultdict(int) #保存特征-值的频数
exp_days = collections.defaultdict(set) #保存特征-值展示日
def stat(csv_file):
n = 0
global exp_days, counts
for r in csv.DictReader(open(csv_file)):
n += 1
if n % 1000000 == 0:
print(n)
#单独计算了这3个特征_值频数
_uid = "{0}_{1}".format('uid', r['uid'])
_dip = "{0}_{1}".format('device_ip', r['device_ip'])
_did = "{0}_{1}".format('device_id', r['device_id'])
counts[_uid] += 1
counts[_dip] += 1
counts[_did] += 1
#hour格式:14102100
exp_days[_dip].add(r['hour'][4:6])
exp_days[_uid].add(r['hour'][4:6])
def run():
stat("data/tr_ext.csv")
stat("data/te_ext.csv")
exp_nday = {}
for key in exp_days:
exp_nday[key] = len(exp_days[key]) #计算一下展示的天数
pickle.dump(counts, open("data/d3_cnt", 'wb'))
pickle.dump(exp_nday, open('data/exp_nday_cnt', 'wb'))
if __name__ == "__main__":
run()
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。