问题定义,下载数据,观察结构,找最相关部分特征; 除去异常值,填充缺省值,部分特征正态化,特征编码向量化,增加新特征; 定义评估标准,选择表现好的几个模型,模型参数最优化,stacking模型融合。最终误差降低到0.101左右。详细介绍见https://zhuanlan.zhihu.com/p/89923216
最近更新: 5年前1.解析爬取到的Json歌单数据,并进行数据预处理。 2.基于Surprise推荐系统库,采用KNNBaseLine实现基于用户 的协同过滤歌曲推荐。3.借鉴Word2Vec算法思想进行Song2Vec处理,实现基于物品的协同过滤歌曲推荐。 4.采用 TensorFlow实现基于LFM的歌曲推荐。
最近更新: 5年多前问题描述 一、数据说明: Capital Bikeshare (美国Washington, D.C.的一个共享单车公司)提供的共享单车数据。数据包含每天的日期、天气等信息,需要预测每天的共享单车骑行量。 解题提示 原始数据集地址:http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset 1) 文件说明 day.csv: 按天计的单车共享次数(作业只需使用该文件) hour.csv: 按小时计的单车共享次数(无需理会) readme:数据说明文件 2) 字段说明 Instant记录号 Dteday:日期 Season:季节(1=春天、2=夏天、3=秋天、4=冬天) yr:年份,(0: 2011, 1:2012) mnth:月份( 1 to 12) hr:小时 (0 to 23) (只在hour.csv有,作业忽略此字段) holiday:是否是节假日(0/1) weekday:星期中的哪天,取值为0~6 workingday:是否工作日(0/1) 1=工作日 (是否为工作日,1为工作日,0为非周末或节假日) weathers
最近更新: 接近6年前