1 Star 0 Fork 0

nasheishei/ipofiles

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
pyscrapy.py 1.43 KB
一键复制 编辑 原始数据 按行查看 历史
tsauliu 提交于 2017-03-17 09:35 . add explanation
#-*-coding:utf-8 -*-
import sys
import pprint
reload(sys)
sys.setdefaultencoding('utf-8')
import requests
urldict={}
import os
try:
os.mkdir('./output')
except:
pass
#从巨潮资讯解析出pdf的真实下载地址
f=open('stkcd.csv','r')
fout=open('./output/urls.csv','w')
for line in f:
stkcd = str(line[:6])
# 这一行把“招股说明书”换成 “年报” “半年报” 之类的,即可批量下载其他的公告
response=requests.get('http://www.cninfo.com.cn/cninfo-new/fulltextSearch/full?searchkey='+stkcd+'+招股说明书&sdate=&edate=&isfulltext=false&sortName=nothing&sortType=desc&pageNum=1')
dict=response.json()
for i in dict['announcements']:
if '摘要'.decode('utf-8') not in i['announcementTitle']:
print i['announcementTitle']
url='http://www.cninfo.com.cn/'+i['adjunctUrl']
print url
secname=i['secName']
date=i['adjunctUrl'][10:20]
urldict.update({stkcd+'-'+secname+'-'+date:url})
csvtowrite=stkcd+','+secname+','+date+','+url+'\n'
fout.write(csvtowrite.encode('gbk'))
pprint.pprint(urldict)
fout.close()
#根据解析出的pdf地址下载到output,并重命名成有规律的文件
import urllib2
for name in urldict:
url=urldict[name]
response = urllib2.urlopen(url)
file = open('./output/'+name+".pdf", 'wb')
file.write(response.read())
file.close()
print name
Loading...
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/nasheishei/ipofiles.git
git@gitee.com:nasheishei/ipofiles.git
nasheishei
ipofiles
ipofiles
master

搜索帮助

0d507c66 1850385 C8b1a773 1850385