CANDA21 (canda21) - Gitee.com

Forked from 燕洼仙草/Listed-company-news-crawl-and-text-analysis

上市公司新闻文本分析与分类预测的基本步骤如下：从新浪财经、每经网、金融界、中国证券网、证券时报网上，爬取上市公司（个股）的历史新闻文本数据（包括时间、网址、标题、正文）从Tushare上获取沪深股票日线数据（开、高、低、收、成交量和持仓量）和基本信息（包括股票代码、股票名称、所属行业、所属地区、PE值、总资产、流动资产、固定资产、留存资产等）对抓取的新闻文本按照，去停用词、加载新词、分词的顺序进行处理利用前两步中所获取的股票名称和分词后的结果，抽取出每条新闻里所包含的（0支、1支或多支）股票名称，并将所对应的所有股票代码，组合成与该条新闻相关的股票代码列表，并在历史数据表中增加一列相关股票代码数据从历史新闻数据库中抽取与某支股票相关的所有新闻文本，利用该支股票的日线数据（比如某一天发布的消息，在设定N天后如果价格上涨则认为是利好消息，反之则是利空消息）给每条新闻贴上“利好”和“利空”的标签，并存储到新的数据库中（或导出到CSV文件）实时抓取新闻数据，判断与该新闻相关的股票有哪些，利用上一步的结果，对与某支股票相关的所有历史新闻文本（已贴标签）进行文本分析（构建新的特征集）

CANDA21

热门项目

贡献度

动态（访客只能浏览公开仓库的动态）

CANDA21

热门项目

贡献度

动态 （访客只能浏览公开仓库的动态）

搜索帮助

动态（访客只能浏览公开仓库的动态）