master

分支 (1)

管理

管理

master

public-sentiment
/
webspider.html

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>网络爬虫</title>
    <link rel='stylesheet' href='css/subpage.css'>
    <link rel="stylesheet" href="css/nav.css">
</head>
<body>
    <div id="container">
        <div id="sub_web">
            <div class="div_daohang">
                <div style="height: 10px;"></div>
                <div class="menu">
                    <div class="center">
                        <ul class="ul-list">
                            <li><a href="./index.html">首页</a></li>
                            <li><a href="./synopsis.html">舆情简介</a></li>
                            <li><a href="./function.html">平台功能</a></li>
                            <li><a href="./analysis.html">数据分析</a></li>
                            <li><a href="./webspider.html">网络爬虫</a></li>
                            <li><a href="./earlywarning.html">舆情预警</a></li>
                            <li><a href="./report.php">舆情报告</a></li>
                            <li><a href="./contact.php">联系我们</a></li>
                        </ul>
                    </div>
                </div>
            </div>
            <div class="none_h"></div>
            <div id="web_subleft">
                <ul>
                    <li type="disc"><a href="#web_moku1" class="a_web_left">TopicSpider</a></li>
                    <li type="disc"><a href="#web_moku2" class="a_web_left">CommentSpider</a></li>
                </ul>
            </div>
            <div id="web_none_s"></div>
            <div id="web_subright">
                <p class="font_subpa">当前所在位置：&nbsp;&nbsp;<a href="index.html" class="font_subpa">首页</a>&nbsp;&nbsp;>&nbsp;&nbsp;<a href="./webspider.html" class="font_subpa">网络爬虫</a></p>
                <hr color="#e8e8e8" width="780px">
                <div id="web_moku1">
                    <div class="web_mktop">
                        <h1 class="web_font_h1">TopicSpider爬虫介绍</h1>
                    </div>
                    <div id="web_mk1_body">
                        <p class="font_p">
                            &nbsp;&nbsp;TopicSpider爬虫，是对关键词爬取的爬虫。共包含“微博id、发布者昵称、发布者性别、发布者地区、发布者关注数、发布者粉丝数、微博正文、原始图片url、发布时间、发布工具、点赞数、转发数、评论数、发布位置”等14余条数据。
                            使用时，通过检索关键词，设定爬取事件范围（如爬取2021年6月信息，及开始时间2021-06-01-00到结束时间2021-06-30-00，年-月-日-时）。最终文件会在本地生成一个.scv文件，爬取信息将保存在里面。
                        </p>
                        <div class="web_moku_img">
                            <img src="./images/TopicSpider.png" width="560" height="297">
                        </div>
                    </div>
                </div>
                <hr color="#e8e8e8" width="780px">
                <div id="web_moku2">
                    <div class="web_mktop">
                        <h1 class="web_font_h1">CommentSpider爬虫介绍</h1>
                    </div>
                    <div id="web_mk2_body">
                        <p class="font_p">
                        &nbsp;&nbsp;CommentSpider爬虫，通过对TopicSpider爬虫爬取的微博正文进行评论的爬取。主要原理是在TopicSpider爬虫爬取的网页特定的id，在CommentSpider爬虫中将id组合成特定的URL并对此URL进行访问，以爬取此微博评论。
                        </p>
                        <div class="web_moku_img">
                            <img src="./images/CommentSpider.png" width="560" height="297">
                        </div>
                    </div>
                </div>
            </div>
        </div>
    </div>
</body>
</html>