项目：可视化分析（后端爬取数据部分）

Posted 2020-12-18

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了项目：可视化分析（后端爬取数据部分）相关的知识，希望对你有一定的参考价值。

一：项目介绍

可视化分析项目是一个将唐诗三百首的详细内容录入到mysql,再实现一个简单的前端页面将数据以图表的形式展现出来，方便用户直观感受每个作者的诗词创作数量，和所使用频繁的词语构成的词云图等。

二：项目构思

项目主要分为两大部分

后端爬取唐诗数据录入数据库部分
提取数据库信息并通过前端网页绘图展现

我们需要爬取的数据信息来自：
原因：唐诗三百首这个网站不收费，公开的。
技术图片

技术图片

思考：我们如何将这一首首诗的标题，朝代，作者，正文等信息存入到MySQL中？

1.获取列表页的html文档,通过运用htmlunit第三方库中的方法获取每首诗的url.
2.分析详情页，通过Xpath获取每首诗的标题，朝代，作者，正文。
3.使用Java原生加密类MessageDigest类中的SHA-256算法防止数据重复录入数据库。
4.使用ansj-seg第三方库中的NlpAnalysis类的parse()，来计算分词，为前端网页展现词云图做铺垫。
5.使用JDBC 将数据入库。

预研阶段及技术选型：

HtmlUnit(网页爬取)
HtmlUnit第三方库自带http client,可以帮助我们访问服务器资源，实现html页面的请求+解析。这个库下有一些方法getElementsByAttribute（），getAttribute（），getElementsByATagName（）帮助我们解析解析html文档。
ansi_seg(分词)
ansj-seg第三方库中的NlpAnalysis类的方法parse()，来计算分词。
MySQL（数据库）
这是一个轻量级的数据库，操作方便，且支持SQL语句，我们可以作为客户端很方便得存储，管理以及访问数据。
maven(构建软件)
在一个项目的开发过程中需要用到很多第三方库。而maven可以帮助我们编译代码，从maven 仓库自动下载安装所需的第三方库以及别人写好的jar包。
熟悉技术使用：

我们在正式编写代码之前先写一些小Demo,使得我们快速熟悉方法的使用。
HtmlUnit的小Demo


import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlElement;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import java.io.File;
import java.io.IOException;
import java.util.List;

public class HtmlUnitDemo {

    public static void main(String[] args) throws IOException {
        // ***面的浏览器(HTTP 客户端)
        WebClient webClient = new WebClient(BrowserVersion.CHROME);//声明了一个浏览器对象 http客户端
        // 关闭了浏览器的 js 执行引擎，不再执行网页中的 js 脚本
        webClient.getOptions().setjavascriptEnabled(false);
        // 关闭了浏览器的 css 执行引擎，不再执行网页中的 css 布局
        webClient.getOptions().setCssEnabled(false);
        HtmlPage page=webClient.getPage("https://so.gushiwen.org/gushi/tangshi.aspx");
        //请求网页  请求列表页
        //得到HTMLpage对象
        System.out.println(page);// HtmlPage(https://so.gushiwen.org/gushi/tangshi.aspx)@1424108509
        File file = new File("唐诗三百首\列表页.html");//里面有一首首诗的url
        file.delete();

        page.save(file);//将得到的东西保存在列表页文件里

        // 如何从 html 中提取我们需要的信息
        HtmlElement body = page.getBody();

        List<HtmlElement> elements = body.getElementsByAttribute(
                "div",
                "class",//attributeName
                "typecont");//得到【五言绝句，七言律诗，五言律诗。。。】

        /*
        for (HtmlElement element : elements) {
            System.out.println(element);
        }
        */

        HtmlElement divElement = elements.get(0);//取第一个元素：五言绝句
        List<HtmlElement> aElements = divElement.getElementsByAttribute("a", "target", "_blank");
        for (HtmlElement e : aElements) {
            System.out.println(e);
        }
        System.out.println(aElements.size());
        System.out.println(aElements.get(0).getAttribute("href"));//五言绝句中的第一首诗 行宫
    }
}

关键方法解释：
1.getElementsByAttribute("elementName","attributeName","attributeValue")
此方法返回的是一个list,会返回所有"class"=typecont"的元素。
[{五言绝句}，{七言律诗}，{五言律诗}...]
2.getAttribute("attributeName")
此方法返回的是一个list,会返回所有标签为"href"的元素。

Xpath元素定位小Demo

public class 详情页下载提取Demo {
    public static void main(String[] args) throws IOException {
        //try(){}  结束之后会自动调用wenclient.close()
        try (WebClient webClient = new WebClient(BrowserVersion.CHROME)) {
            webClient.getOptions().setCssEnabled(false);
            webClient.getOptions().setJavaScriptEnabled(false);

            String url = "https://so.gushiwen.org/shiwenv_45c396367f59.aspx";//行宫 的url
            HtmlPage page = webClient.getPage(url);//请求详情页
            HtmlElement body = page.getBody();
            /*
            List<HtmlElement> elements = body.getElementsByAttribute(
                    "div",
                    "class",
                    "contson"
            );//会把所有这样的标签都拿出来。包括三首猜你喜欢

            for (HtmlElement element : elements) {//四首诗
                System.out.println(element); //每首诗的div class id
            }

            System.out.println(elements.get(0).getTextContent().trim());//打印第一首诗的内容
             */                                 //获取它的正文信息

            // 标题
            {
                String xpath = "//div[@class=‘cont‘]/h1/text()";
                Object o = body.getByXPath(xpath).get(0);//会拿出所有这样的。所以需get(0) 纸打印第一首诗
                DomText domText = (DomText)o;//document object model
                System.out.println(domText.asText());
            }
            //朝代
            {
                String xpath = "//div[@class=‘cont‘]/p[@class=‘source‘]/a[1]/text()";//第一个a标签
                Object o = body.getByXPath(xpath).get(0);
                DomText domText = (DomText)o;
                System.out.println(domText.asText());
            }
            //作者
            {
                String xpath = "//div[@class=‘cont‘]/p[@class=‘source‘]/a[2]/text()";
                Object o = body.getByXPath(xpath).get(0);
                DomText domText = (DomText)o;
                System.out.println(domText.asText());
            }
            //正文
            {
                String xpath = "//div[@class=‘cont‘]/div[@class=‘contson‘]";
                Object o = body.getByXPath(xpath).get(0);
                HtmlElement element = (HtmlElement)o;//不是dom节点
                System.out.println(element.getTextContent().trim());//得到文章内容 修剪空格
                //如果不这样做，可能会得到一行 或者更多连同底下的猜您喜欢
            }
        }
    }

}

关键方法解释：

//div[@class=‘cont‘]/h1/text()"
表示div标签中属性“class"的值为”cont"的元素
其下面的标题h1内容
DomText为节点对象，（document object model）
asText() 获取文本内容
getTextContent() 获取正文内容**

ansj_seg(分词库)分词小Demo

import org.ansj.domain.Term;
import org.ansj.splitWord.analysis.NlpAnalysis;

import java.util.List;

public class 分词Demo{

    public static void main(String[] args) {
        String sentence = "中华人民共和国成立了！中国人民从此站起来了！";
        List<Term> termList = NlpAnalysis.parse(sentence).getTerms();
        for (Term term : termList) {
            System.out.println(term.getNatureStr() + ":" + term.getRealName());
        }
    }

}

SHA-256算法保证数据不会重复入库(sha-256小Demo)

import java.io.IOException;
import java.io.UnsupportedEncodingException;
import java.security.MessageDigest;
import java.security.NoSuchAlgorithmException;
public class 求SHA256Demo {
//MD5
    //SHA-256
    public static void main(String[] args) throws NoSuchAlgorithmException, UnsupportedEncodingException{
        MessageDigest messageDigest=MessageDigest.getInstance("SHA-256");
                      //信息摘要                     //实例
        String s="你好世界";
        byte [] bytes=s.getBytes("UTF-8");
        messageDigest.update(bytes);//把要处理的字节传进去
        byte[] result=messageDigest.digest();// 吸收 处理完后结果放在result
        System.out.println(result.length);
        for(byte b:result) {//打印信息摘要的每条信息
            System.out.print(String.format("%02x", b));//右对齐 十六进制
        }
        System.out.println();

    }
}

关键方法解释：

messageDigest.update(bytes);//把要处理的字节传进去
 byte[] result=messageDigest.digest();//  计算处理完后结果放在result

数据库表的设计：

元素列举：

标题
朝代
作者
正文
分词
sha-256
最后加上一个自增主键**

技术图片

三：正式开发代码：

1.单线程版本：

所有工作全部由主线程一个完成，执行效率最慢，但好处是无线程安全安全。
2.多线程版本：

爬取首页网站是主线程做，详情页的请求+解析，计算sha-256,分词，入库等交给工作线程做。大大提升了执行效率。
遇到的问题：

connection和webclient是线程不安全的，每个线程需要有自己的对象。
3.线程池版本：

Executors.newFixedThreadPool(30);//固定个数的线程池
一批处理30个，大概需要11批。
遇到的问题：

1.线程池中的线程是不会自己停止的？
 我们需调用pool.shutdown()关闭线程
     2.如何判断320首全部下载结束，继而调用pool.shutdown()关闭线程？
     我们用到了countDownLatch类中的两个方法
      CountDownLatch countDownLatch = new    CountDownLatch(detailUrlList.size());//等到320首全部计数完成
                1.await() // 当320没有减少到0师，一直阻塞在pool.shutdown()前。
              2.countDown()//每当一个线程完成任务，数字减一。

声明：这次博客只完成了数据爬取并录入数据库过程。

以上是关于项目：可视化分析（后端爬取数据部分）的主要内容，如果未能解决你的问题，请参考以下文章

数据可视化项目-岗位分析-vue-python实现

Python爬取《流浪地球》豆瓣影评与数据分析

基于大数据的房价数据爬虫与可视化分析预测系统

爬取知乎热度搜索标题并数据分析及可视化