优酷电视剧爬虫代码实现一:下载解析视频网站页面

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了优酷电视剧爬虫代码实现一:下载解析视频网站页面相关的知识,希望对你有一定的参考价值。

1.新建一个电视剧爬虫入口类StartDSJCount。如果后期还需要综艺或者电影,也可以仿照再新建综艺或电影爬虫入口类。

package com.dajiangtai.djt_spider.start;

import com.dajiangtai.djt_spider.entity.Page;
import com.dajiangtai.djt_spider.service.IDownLoadService;
import com.dajiangtai.djt_spider.service.impl.HttpClientDownLoadService;

/**
* 电视剧爬虫入口类
* @author Administrator
* 1.在StartDSJCount 中定义页面下载接口downLoadService

   2.需要对它get/set,这样在StartDSJCount实例化后,可以设置属性downLoadService,这个接口需要实例化,因此,使用set方式对接口进行实例化。

   3.添加public Page downloadPage(String url)方法,调用接口this.downLoadService.download(url)方法

   4.main方法中进行测试。
*/
public class StartDSJCount {

//页面下载接口
private IDownLoadService downLoadService;

public static void main(String[] args) {
StartDSJCount dsj = new StartDSJCount();
dsj.setDownLoadService(new HttpClientDownLoadService());
String url = "http://list.youku.com/show/id_z9cd2277647d311e5b692.html?spm=a2h0j.8191423.sMain.5~5~A!2.iCUyO9";
//下载页面
Page page = dsj.downloadPage(url);
System.out.println(page.getContent());

}

//下载页面方法
public Page downloadPage(String url){
return this.downLoadService.download(url);
}

public IDownLoadService getDownLoadService() {
return downLoadService;
}

public void setDownLoadService(IDownLoadService downLoadService) {
this.downLoadService = downLoadService;
}

}

测试结果:

技术分享

 

 2.定义解析接口IProcessService。这里是以优酷为例,不同的视频网站有不同的页面格式,因此,解析方式也不同。所以,需要实现一个解析接口。

 

package com.dajiangtai.djt_spider.service;

import com.dajiangtai.djt_spider.entity.Page;

/**
* 页面解析接口
* @author Administrator
*
*/
public interface IProcessService {

public void process(Page page);
}

 


































以上是关于优酷电视剧爬虫代码实现一:下载解析视频网站页面的主要内容,如果未能解决你的问题,请参考以下文章

爬虫代码实现五:解析所有分页url并优化解析实现类

python动态视频下载器

爬虫记一次某视频网站的加密解密

爬虫解析js,抓取优酷免费视频的真实播放地址

安卓手机优酷下载好的视频文件在哪里 ?

手机优酷视频如何上传视频