网络爬虫1

Posted Andy 胡

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网络爬虫1相关的知识,希望对你有一定的参考价值。

网络爬虫,web crawler(网页蜘蛛,网络机器人,网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序

最简单的网络爬虫:读取页面中所有的邮箱

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class WebCrawler {

    
    public static void main(String[] args) throws IOException{
        // 网址
        //URL url = new URL("http://localhost:8080/JavaWeb/index.jsp");
    URL url = new URL("https://www.meizu.com/contact.html"); URLConnection conn
= url.openConnection(); // 转流 InputStream is = conn.getInputStream(); InputStreamReader isReader = new InputStreamReader(is); // 读取 BufferedReader bufRead = new BufferedReader(isReader); String line = null; String mailReg = "\\[email protected]\\w+(\\.\\w+)+"; Pattern p = Pattern.compile(mailReg); while((line=bufRead.readLine())!=null){ // 匹配 Matcher matcher = p.matcher(line); while(matcher.find()){ System.out.println(matcher.group()); } } is.close(); } }

 

以上是关于网络爬虫1的主要内容,如果未能解决你的问题,请参考以下文章

python网络爬虫

网络爬虫作业代码代写代实现代做爬虫程序

Python网络爬虫学习手记——爬虫基础

python网络爬虫入门

VSCode自定义代码片段14——Vue的axios网络请求封装

VSCode自定义代码片段14——Vue的axios网络请求封装