用golang写爬虫
Posted peteremperor
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用golang写爬虫相关的知识,希望对你有一定的参考价值。
我是在windows系统上安装的go,使用goland编辑。
Hello world:
package main import "fmt" func main() { fmt.Println("Hello, world") }
ctrl+alt+f10运行
下载网页
这里先从Golang原生http库开始,直接使用 net/http
包内的函数请求
import "net/http" ... resp, err := http.Get("http://wwww.baidu.com")
所以代码可以这样写
package main
import (
"fmt"
"io/ioutil"
"net/http"
)
func main() {
fmt.Println("Hello, world")
resp, err := http.Get("http://www.baidu.com/")
if err != nil {
fmt.Println("http get error", err)
return
}
body, err := ioutil.ReadAll(resp.Body)
if err != nil {
fmt.Println("read error", err)
return
}
fmt.Println(string(body))
}
Golang的错误处理就是这样的,习惯就好。
这里更好的做法是把下载方法封装为函数。
package main
import (
"fmt"
"io/ioutil"
"net/http"
)
func main() {
fmt.Println("Hello, world")
url := "http://www.baidu.com/"
download(url)
}
func download(urlstring) {
client := &http.Client{}
req, _ := http.NewRequest("GET", url, nil)
// 自定义Header
req.Header.Set("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)")
resp, err := client.Do(req)
if err != nil {
fmt.Println("http get error", err)
return
}
//函数结束后关闭相关链接
defer resp.Body.Close()
body, err := ioutil.ReadAll(resp.Body)
if err != nil {
fmt.Println("read error", err)
return
}
fmt.Println(string(body))
}
解析网页
go常见的解析器xpath、 jquery 、正则都有,直接搜索即可,我这里偷懒,直接用别人写好的轮子 collectlinks
,可以提取网页中所有的链接,下载方法 go get -u github.com/jackdanger/collectlinks
package main
import (
"fmt"
"github.com/jackdanger/collectlinks"
"net/http"
)
func main() {
fmt.Println("Hello, world")
url := "http://www.baidu.com/"
download(url)
}
func download(urlstring) {
client := &http.Client{}
req, _ := http.NewRequest("GET", url, nil)
// 自定义Header
req.Header.Set("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)")
resp, err := client.Do(req)
if err != nil {
fmt.Println("http get error", err)
return
}
//函数结束后关闭相关链接
defer resp.Body.Close()
links := collectlinks.All(resp.Body)
for _, link := range links {
fmt.Println("parse url", link)
}
}
并发
Golang使用关键字 go
即可开启一个新的 go 程,也叫 goroutine
,使用 go 语句开启一个新的 goroutine 之后,go 语句之后的函数调用将在新的 goroutine 中执行,而不会阻塞当前的程序执行。所以使用Golang可以很容易写成异步IO。
package main
import (
"fmt"
"github.com/jackdanger/collectlinks"
"net/http"
)
func main() {
fmt.Println("Hello, world")
url := "http://www.baidu.com/"
queue := make(chan string)
go func() {
queue <- url
}()
for uri := range queue {
download(uri, queue)
}
}
func download(urlstring, queuechan string) {
client := &http.Client{}
req, _ := http.NewRequest("GET", url, nil)
// 自定义Header
req.Header.Set("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)")
resp, err := client.Do(req)
if err != nil {
fmt.Println("http get error", err)
return
}
//函数结束后关闭相关链接
defer resp.Body.Close()
links := collectlinks.All(resp.Body)
for _, link := range links {
fmt.Println("parse url", link)
go func() {
queue <- link
}()
}
}
现在的流程是main有一个for循环读取来自名为queue的通道,download下载网页和链接解析,将发现的链接放入main使用的同一队列中,并再开启一个新的goroutine去抓取形成无限循环。
这里对于新手来说真的不好理解,涉及到Golang的两个比较重要的东西:goroutine和channels,这个我也不大懂,这里也不多讲了,以后有机会细说。
官方:A goroutine is a lightweight thread managed by the Go runtime.翻译过来就是:Goroutine是由Go运行时管理的轻量级线程。channels是连接并发goroutine的管道,可以理解为goroutine通信的管道。 可以将值从一个goroutine发送到通道,并将这些值接收到另一个goroutine中。对这部分有兴趣的可以去看文档。
好了,到这里爬虫基本上已经完成了,但是还有两个问题:去重、链接是否有效。
链接转为绝对路径
package main
import (
"fmt"
"github.com/jackdanger/collectlinks"
"net/http"
"net/url"
)
func main() {
fmt.Println("Hello, world")
url := "http://www.baidu.com/"
queue := make(chan string)
go func() {
queue <- url
}()
for uri := range queue {
download(uri, queue)
}
}
func download(urlstring, queuechan string) {
client := &http.Client{}
req, _ := http.NewRequest("GET", url, nil)
// 自定义Header
req.Header.Set("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)")
resp, err := client.Do(req)
if err != nil {
fmt.Println("http get error", err)
return
}
//函数结束后关闭相关链接
defer resp.Body.Close()
links := collectlinks.All(resp.Body)
for _, link := range links {
absolute := urlJoin(link, url)
if url != " " {
fmt.Println("parse url", absolute)
go func() {
queue <- absolute
}()
}
}
}
func urlJoin(href, basestring)string {
uri, err := url.Parse(href)
if err != nil {
return " "
}
baseUrl, err := url.Parse(base)
if err != nil