golang 编码转换 gbk转码utf 爬虫中文乱码

Posted xsly

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了golang 编码转换 gbk转码utf 爬虫中文乱码相关的知识,希望对你有一定的参考价值。

 

golang仅支持utf-8, 使用爬虫时经常遇到不是utf-8编码的文件, 如果抓取则会造成文字乱码

 

1. 下载导入包

import "github.com/axgle/mahonia"

2. 定义函数

func ConvertToString(src string, srcCode string, tagCode string) string

    srcCoder := mahonia.NewDecoder(srcCode)

    srcResult := srcCoder.ConvertString(src)

    tagCoder := mahonia.NewDecoder(tagCode)

    _, cdata, _ := tagCoder.Translate([]byte(srcResult), true)

    result := string(cdata)

    return result



3. 调用函数

result = ConvertToString(html, "gbk", "utf-8")

以上是关于golang 编码转换 gbk转码utf 爬虫中文乱码的主要内容,如果未能解决你的问题,请参考以下文章

如何把js获取url中文乱码转码

cmd显示编码gbk不可映射字符

如何把utf-8编码的转换为gb2312

DEDEcms,GBK和UTF8版本互相转换有啥方法

如何将gbk 编码的字符串转换成 utf

Discuz x 转码要记