我想用java抓取http://www.weather.com.cn/杭州天气,求大神指导
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了我想用java抓取http://www.weather.com.cn/杭州天气,求大神指导相关的知识,希望对你有一定的参考价值。
package util;
import java.io.InputStream;
import java.net.URL;
import java.util.Scanner;
public class my
public static void main(String[] args) throws Exception
URL url = new URL("http","qq.ip138.com",80,"/weather/zhejiang/HangZhou.htm") ;//protocol、host、port 号和 file
InputStream input = url.openStream() ; // 打开输入流
Scanner scan = new Scanner(input) ; // 实例化Scanner类
scan.useDelimiter("\n") ; // 设置读取分隔符
while(scan.hasNext())
System.out.println(scan.next()) ;
这是刚刚写的,就写个简单的。这输出的是全部的html,我不知道怎么输出天气状况
具体参照http://www.cnblogs.com/babycool/p/3575167.html这个。 参考技术A 获取了html以后,用正则表达式匹配或者根据一些规则替换、截取,获取你要的内容 参考技术B 个人感觉,获取天气预报用webservice更好。网页获取的话只能整理一下抓出来的数据 参考技术C 百度http请求
我想用 python 抓取一个印地语(印度语言)pdf文件
【中文标题】我想用 python 抓取一个印地语(印度语言)pdf文件【英文标题】:I want to scrape a Hindi(Indian Langage) pdf file with python 【发布时间】:2016-06-29 23:19:51 【问题描述】:我编写了从 PDF 文件中抓取所有数据的 python 代码。这里的问题是,一旦被刮掉,单词就会失去语法。如何解决这些问题? 我附上代码。
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec,laparams=laparams)
with open(path, 'rb') as fp:
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
caching = True
pagenos = set()
for page in PDFPage.get_pages(fp, pagenos, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
device.close()
retstr.close()
return text
print convert_pdf_to_txt("S24A276P001.pdf")
这是PDF的截图。
【问题讨论】:
如果您从pdf查看器复制粘贴,您可以正确看到正确的文本吗? 复制粘贴后没有文字不正确 有时文本不会以我以前见过的某种语言存储在某些 pdf 文件中,这意味着您需要为此编写自定义解码器。没有语言知识,我在这里无能为力。 如何写一个通用的自定义解码器??如果你能帮我解决这个问题,我可能会想办法。 要写解码器,需要了解我不会说的语言和语法。也许你可以发布一组正确的文本和不正确的文本,但我很有可能没有线索。 【参考方案1】:解决问题的最佳方法是使用 python 中的textract
模块并从其 github 存储库加载印地语测试数据,并将提取的文本写入 txt 文件。这解决了我的问题。
【讨论】:
您能否用一个简单的例子详细说明解决方案对我们有帮助吗?谢谢以上是关于我想用java抓取http://www.weather.com.cn/杭州天气,求大神指导的主要内容,如果未能解决你的问题,请参考以下文章
ftp://127.0.0.1无法访问本机FTP服务器,通过本机IP可访问,127。0。0。1不能访问,我想用127的访问
如何下载java 官方 JDK 文档 。这里,我想把这个下载下来http://download.oracle.com/javaee/6/api/
java正则表达式 ^/.*\\.do$ 和 ^/.*\\.[-\\w]+$ 各表示匹配啥东西呀?