如何从 WebView 获取网页内容?
Posted
技术标签:
【中文标题】如何从 WebView 获取网页内容?【英文标题】:How do I get the web page contents from a WebView? 【发布时间】:2011-01-23 12:06:50 【问题描述】:在 android 上,我有一个正在显示页面的 WebView
。
如何在不再次请求页面的情况下获取页面源?
似乎WebView
应该有某种返回字符串的getPageSource()
方法,但可惜它没有。
如果我启用 javascript,在此调用中放入什么合适的 JavaScript 以获取内容?
webview.loadUrl("javascript:(function() " +
"document.getElementsByTagName('body')[0].style.color = 'red'; " +
")()");
【问题讨论】:
使用jquery脚本和js接口从webview获取html内容 window.interface.processHTML($(\"body\").html()); ***.com/questions/8200945/… 您显然可以使用 HTTP 请求以 HTML 格式获取响应,但如果某些页面需要加载发布数据(例如用户凭据等),这种方法就会失败。我认为这就是它应该的样子,因为如果你能做到,你可能可以为任何网站制作自己的 android 应用程序,这很糟糕! 【参考方案1】:我知道这是一个迟到的答案,但我发现这个问题是因为我遇到了同样的问题。我想我在 lexandera.com 上的 this post 找到了答案。下面的代码基本上是从网站上剪切和粘贴的。它似乎可以解决问题。
final Context myApp = this;
/* An instance of this class will be registered as a JavaScript interface */
class MyJavaScriptInterface
@JavascriptInterface
@SuppressWarnings("unused")
public void processHTML(String html)
// process the html as needed by the app
final WebView browser = (WebView)findViewById(R.id.browser);
/* JavaScript must be enabled if you want it to work, obviously */
browser.getSettings().setJavaScriptEnabled(true);
/* Register a new JavaScript interface called HTMLOUT */
browser.addJavascriptInterface(new MyJavaScriptInterface(), "HTMLOUT");
/* WebViewClient must be set BEFORE calling loadUrl! */
browser.setWebViewClient(new WebViewClient()
@Override
public void onPageFinished(WebView view, String url)
/* This call inject JavaScript into the page which just finished loading. */
browser.loadUrl("javascript:window.HTMLOUT.processHTML('<head>'+document.getElementsByTagName('html')[0].innerHTML+'</head>');");
);
/* load a web page */
browser.loadUrl("http://lexandera.com/files/jsexamples/gethtml.html");
【讨论】:
请注意,这可能不是页面的原始 HTML;在执行onPageFinished()
之前,页面内容可能已通过 JavaScript 动态更改。
很好,但是在onPageFinished
中调用browser.loadUrl
方法会导致再次调用onPageFinished
。您可能想在调用browser.loadUrl
之前检查它是否是onPageFinished
的第一次调用。
谢谢@Blundell 它对我有用。我想知道如何将其实现为服务。因为是一个没有布局和 webview 来存储结果的服务。有没有办法将数据放在与 webView 不同的其他对象中,以便我们可以放置 javascript 来获取生成的 html 代码?
@Totalys 这更容易String html = new Scanner(new DefaultHttpClient().execute(new HttpGet("www.the url")).getEntity().getContent(), "UTF-8").useDelimiter("\\A").next();
(缩写以适应评论:-))
别忘了将 runOnUiThread(new Runnable() ... 插入 public void processHTML。【参考方案2】:
根据issue 12987,Blundell 的回答崩溃了(至少在我的 2.3 VM 上)。相反,我截获了对带有特殊前缀的 console.log 的调用:
// intercept calls to console.log
web.setWebChromeClient(new WebChromeClient()
public boolean onConsoleMessage(ConsoleMessage cmsg)
// check secret prefix
if (cmsg.message().startsWith("MAGIC"))
String msg = cmsg.message().substring(5); // strip off prefix
/* process HTML */
return true;
return false;
);
// inject the JavaScript on page load
web.setWebViewClient(new WebViewClient()
public void onPageFinished(WebView view, String address)
// have the page spill its guts, with a secret prefix
view.loadUrl("javascript:console.log('MAGIC'+document.getElementsByTagName('html')[0].innerHTML);");
);
web.loadUrl("http://www.google.com");
【讨论】:
如何进入?【参考方案3】:这是基于jluckyiv's的答案, 但我认为如下更改 Javascript 会更好更简单。
browser.loadUrl("javascript:HTMLOUT.processHTML(document.documentElement.outerHTML);");
【讨论】:
【参考方案4】:您是否考虑过单独获取 HTML,然后将其加载到 webview 中?
String fetchContent(WebView view, String url) throws IOException
HttpClient httpClient = new DefaultHttpClient();
HttpGet get = new HttpGet(url);
HttpResponse response = httpClient.execute(get);
StatusLine statusLine = response.getStatusLine();
int statusCode = statusLine.getStatusCode();
HttpEntity entity = response.getEntity();
String html = EntityUtils.toString(entity); // assume html for simplicity
view.loadDataWithBaseURL(url, html, "text/html", "utf-8", url); // todo: get mime, charset from entity
if (statusCode != 200)
// handle fail
return html;
【讨论】:
这不会携带cookies。 这种方法会触发 CAPTCHA 对话框【参考方案5】:我设法使用@jluckyiv 的答案中的代码来完成这项工作,但我必须在 MyJavaScriptInterface 中的 processHTML 方法中添加 @JavascriptInterface 注释。
class MyJavaScriptInterface
@SuppressWarnings("unused")
@JavascriptInterface
public void processHTML(String html)
// process the html as needed by the app
【讨论】:
【参考方案6】:如果您的 targetSdkVersion >= 17,您还需要使用 @JavascriptInterface 注释该方法 - 因为 SDK 17 中有新的安全要求,即所有 javascript 方法都必须使用 @JavascriptInterface 注释。否则你会看到如下错误: Uncaught TypeError: Object [object Object] has no method 'processHTML' at null:1
【讨论】:
【参考方案7】:如果您正在使用 kitkat 及更高版本,您可以使用 chrome 远程调试工具来查找所有进出您的 web 视图的请求和响应,以及所查看页面的 html 源代码。
https://developer.chrome.com/devtools/docs/remote-debugging
【讨论】:
问题即将以编程方式访问。请您解释一下您的帖子有何用处?以上是关于如何从 WebView 获取网页内容?的主要内容,如果未能解决你的问题,请参考以下文章