java 对于url地址的实体符号的处理
Posted 傻瓜不傻108
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了java 对于url地址的实体符号的处理相关的知识,希望对你有一定的参考价值。
<!-- https://mvnrepository.com/artifact/org.apache.commons/commons-lang3 <dependency> <groupId>org.apache.commons</groupId> <artifactId>commons-lang3</artifactId> <version>3.4</version> </dependency> --> public static String getNextPage(String web) throws Exception { HttpComponentsClientHttpRequestFactory factory=new HttpComponentsClientHttpRequestFactory(); // factory.setConnectTimeout(60000); // factory.set String regx="上一页</a>)(<a.*?href=[\\\"‘]?(((http|https)?://)?/?[^\\\"‘]+)[\\\"‘]?.*?>(.+)</a>"; RestTemplate template=new RestTemplate(); URI uri=new URI(URLDecoder.decode(web,"utf-8")); String stri = template.getForObject(uri, String.class); Pattern pattern=Pattern.compile(regx); Matcher matcher = pattern.matcher(stri); matcher.find(); String group = matcher.group(); group = group.substring(group.indexOf("href=\"/") + 7, group.indexOf("\" title=\"")); group="http://www.youbianku.com/"+group; group= StringEscapeUtils.unescapehtml4(group); return group; }
以上是关于java 对于url地址的实体符号的处理的主要内容,如果未能解决你的问题,请参考以下文章
从 AngularJS url 中删除片段标识符(# 符号)