如何用shell获取html网页中指定的文本数据

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何用shell获取html网页中指定的文本数据相关的知识,希望对你有一定的参考价值。

参考技术A import sys

from lxml import etree

reload(sys)

sys.setdefaultencoding("utf8")

import requests

r = requests.get('http://best.pconline.com.cn/')

html = r.text

xmlhtml = etree.HTML(html)

content = xmlhtml.xpath('//div[starts-with(@id,"topic")]/div[1]/a[2]/text()')

urllist = xmlhtml.xpath('//div[starts-with(@id,"topic")]/div[1]/a[2]/@href')

lastime = xmlhtml.xpath('//div[starts-with(@id,"topic")]/div[2]/div[2]/span[2]/text()')

data_text = [ text for text in content ]

data_url = [ url for url in urllist ]

data_time = [ t.strip() for t in lastime ]

for i in xrange(0, len(data_text), 1):

print "%s, %s, %s" % (data_text[i], data_url[i], data_time[i])本回答被提问者采纳

如何用js取得table中td里面input的id或者name名称中指定的内容

<tr>
<td><input type=text name=rel_order_code[0] /></td>
</tr>
<tr>
<td><input type=text name=rel_order_code[2] /></td>
</tr>
<tr>
<td><input type=text name=rel_order_code[3] /></td>
</tr>
<tr>
<td><input type=text name=rel_order_code[4] /></td>
</tr>
这里要取到 例如 第一行的0,第二行的2,第三行的3··· ····

两种方式

一种是引用一个jquery,使用jquery选择器,代码如下

$("table td #input的id").val();
其实可以直接
$("#id值").val();

另一种是js,你在input上边加一个id值

document.getElementById("test").value;

参考技术A <html xmlns="http://www.w3.org/1999/xhtml" >
<head runat="server">

<title>无标题页</title>
<script type="text/javascript">
function getName(textBox)

alert(textBox.name.substring(textBox.name.indexOf('[') + 1,textBox.name.indexOf(']')));

</script>
</head>
<body>
<form id="form1" runat="server">
<div >
<table>
<tr>
<td><input type="text" name="rel_order_code[0]" onclick="getName(this)" /></td>
</tr>
<tr>
<td><input type="text" name="rel_order_code[2]" onclick="getName(this)" /></td>
</tr>
<tr>
<td><input type="text" name="rel_order_code[3]" onclick="getName(this)" /></td>
</tr>
<tr>
<td><input type="text" name="rel_order_code[4]" onclick="getName(this)" /></td>
</tr>

</table>
</div>
</form>
</body>
</html>本回答被提问者采纳

以上是关于如何用shell获取html网页中指定的文本数据的主要内容,如果未能解决你的问题,请参考以下文章

如何用shell提取文件中指定的字符串

如何用python写爬虫来获取网页中所有的文章以及关键词

如何用c语言实现删除文件中指定的数据;例如

如何用新文件覆盖 log4j2.xml 中指定的日志文件名?

如何用bat抓取out文件中指定的数值并保存到新的txt文件中?

如何用js取得table中td里面input的id或者name名称中指定的内容