Scrapy - 在文本中使用“少于”标记的网站

Question

更新：

这是html的示例行，直接使用Chrome中的“copy outer html”进行复制。我在td和/ td之前添加了空格来显示实际的html，而不会在这篇文章中触发html：

<td class="elem">3Fb1&lt;+1Lo&lt;+3Sb1</td>

使用scrapy shell，我运行以下命令：

response.xpath('//table[@class="elm"][1]//td[@class="elem"]//text()')

响应的数据是：

3Fb1

但它应该是

3Fb1<+1Lo<+3Sb1

我相信选择器在第一个滴答符（'<'）处停止，因为它似乎是新html标记的开头（或者，我从技术上讲，它是td标记文本的结尾）。仔细观察，它确实显示编码使用<而不是'<'字符。我希望有一个简单的限定符，我可以添加到我的xpath请求中忽略这些，但是在一周后（在我几个小时内）谷歌搜索和阅读，我找不到任何东西。

任何帮助是极大的赞赏。

我是scrapy的新手，我一直致力于一个项目（个人，我的孩子）收集大量与花样滑冰得分相关的统计数据。得分统计广泛使用'<'和'<<'来表示得分细节（滑手称这些'滴答'，我将用它来引用它们）。

分数在表格中报告，表格类“ele”和根据展示位置编号的表格，然后包含执行的滑冰元素和行数。

一个示例评分条目（表格中的单元格）可以是：2A<

其底层代码为：<td class="elem">2A<</td>

或者这个：2A+1Lo<+2F

其底层编码为：

<td class="elem">2A+1Lo&lt;+2F</td>

我已经定义了对象（可能不是正确的术语）行来迭代，然后使用它来获取特定的单元格（第二个单元格始终是执行的元素）：

elements['executed_element'] = row.xpath('td[2]//text()').extract()

当勾号出现在文本的末尾时（如第一个例子），我得到了所有东西，但是当它位于文本的中间（第二个例子）时，它会截断它之后的所有内容。

我会回去手工修复，但是我要提取几百万个数据点，所以这样做是不切实际的。

任何帮助这个新手将不胜感激。

抓取示例页面：http://www.usfigureskating.org/leaderboard/results/2018/25073/SEGM001.html

码：

def parse(self, response):
    event = response.xpath('//title//text()').extract()
    category_segment = response.xpath('//h2[@class="catseg"]//text()').extract()
    skater_number = 1
    for row in response.xpath('//table[@class="sum"]/tbody/tr[not(contains(@class,"thead"))]'):
        skater_name = row.xpath('td[2]//text()').extract_first()
        skater_place = row.xpath('td[1]//text()').extract_first()
        skater_deductions = row.xpath('td[7]//text()').extract_first()
        # capture elements detail 
        skater_table = skater_place
        elements_id = 1
        element_table = '//table[@class="elm"][' + str(skater_table) +']/tbody/tr[not(contains(@class,"thead"))]'
        for row in response.xpath(element_table):
            elements = {}
            elements['Event'] = event 
            elements['Category_Segment'] = category_segment
            elements['skater_name'] = skater_name 
            elements['elements_id'] = elements_id
            elements['element_number'] = row.xpath('td[@class="num"]//text()').extract()
            elements['executed_element'] = row.xpath('td[2]//text()').extract()
            elements['element_info'] = row.xpath('td[3]//text()').extract()
            elements['base_value'] = row.xpath('td[4]//text()').extract()
            elements['bonus'] = row.xpath('td[5]//text()').extract()
            elements['GOE'] = row.xpath('td[6]//text()').extract()
            goe_table = str('.//td[@class="jud"]')
            judge_pointer = 8
            judge_number = 1
            elements_id += 1
            for cell in row.xpath(goe_table):
                elements['Judge Number'] = judge_number
                elements['Judge_GOE_Score'] = row.xpath('td[' + str(judge_pointer) + ']//text()').extract()
                yield elements
                judge_pointer += 1
                judge_number += 1

Answer 1

另一答案

Answer 2

另一答案