Python-Selenium table-scraper 只返回第一行
Posted
技术标签:
【中文标题】Python-Selenium table-scraper 只返回第一行【英文标题】:Python-Selenium table-scraper only returns first row 【发布时间】:2021-12-24 05:39:00 【问题描述】:我正在尝试从带有 selenium 的表中提取信息。
我得到了行:
rows = driver.find_elements_by_xpath('//tbody/tr')
我正在尝试在该行中获取两个特定的单元格:
for r in rows:
diccionario["property1"] = driver.find_element_by_xpath(xpath).text
diccionario["property2"] = driver.find_element_by_xpath(xpath).text
with open("bbdd.json", "a", encoding="utf-8") as bd:
json.dump(diccionario, bd, ensure_ascii=False, indent=4)
但是,它只会返回第一行的信息(重复的次数与行数相同)
有没有办法“强制”代码找到我们当前在 for 循环中迭代的行中的元素?
代码
所有的 trs(行)代码看起来都一样。
我需要的 tds/cells 是前两个(不同行中的每个 td 的类看起来都一样)。
【问题讨论】:
没有url或者html代码很难帮你 @Frenchy 我将编辑问题并提供 html,因为除非您有帐户,否则无法访问该网站(注册需要几天时间...) 这意味着我们无法重现该问题,也无法真正帮助您。在任何情况下,您都可以尝试使用pandas
:df = pd.read_html(driver.page_source)
加载表格,然后将表格导出到json
很遗憾听到这个消息。我明白了。我会尝试找到一种方法以某种方式索引行的“孩子”并解决这个问题。非常感谢!
建议你从检查中复制所有表并复制 hml 代码..不是图片
【参考方案1】:
我专注于尝试访问单元格本身。但是,我改变了主意,尝试从“webelement parent”(行本身)获取内容。
该行的 text 属性包含我需要的信息。
唯一的问题是我必须解析一些文本(这并不难)。所以最后我不需要访问不同的 tds。
【讨论】:
以上是关于Python-Selenium table-scraper 只返回第一行的主要内容,如果未能解决你的问题,请参考以下文章