如何找到一个非常深层嵌套的A HREF让我的蜘蛛找到NEXT按钮？

Question

我正在制作我的第二只蜘蛛，我发现这个特殊的结构对我来说非常复杂，我希望你能帮助我。

我有这个html页面（请注意，所有不必要的数据都被删除，我只留下了我感兴趣的链接：

            <html>
                <head>
                </head>

            <body>
            <form>
                <div>
                </div>
                <script>        
                </script>
                <div>
                </div>
                <script>        
                </script>
                <div>
                    <div>   
                    </div>
                    <div>
                        <div>
                            <div>
                            </div>
                            <div>
                            </div>
                            <div>
                                <div>

                                </div>
                                <div>
                                    <div>

                                    </div>
                                    <div>

                                    </div>
                                    <div>
                                        <div>
                                            <div>
                                                <div>

                                                </div>
                                                <div>
                                                    <div>
                                                        <script>
                                                        </script>
                                                        <div>
                                                            <p></p>
                                                            <div></div>
                                                            <script></script>
                                                            <div></div>
                                                            <script></script>
                                                            <div></div>
                                                            <script></script>
                                                            <div></div>
                                                            <script></script>                                                                                                                           
                                                            <div></div>
                                                            <script></script>
                                                            <div></div>
                                                            <script></script>
                                                            <div></div>
                                                            <script></script>
                                                            <div></div>
                                                            <script></script>                                                                                                                           <div></div>
                                                            <script></script>                                                                                                                           
                                                            <div></div>
                                                            <script></script>
                                                            <div></div>
                                                            <script></script>
                                                            <div></div>
                                                            <script></script>
                                                            <div></div>
                                                            <script></script>
                                                            <table class="pageTable">
                                                                <tr>
                                                                    <td></td>
                                                                    <td>
                                                                        <span></span>
                                                                        <span></span>
                                                                        <span></span>
                                                                        <a href></a>
                                                                        <a href></a>
                                                                        <a href></a>
                                                                        <a href></a>
                                                                        <a href></a>
                                                                        <a href></a>
                                                                        <a href></a>
                                                                        <a href></a>
                                                                        <a href></a>
                                                                        <a href="whatever.com" class="wx4">next</a>
                                                                    </td>
                                                                </tr>
                                                            </table>                    
                                                        </div>
                                                    </div>
                                                </div>
                                            </div>
                                        </div>

                                    </div>
                                </div>
                            </div>

                        </div>

                    </div>
                </div>
            </form>

            </body>
            </html>

（这是实际结构）。

现在，特别是我的需要是我的蜘蛛遵循该链接（在表格内，在3个跨度之后和9个A标签之后）。所有其余的提取逻辑都已完成。

具有讽刺意味的是，除了表和我感兴趣之外，没有一个标签有任何类或id。但是由于一些奇怪的原因，当我尝试使用scrapy访问它时，我得到以下结果：

>>> response.css('a.wx4').extract()
[]
>>>

你知道我能做错什么吗？是因为它在<td>里面还有一堆<a>，嵌套在<tr>，<table>，很多<div>和一个<form>？

谢谢！

Answer 1

另一答案

Answer 2

另一答案