如何理解 Yahoo! 的原始 HTML使用 Python 检索数据时的财务?

Posted

技术标签:

【中文标题】如何理解 Yahoo! 的原始 HTML使用 Python 检索数据时的财务?【英文标题】:How to understand this raw HTML of Yahoo! Finance when retrieving data using Python? 【发布时间】:2017-01-30 13:54:36 【问题描述】:

我一直在尝试从 Yahoo! 检索股票价格!金融,喜欢Apple Inc.。我的代码是这样的:(使用 Python 2)

import requests
from bs4 import BeautifulSoup as bs

html='http://finance.yahoo.com/quote/AAPL/profile?p=AAPL'
r = requests.get(html)
soup = bs(r.text)

问题是当我看到这个网页后面的原始 HTML 时,这个类是动态的,见下图。这使得 BeautifulSoup 很难获得标签。如何理解类以及如何获取数据?

HTML of Yahoo! Finance page

PS:1)我知道pandas_datareader.data,但那是历史数据。我想要实时的股票数据;

2) 我不想使用 selenium 打开新的浏览器窗口。

【问题讨论】:

【参考方案1】:

数据显然是使用 reactjs 填充的,因此您将无法使用类名等可靠地解析它。您可以获取 json 格式的所有数据来自root.App.main 脚本的页面源代码:

import  requests
from bs4 import BeautifulSoup
import re
from json import loads

soup = BeautifulSoup(requests.get("http://finance.yahoo.com/quote/AAPL/profile?p=AAPL").content)
script = soup.find("script",text=re.compile("root.App.main")).text
data = loads(re.search("root.App.main\s+=\s+(\.*\)", script).group(1))
print(data)

这为您提供了一大堆 json,您可以浏览数据并选择您需要的内容,如下所示:

stores = data["context"]["dispatcher"]["stores"]
from  pprint import pprint as pp

pp(stores[u'QuoteSummaryStore']) 

这给了你:

u'price': u'averageDailyVolume10Day': u'fmt': u'63.06M',
                                         u'longFmt': u'63,056,525',
                                         u'raw': 63056525,
            u'averageDailyVolume3Month': u'fmt': u'36.53M',
                                          u'longFmt': u'36,527,196',
                                          u'raw': 36527196,
            u'currency': u'USD',
            u'currencySymbol': u'$',
            u'exchange': u'NMS',
            u'exchangeName': u'NasdaqGS',
            u'longName': u'Apple Inc.',
            u'marketState': u'PRE',
            u'maxAge': 1,
            u'openInterest': ,
            u'postMarketChange': u'fmt': u'0.11', u'raw': 0.11000061,
            u'postMarketChangePercent': u'fmt': u'0.10%',
                                         u'raw': 0.0009687416,
            u'postMarketPrice': u'fmt': u'113.66', u'raw': 113.66,
            u'postMarketSource': u'DELAYED',
            u'postMarketTime': 1474502277,
            u'preMarketChange': u'fmt': u'0.42', u'raw': 0.41999817,
            u'preMarketChangePercent': u'fmt': u'0.37%',
                                        u'raw': 0.0036987949,
            u'preMarketPrice': u'fmt': u'113.97', u'raw': 113.97,
            u'preMarketSource': u'FREE_REALTIME',
            u'preMarketTime': 1474536411,
            u'quoteType': u'EQUITY',
            u'regularMarketChange': u'fmt': u'-0.02', u'raw': -0.019996643,
            u'regularMarketChangePercent': u'fmt': u'-0.02%',
                                            u'raw': -0.00017607327,
            u'regularMarketDayHigh': u'fmt': u'113.99', u'raw': 113.989,
            u'regularMarketDayLow': u'fmt': u'112.44', u'raw': 112.441,
            u'regularMarketOpen': u'fmt': u'113.82', u'raw': 113.82,
            u'regularMarketPreviousClose': u'fmt': u'113.57',
                                            u'raw': 113.57,
            u'regularMarketPrice': u'fmt': u'113.55', u'raw': 113.55,
            u'regularMarketSource': u'FREE_REALTIME',
            u'regularMarketTime': 1474488000,
            u'regularMarketVolume': u'fmt': u'31.57M',
                                     u'longFmt': u'31,574,028.00',
                                     u'raw': 31574028,
            u'shortName': u'Apple Inc.',
            u'strikePrice': ,
            u'symbol': u'AAPL',
            u'underlyingSymbol': None,
 u'price,summaryDetail': ,
 u'quoteType': u'exchange': u'NMS',
                u'headSymbol': None,
                u'longName': u'Apple Inc.',
                u'market': u'us_market',
                u'messageBoardId': u'finmb_24937',
                u'quoteType': u'EQUITY',
                u'shortName': u'Apple Inc.',
                u'symbol': u'AAPL',
                u'underlyingExchangeSymbol': None,
                u'underlyingSymbol': None,
                u'uuid': u'8b10e4ae-9eeb-3684-921a-9ab27e4d87aa',
 u'summaryDetail': u'ask': u'fmt': u'114.00', u'raw': 114,
                    u'askSize': u'fmt': u'100',
                                 u'longFmt': u'100',
                                 u'raw': 100,
                    u'averageDailyVolume10Day': u'fmt': u'63.06M',
                                                 u'longFmt': u'63,056,525',
                                                 u'raw': 63056525,
                    u'averageVolume': u'fmt': u'36.53M',
                                       u'longFmt': u'36,527,196',
                                       u'raw': 36527196,
                    u'averageVolume10days': u'fmt': u'63.06M',
                                             u'longFmt': u'63,056,525',
                                             u'raw': 63056525,
                    u'beta': u'fmt': u'1.52', u'raw': 1.51744,
                    u'bid': u'fmt': u'113.68', u'raw': 113.68,
                    u'bidSize': u'fmt': u'400',
                                 u'longFmt': u'400',
                                 u'raw': 400,
                    u'dayHigh': u'fmt': u'113.99', u'raw': 113.989,
                    u'dayLow': u'fmt': u'112.44', u'raw': 112.441,
                    u'dividendRate': u'fmt': u'2.28', u'raw': 2.28,
                    u'dividendYield': u'fmt': u'2.01%', u'raw': 0.0201,
                    u'exDividendDate': u'fmt': u'2016-08-04',
                                        u'raw': 1470268800,
                    u'expireDate': ,
                    u'fiftyDayAverage': u'fmt': u'108.61',
                                         u'raw': 108.608284,
                    u'fiftyTwoWeekHigh': u'fmt': u'123.82', u'raw': 123.82,
                    u'fiftyTwoWeekLow': u'fmt': u'89.47', u'raw': 89.47,
                    u'fiveYearAvgDividendYield': ,
                    u'forwardPE': u'fmt': u'12.70', u'raw': 12.701344,
                    u'marketCap': u'fmt': u'611.86B',
                                   u'longFmt': u'611,857,399,808',
                                   u'raw': 611857399808,
                    u'maxAge': 1,
                    u'navPrice': ,
                    u'open': u'fmt': u'113.82', u'raw': 113.82,
                    u'openInterest': ,
                    u'payoutRatio': u'fmt': u'24.80%', u'raw': 0.248,
                    u'previousClose': u'fmt': u'113.57', u'raw': 113.57,
                    u'priceToSalesTrailing12Months': u'fmt': u'2.78',
                                                      u'raw': 2.777534,
                    u'regularMarketDayHigh': u'fmt': u'113.99',
                                              u'raw': 113.989,
                    u'regularMarketDayLow': u'fmt': u'112.44',
                                             u'raw': 112.441,
                    u'regularMarketOpen': u'fmt': u'113.82', u'raw': 113.82,
                    u'regularMarketPreviousClose': u'fmt': u'113.57',
                                                    u'raw': 113.57,
                    u'regularMarketVolume': u'fmt': u'31.57M',
                                             u'longFmt': u'31,574,028',
                                             u'raw': 31574028,
                    u'strikePrice': ,
                    u'totalAssets': ,
                    u'trailingAnnualDividendRate': u'fmt': u'2.13',
                                                    u'raw': 2.13,
                    u'trailingAnnualDividendYield': u'fmt': u'1.88%',
                                                     u'raw': 0.018754954,
                    u'trailingPE': u'fmt': u'13.24', u'raw': 13.240438,
                    u'twoHundredDayAverage': u'fmt': u'102.39',
                                              u'raw': 102.39367,
                    u'volume': u'fmt': u'31.57M',
                                u'longFmt': u'31,574,028',
                                u'raw': 31574028,
                    u'yield': ,
                    u'ytdReturn': ,
 u'symbol': u'AAPL'

【讨论】:

【参考方案2】:

不确定在这种情况下您所说的“动态”是什么意思,但您是否考虑过使用 CSS 选择器?

使用 Beautifulsoup,您可以获得它,例如:

soup.select('div#quote-header-info section span')[0]  

您可以在该模式上使用一些变体,例如使用“>”过滤器。

您只需 lxml 即可获得相同效果,无需 BeautifulSoup:

import lxml.html as html
page = html.parse(url).getroot()
content = page.cssselect('div#quote-header-info section > span:first-child')[0].text

这立即说明了一个更具体的选择器。

如果您对更高效的 DOM 遍历感兴趣,请研究 xpath。

【讨论】:

它们的意思是动态的,因为在内容中加载了 javascript/react,如果您查看 html,您可以看到。他们不是在问如何使用选择器,而是在问如何解析动态内容。 @PadraicCunningham 虽然我同意以其他形式查找数据(通常从某些 json 加载)通常要好得多,但这并不意味着无法使用其他方法来挖掘数据,例如我建议哪个也可以,因为它不依赖于标签属性。你的假设我没有看来源是冒昧的。尽管您可能会发现我的答案没有用并因此而投反对票,但其他人可能会发现它有用,因此我将保留它。请注意,我并不反对你,我赞成你的答案,因为我发现它更完整。 第一条评论正是我的意思。 @Oliver W.您的回答是正确的,只是我不明白为什么使用 'div#quote-header-info section span' 会起作用。感谢您的所有回答。 @artmunich 之所以有效,是因为您不依赖任何动态生成的属性(在本例中为 classdata-reactid 的值)。您只指望标签的嵌套(span 位于 section 中,而 div 本身带有特定的 id),许多网站预先将其定义为一种模板/skeleton/model 稍后可以动态更改。并非每个网站都这样做,有些网站甚至会动态生成模板,但 Finance.yahoo 是那些以静态方式制作模板的网站之一。

以上是关于如何理解 Yahoo! 的原始 HTML使用 Python 检索数据时的财务?的主要内容,如果未能解决你的问题,请参考以下文章

Py变量字符串原始字符串长字符串

如何隐藏 discord.py 中的原始链接

如何理解 django url.py 中的 Url 模式

PySpark理解wordcount.py

与 YAHOO.util.Event.onContentReady 做同样事情的惯用道场?

如何从Yahoo Finance中解析类似JSON的数据?