如何解析来自 Google 快讯的数据?
Posted
技术标签:
【中文标题】如何解析来自 Google 快讯的数据?【英文标题】:How to parse the data from Google Alerts? 【发布时间】:2010-10-26 00:24:22 【问题描述】:首先,除了解析 Google 发送给您的电子邮件的文本之外,您如何将 Google 快讯信息输入数据库?
似乎没有 Google Alerts API。
如果您必须解析文本,您将如何解析电子邮件的相关部分?
【问题讨论】:
我知道这篇文章有点老了,但经过大量搜索,我终于找到了一个可以以编程方式读取、删除和创建 google alerts 的工作 php 库:http://coders11.com/googlealertsapi 【参考方案1】:当您创建警报时,将“传递到”设置为“Feed”,然后您可以像使用任何其他 Feed 一样使用 Feed XML。这更容易解析和消化到数据库中。
【讨论】:
api在哪里?我找不到任何使用 google alerts api 的文档 与其说是 API,不如说是提要 URL。请参阅thenextweb.com/google/2013/09/11/…,它展示了如何管理您的 Google 快讯 RSS 提要并获取 URL。【参考方案2】:class googleAlerts
public function createAlert($alert)
$USERNAME = 'XXXXXX@gmail.com';
$PASSWORD = 'YYYYYY';
$COOKIEFILE = 'cookies.txt';
$ch = curl_init();
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 30);
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt($ch, CURLOPT_COOKIEJAR, $COOKIEFILE);
curl_setopt($ch, CURLOPT_COOKIEFILE, $COOKIEFILE);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 120);
curl_setopt($ch, CURLOPT_TIMEOUT, 120);
curl_setopt($ch, CURLOPT_URL,
'https://accounts.google.com/ServiceLogin?hl=en&service=alerts&continue=http://www.google.com/alerts/manage');
$data = curl_exec($ch);
$formFields = $this->getFormFields($data);
$formFields['Email'] = $USERNAME;
$formFields['Passwd'] = $PASSWORD;
unset($formFields['PersistentCookie']);
$post_string = '';
foreach($formFields as $key => $value)
$post_string .= $key . '=' . urlencode($value) . '&';
$post_string = substr($post_string, 0, -1);
curl_setopt($ch, CURLOPT_URL, 'https://accounts.google.com/ServiceLoginAuth');
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $post_string);
$result = curl_exec($ch);
if (strpos($result, '<title>') === false)
return false;
else
curl_setopt($ch, CURLOPT_URL, 'http://www.google.com/alerts');
curl_setopt($ch, CURLOPT_POST, 0);
curl_setopt($ch, CURLOPT_POSTFIELDS, null);
$result = curl_exec($ch);
curl_setopt($ch, CURLOPT_URL, 'http://www.google.com/alerts/create');
curl_setopt($ch, CURLOPT_POST, 0);
$result = curl_exec($ch);
//var_dump($result);
$result = $this->getFormFieldsCreate($result);
$result['q'] = $alert;
$result['t'] = '7';
$result['f'] = '1';
$result['l'] = '0';
$result['e'] = 'feed';
unset($result['PersistentCookie']);
$post_string = '';
foreach($result as $key => $value)
$post_string .= $key . '=' . urlencode($value) . '&';
$post_string = substr($post_string, 0, -1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $post_string);
$result = curl_exec($ch);
curl_setopt($ch, CURLOPT_URL, 'http://www.google.com/alerts/manage');
$result = curl_exec($ch);
if (preg_match_all('%'.$alert.'(?=</a>).*?<a href=[\'"]http://www.google.com/alerts/feeds/([^\'"]+)%i', $result, $matches))
return ('http://www.google.com/alerts/feeds/'.$matches[1][0]);
else
return false;
private function getFormFields($data)
if (preg_match('/(<form.*?id=.?gaia_loginform.*?<\/form>)/is', $data, $matches))
$inputs = $this->getInputs($matches[1]);
return $inputs;
else
die('didnt find login form');
private function getFormFieldsCreate($data)
if (preg_match('/(<form.*?name=.?.*?<\/form>)/is', $data, $matches))
$inputs = $this->getInputs($matches[1]);
return $inputs;
else
die('didnt find login form1');
private function getInputs($form)
$inputs = array();
$elements = preg_match_all('/(<input[^>]+>)/is', $form, $matches);
if ($elements > 0)
for($i = 0; $i < $elements; $i++)
$el = preg_replace('/\s2,/', ' ', $matches[1][$i]);
if (preg_match('/name=(?:["\'])?([^"\'\s]*)/i', $el, $name))
$name = $name[1];
$value = '';
if (preg_match('/value=(?:["\'])?([^"\'\s]*)/i', $el, $value))
$value = $value[1];
$inputs[$name] = $value;
return $inputs;
$alert = new googleAlerts;
echo $alert->createAlert('YOUR ALERT');
它将返回指向您新创建警报的 rss 提要的链接
【讨论】:
我还没有测试过代码 - 但是就像你分享了创建警报的代码一样,是否还有一些代码可以删除或编辑警报? 对于未来的读者,从今天开始,这个解决方案不再有效。【参考方案3】:我找到了一个 Google Alerts API here。它非常小,我还没有测试过。
【讨论】:
以上是关于如何解析来自 Google 快讯的数据?的主要内容,如果未能解决你的问题,请参考以下文章
以(Json 格式)解析来自 Google Place api 响应的数据
Google Analytics Adwords 数据终身存储?
如何在 Google BigQuery 中将日期解析为周年?
来自 Google CDN 的 HTTPS 友好的 jQuery CSS 主题
Grails spring-security-oauth-google:如何设置
使用 Swift 3 和 iOS 在发送到 Parse Server 的 authdata 对象中使用来自 google 登录的哪个 authdata