如何解析来自 Google 快讯的数据?

Posted

技术标签:

【中文标题】如何解析来自 Google 快讯的数据?【英文标题】:How to parse the data from Google Alerts? 【发布时间】:2010-10-26 00:24:22 【问题描述】:

首先,除了解析 Google 发送给您的电子邮件的文本之外,您如何将 Google 快讯信息输入数据库?

似乎没有 Google Alerts API。

如果您必须解析文本,您将如何解析电子邮件的相关部分?

【问题讨论】:

我知道这篇文章有点老了,但经过大量搜索,我终于找到了一个可以以编程方式读取、删除和创建 google alerts 的工作 php 库:http://coders11.com/googlealertsapi 【参考方案1】:

当您创建警报时,将“传递到”设置为“Feed”,然后您可以像使用任何其他 Feed 一样使用 Feed XML。这更容易解析和消化到数据库中。

【讨论】:

api在哪里?我找不到任何使用 google alerts api 的文档 与其说是 API,不如说是提要 URL。请参阅thenextweb.com/google/2013/09/11/…,它展示了如何管理您的 Google 快讯 RSS 提要并获取 URL。【参考方案2】:
class googleAlerts
    public function createAlert($alert)
        $USERNAME = 'XXXXXX@gmail.com';
        $PASSWORD = 'YYYYYY';
        $COOKIEFILE = 'cookies.txt';

        $ch = curl_init();
        curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 30);
        curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)");
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
        curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
        curl_setopt($ch, CURLOPT_COOKIEJAR, $COOKIEFILE);
        curl_setopt($ch, CURLOPT_COOKIEFILE, $COOKIEFILE);
        curl_setopt($ch, CURLOPT_HEADER, 0);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
        curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 120);
        curl_setopt($ch, CURLOPT_TIMEOUT, 120);

        curl_setopt($ch, CURLOPT_URL,
            'https://accounts.google.com/ServiceLogin?hl=en&service=alerts&continue=http://www.google.com/alerts/manage');
        $data = curl_exec($ch);

        $formFields = $this->getFormFields($data);

        $formFields['Email']  = $USERNAME;
        $formFields['Passwd'] = $PASSWORD;
        unset($formFields['PersistentCookie']);

        $post_string = '';
        foreach($formFields as $key => $value) 
            $post_string .= $key . '=' . urlencode($value) . '&';
        

        $post_string = substr($post_string, 0, -1);

        curl_setopt($ch, CURLOPT_URL, 'https://accounts.google.com/ServiceLoginAuth');
        curl_setopt($ch, CURLOPT_POST, 1);
        curl_setopt($ch, CURLOPT_POSTFIELDS, $post_string);

        $result = curl_exec($ch);

        if (strpos($result, '<title>') === false) 
            return false;

         else 
            curl_setopt($ch, CURLOPT_URL, 'http://www.google.com/alerts');
            curl_setopt($ch, CURLOPT_POST, 0);
            curl_setopt($ch, CURLOPT_POSTFIELDS, null);

            $result = curl_exec($ch);

            curl_setopt($ch, CURLOPT_URL, 'http://www.google.com/alerts/create');
            curl_setopt($ch, CURLOPT_POST, 0);
            $result = curl_exec($ch);
            //var_dump($result);
            $result = $this->getFormFieldsCreate($result);
            $result['q'] = $alert;
            $result['t'] = '7';
            $result['f'] = '1';
            $result['l'] = '0';
            $result['e'] = 'feed';
            unset($result['PersistentCookie']);

            $post_string = '';
            foreach($result as $key => $value) 
                $post_string .= $key . '=' . urlencode($value) . '&';
            

            $post_string = substr($post_string, 0, -1);
            curl_setopt($ch, CURLOPT_POSTFIELDS, $post_string);
            $result = curl_exec($ch);
            curl_setopt($ch, CURLOPT_URL, 'http://www.google.com/alerts/manage');
            $result = curl_exec($ch);
            if (preg_match_all('%'.$alert.'(?=</a>).*?<a href=[\'"]http://www.google.com/alerts/feeds/([^\'"]+)%i', $result, $matches)) 
                return ('http://www.google.com/alerts/feeds/'.$matches[1][0]);
             else 
                return false;
            


        
    

    private function getFormFields($data)
    
        if (preg_match('/(<form.*?id=.?gaia_loginform.*?<\/form>)/is', $data, $matches)) 
            $inputs = $this->getInputs($matches[1]);

            return $inputs;
         else 
            die('didnt find login form');
        
    
    private function getFormFieldsCreate($data)
    
        if (preg_match('/(<form.*?name=.?.*?<\/form>)/is', $data, $matches)) 
            $inputs = $this->getInputs($matches[1]);

            return $inputs;
         else 
            die('didnt find login form1');
        
    


    private function getInputs($form)
    
        $inputs = array();

        $elements = preg_match_all('/(<input[^>]+>)/is', $form, $matches);

        if ($elements > 0) 
            for($i = 0; $i < $elements; $i++) 
                $el = preg_replace('/\s2,/', ' ', $matches[1][$i]);

                if (preg_match('/name=(?:["\'])?([^"\'\s]*)/i', $el, $name)) 
                    $name  = $name[1];
                    $value = '';

                    if (preg_match('/value=(?:["\'])?([^"\'\s]*)/i', $el, $value)) 
                        $value = $value[1];
                    

                    $inputs[$name] = $value;
                
            
        

        return $inputs;
    

$alert = new googleAlerts;
echo $alert->createAlert('YOUR ALERT');

它将返回指向您新创建警报的 rss 提要的链接

【讨论】:

我还没有测试过代码 - 但是就像你分享了创建警报的代码一样,是否还有一些代码可以删除或编辑警报? 对于未来的读者,从今天开始,这个解决方案不再有效。【参考方案3】:

我找到了一个 Google Alerts API here。它非常小,我还没有测试过。

【讨论】:

以上是关于如何解析来自 Google 快讯的数据?的主要内容,如果未能解决你的问题,请参考以下文章

以(Json 格式)解析来自 Google Place api 响应的数据

Google Analytics Adwords 数据终身存储?

如何在 Google BigQuery 中将日期解析为周年?

来自 Google CDN 的 HTTPS 友好的 jQuery CSS 主题

Grails spring-security-oauth-google:如何设置

使用 Swift 3 和 iOS 在发送到 Parse Server 的 authdata 对象中使用来自 google 登录的哪个 authdata