如何挖掘网络资源(编程随想的博客)
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何挖掘网络资源(编程随想的博客)相关的知识,希望对你有一定的参考价值。
一:网站的类型和使用场景
首先来介绍一下网站的类型和特点。不同的网站特点将决定你挖掘资源的方式。
★网站内容的指标
要挖掘互联网的资源,首先需要关注网站的内容。俺大致总结了几个指标,任何网站的内容,都具有这几个指标。
通过这些指标,可以评估某个网站【对你的价值】到底有多大,还可以评估你挖掘其中的内容需要耗费多少时间和精力。
◇内容的信噪比
任何一个网站的内容,都会有一些信息是无用的,咱们称之为“噪声”。所谓的【信噪比】,就是是“有用信息”与“垃圾噪声”的比率。显然,信噪比越大越好。
提醒一下:信噪比的评价是主观的。因为每个人的关注点(价值取向)不同,所以同样的内容,对不同的人,会有不同的信噪比。
◇内容的可搜索性
主要指网站的内容是否容易被搜索引擎检索和收录。
这个指标是客观的。
◇内容的生命周期
主要指网站内容的生命周期的长短。关于信息的生命周期,稍微解释一下:对于某个信息而言,只有在它的生命周期之内,该信息才有价值;过了生命周期,就没有价值。
举例:
比如美国大选之前,某人制作了一个分析报告,分析竞选双方的得票率。那么,当大选结果揭晓之后,这个报告的生命周期就结束了。
这个指标是半主观半客观的。
俺通常关注那些生命周期较长的内容。因为在网上冲浪是需要消耗时间和精力的。如果你关注的都是生命周期很短的信息,从“投资回报率”的角度来看,是不合算滴!
◇内容的组织性
指的是网站的不同内容之间,是否具有较好的分类,是否具有较好的层次,是否具有较好的关联。
这个指标是客观的。
组织性越好,你就越容易找到该网站的其它感兴趣的内容。
★网站的类型
互联网上的网站,大致上可以分为“功能型”和“内容型”。如果你要在网上找自己感兴趣的资源,“内容型”网站才是你的最终目标。
“内容型”的网站的网站,按照内容创建的方式,大体上可以分为“Web 1.0”和“Web 2.0”两大类。这两类的区别如下:
“Web 1.0”——网站内容由专职的网站编辑创建
“Web 2.0”——网站内容用户创建,洋文叫“UGC”
对于 Web 2.0 的网站,还可以再细分为如下几类:
论坛类(BBS、邮件列表)、博客类(包括轻博客)、微博客(Micro Blog)、社交类(SNS)、文件共享类、百科类、问答类、等等。
对于上述这些分类,俺来分别介绍一下。
★Web 1.0
Web 1.0 的典型代表,包括早期的门户网站、某些专业类网站、某些报考杂志的Web版、等等。
◇内容的可搜索性
这类网站通常是“搜索引擎友好”的,甚至还会针对搜索引擎做优化(SEO)。因为这类网站需要利用搜索引擎帮它带来用户流量。
◇内容的组织性
这类网站的内容是由专职编辑维护的,所以内容的组织性通常比较好。比如网站通常会有分类导航,相关的网页之间会有超链接。
◇内容的生命周期
如果是专业性的网站,内容的生命周期一般比较长;如果是新闻类的,则比较短。
◇内容的信噪比
对于新闻类的网站,信噪比通常不会太好。对于专业类的网站,则视具体情况而定。
◇俺的使用场景
俺平常不会主动去逛那些 Web 1.0 的网站。
通常是在搜索引擎中找某关键字,然后跳转到该网站的某篇文章。
如果俺觉得这篇文章的质量差,直接关掉。
如果俺觉得这篇文章的质量好,会顺便浏览该网站相关的文章(根据站内导航、文章的交叉链接)。
如果浏览了多篇文章之后,发现总体的质量较好,会把该网站加入自己的收藏或者是订阅该网站的 RSS(如果有的话)。
★论坛类(BBS)
论坛类的网站,早在 Web 2.0 概念提出之前,就已经很流行了。
◇内容的可搜索性
大部分论坛的内容,是无需登录即可浏览的。所以大部分论坛都是可搜索的;极少数是不开放的,则搜索引擎无法收录论坛内容。
◇内容的组织性
论坛里面的帖子,通常会根据类型分在不同的板块。板块内的帖子,通常只提供排序功能(比如 按时间、浏览数、回帖数 等),有些论坛可以按照发帖人来组织帖子。
总的来说,论坛类内容的组织性,算中上。
◇内容的生命周期
这取决于论坛的定位。不同的论坛,差异较大。
比如:一个讨论娱乐圈八卦的论坛,帖子的生命周期就比较短;而一个讨论哲学的论坛,帖子的生命周期相对较长。
◇内容的信噪比
大部分论坛的信噪比都不好——灌水的比例居高不下。
有些论坛的版主会专门整理一个精华区,那么信噪比会有所改善。
◇俺的使用场景
传统的BBS,俺没注册过帐号;邮件列表倒是注册过几个。
平时俺不会主动去逛论坛类网站。
通常是在搜索引擎中找某关键字,然后跳转到某论坛的某帖子。
如果俺觉得这篇文章的质量差,直接关掉。
如果俺觉得这篇文章的质量好而且是原创,会顺便浏览该发帖人的相关文章(这种情况不多见)。
★博客类(Blog)
◇内容的可搜索性
这类网站通常是“搜索引擎友好”的,因为这类网站需要利用搜索引擎帮它带来用户流量。
◇内容的组织性
大部分博客都支持分类导航或者是标签(Tag)导航,某些博客之间还会搞交换链接。
组织性算是好的。
◇内容的生命周期
这个视具体的博客而定。
◇内容的信噪比
总的来说,博客的信噪比好于论坛、SNS、微博客。
◇俺的使用场景
博客类网站是俺的主要信息来源之一。关于博客类网站的信息获取,俺会在本系列后面专门介绍。
★微博客类(MicroBlog)
微博客是最近几年突然火爆起来的。国外首屈一指的当属“Twitter”,国内知名的山寨有“新浪微博”。
◇内容的可搜索性
通常情况下,微博客是可搜索的。但是,某些做成长微博的图片,其内容是不可搜索的。
◇内容的组织性
内容的组织较差,通常是根据时间轴组织内容。
信息的碎片化非常非常严重。
◇内容的生命周期
微博客的内容,通常生命周期都很短。你设想一下,你会去看某人在一个月之前发的微博客内容吗?甚至2-3天之前的内容,就已经没人关注了。
◇内容的信噪比
在这几种类型的网站中,微博客的信噪比估计是最差的。里面充斥着大量的噪声,还有大量同质化的信息。
◇俺的使用场景
俺在开博客前就注册过 Twitter 的帐号,平时几乎不用;没注册过国内的微博客。
至于俺为啥不用微博客类,请参见《为啥俺不常用微博——兼谈时间管理心得》。
★社交类(SNS)
SNS 已经火了好几年了。国外首屈一指的当属“Facebook”,国内知名的山寨有“开心网”和“人人网”。
◇内容的可搜索性
有的 SNS 对搜索引擎友好(比如 G+),有些则不友好(比如 Facebook)。
◇内容的组织性
通常是按照用户来组织组织;对于具体的用户,再按照时间轴组织内容。
信息有不同程度的碎片化(视具体网站的具体用户而定)。总的来说,内容的组织性“中下”。
◇内容的生命周期
总的来说,内容的生命周期比博客短,比微博长。
◇内容的信噪比
总的来说,SNS的信噪比不如博客,好于微博客。
◇俺的使用场景
俺在开博客前就注册过 Facebook,前两年 G+ 推出后也注册了。不过平时很少用。
通常是在搜索引擎中找某关键字,然后跳转到 SNS 网站的某页面。
如果觉得该页面的内容没价值,直接关掉。
如果觉得该页面的内容有价值,再去看看该 SNS 用户的其它内容。
如果该 SNS 用户的很多内容都不错,看看此人是否有博客,有的话就订阅。
★百科类
百科类网站,全球首屈一指的当然是“维基百科”,国内有山寨的“百度百科”和“互动百科”。
◇内容的可搜索性
这类网站通常是“搜索引擎友好”的,甚至还会针对搜索引擎做优化(SEO)。因为这类网站需要利用搜索引擎帮它带来用户流量。
◇内容的组织性
通常会有良好的分类组织,词条之间会有很多交叉连接。
总的来说,内容组织性较好。
◇内容的生命周期
百科类网站的内容,通常生命周期很长。
◇内容的信噪比
百科类网站的词条,通常是以多人协作的方式维护的,一般不会有垃圾信息。
总的来说,信噪比很好。
◇俺的使用场景
俺通常只用维基百科。因为维基百科的词条最多,支持多种语言(可惜俺只看懂中文和英文),而且不存在"和谐"的问题。国内的百科类网站,政治敏感内容是查不到滴。
当俺接触到一个不熟悉的词汇,通常会先用搜索引擎搜该词条的维基百科。
看完维基百科对该词条的解释之后,如果意犹未尽,就再看看跟该词条相关的其它词条。
维基百科包含大多数主流的语言。所以有时候看完中文的词条,再去看看对应的英文词条。
★文件共享类
文件共享类的网站,有时候又称为“网盘”。不同的文件共享网站,内容和功能差异较大。
◇内容的可搜索性
在文件共享类网站中,有的是提供 Web 界面的——这类网站通常是搜索引擎友好的;还有一些是通过专门的 P2P 软件进行文件分享和下载的,搜索引擎未必能收录其内容。
即使是 Web 界面的文件共享,搜索引擎通常只能收录文件名,无法抓取文件内容。
◇内容的组织性
有些网站会根据文件上传者进行分类组织(比如新浪爱问),有些会根据文件内容所属领域进行分类(比如百度文库)。还有些网站会提供相关性推荐——列出下载该文件的网友同时也下载其它哪些文件。
总的来说,组织性中等。
◇内容的生命周期
被分享的文件,生命周期通常不会短。
◇内容的信噪比
信噪比因上传者而异,有的好有的差。
◇俺的使用场景
电子书是俺获取信息的主要途径之一,所以俺经常会去网上找电子书。
通常是在搜索引擎中找某电子书(搜索书名),然后跳转到某文件共享网站,下载之。
如果文件共享类网站提供相关性推荐,偶尔也会根据“相关性”的推荐,下载另外的电子书。
★问答类
问答类是最近几年兴起的,国外的代表是“Quora”和“Stack Overflow”,国内的山寨是“知乎”。
◇内容的可搜索性
这类网站通常是"搜索引擎友好"的,甚至还会针对搜索引擎做优化(SEO)。因为这类网站需要利用搜索引擎帮它带来用户流量。
◇内容的组织性
通常会根据问题领域做分类,某些较好的问答类网站支持标签(Tag)功能。
总的来说,内容组织性较好。
◇内容的生命周期
这类内容的生命周期,通常较长。
◇内容的信噪比
信噪比中上,至少比论坛好。
◇俺的使用场景
俺没有注册过问答类网站的帐号,平时也不会主动去逛问答类网站。
通常是碰到某技术问题,在搜索引擎中找相关的关键字,然后跳转到某问答类网站的某话题。
如果觉得这篇文章没帮助,直接关掉。
如果觉得这篇文章有帮助,看完,关掉。
★结尾
通过上述对比,你应该大致看出来,哪些类型的网站比较可能找到高价值的内容。
二:Google 搜索的基本语法
★搜索引擎的选择(为啥不用百度)
首先,俺简单说一下“搜索引擎的选择”。
在咱们天朝,Google 屡屡被 GFW 骚扰,导致百度占了便宜,成为份额最高的搜索引擎。不过今天这篇教程,俺还是继续拿 Google 来说事儿。为啥俺不喜欢用百度,主要原因如下:
◇搜索结果的阉割很严重
这点是众所周知的。
百度毕竟是在天朝混饭吃的,不得不向朝廷妥协,对搜索结果进行自我审查。假如某个页面符合你的搜索条件,但碰巧包含某个敏感词,那么该页面就不会出现在搜索结果中。
因此,你用百度搜索,看到通常都是比较“和谐”的内容。久而久之,你就真的以为这世界很和谐(长期用百度搜索,就如同长期看新闻联播)。
◇对洋文的收录不如 Google
这点是比较显然的,俺就不举例了。
对于经常上网查(理工类)技术资料的网友,这点也很重要。这方面的网上资源,洋文总是比中文的更丰富。
◇对墙外网站的收录不如 Google
这点,很多人可能体会不深。俺举个例子。
刚才测试了一下,分别用 Google 和 百度 搜索 "编程随想"
(此处须用半角引号,其作用后面会介绍。为了客观性,俺使用一个干净的浏览器——没登录过任何帐号,清空了 cookie)
Google 搜到的第一条就是俺博客主站点的首页,而百度搜到的第一条是俺在 CSDN 博客的首页(从2012年春节就没更新了)。除了第一条,其它几条也是 Google 的结果相关度较高,而百度的结果相关性较差。
考虑到俺博客在墙外,而且俺最近1-2年写的都是敏感的政治内容,转载的大都是墙外网站,外链主要也位于墙外。所以俺猜测,百度对墙外页面的抓取不如 Google 丰富。
虽然说了 Google 的很多好话,估计有些同学还是会问:Google 已撞墙,咋办捏?
其实很简单,你只要会翻,墙就成了浮云。俺博客上有很多FQ教程,而且俺每1-2个月会发一篇“FQ快报”。FQ学起来并不难,不要因为FQ问题而损失了一个很好的搜索引擎。
下面,俺就开始介绍 Google 的各种常用技巧。
★关键词的逻辑关系
首先说一下关键词的逻辑关系。
◇"与"关系
当你在搜索框输入多个关键词的时候,默认情况下,这些关键词之间是“与”关系。也就是说,某个页面通常要包含你输入的每一个关键词,才会出现在搜索结果中。
◇"或"关系
有些时候,你希望使用“或关系”来组合搜索关键词,那么,可以用 OR
语法,格式如下:
关键词1 OR 关键词2
请注意:
这里的 OR
一定要大写。
★精确搜索
所谓的精确搜索,就是采用某些特定语法,尽量缩小搜索结果的范围,以提高信噪比(关于信噪比,俺在前一篇解释过)。
◇限定关键词的排列
比如你直接在搜索框输入不带引号的 编程随想
那么,搜索到的结果里面,可能会包含这样的网页——在网页的头部出现 编程
,在网页的尾部出现 随想
,两者相距甚远。这显然不是你想要的。
如果你想明确告诉搜索引擎,这4个字必须紧挨着,那么,你可以使用引号的语法 "编程随想"
请注意:
这里的引号一定要用半角的。
◇限定搜索的网站
1. 限定具体的网站域名
有时候,你只想搜索指定网站的内容,可以用 site:
语法。
举例——只搜索俺博客的内容:
关键词 site:program-think.blogspot.com
请注意:
site:
之后的部分,【不】需要写 http:// 或 https://
2. 限定具体的网站域名及目录名
另外,site:
之后的部分,还可以带目录名。
比如俺博客的目录结构是按照年份和月份归档的,如果你想搜索俺博客在这个月的内容,可以用如下语法
关键词 site:program-think.blogspot.com/2013/03
3. 部分限定域名
该语法还有如下变形,支持对域名的部分限定。
举例——只搜索 com 顶级域名:
关键词 site:.com
举例——只搜索国内的教育网:
关键词 site:.edu.cn
◇限定搜索的网页元素
你可以指定让 Google 只搜索网页中的特定元素,有如下几种语法:
1. 只搜索标题
用如下语法,要求 关键词2 必须在标题中,关键词1 可以在任何网页的地方
关键词1 intitle:关键词2
用如下语法,则要求两个关键词都在标题中
allintitle:关键词1 关键词2
2. 只搜索网页正文
语法同上,使用 intext:
和 allintext:
语法。
3. 只搜索网页的 URL 网址
语法同上,使用 inurl:
和 allinurl:
语法。
(网页的网址,就是你在浏览器地址栏里面看到的那串)
4. 只搜索网页中的超链接
语法同上,使用 inanchor:
和 allinanchor:
语法。
(使用此语法,只搜索网页中可以点击的链接的文字)
◇限定文件格式
可以使用 filetype:
语法告诉 Google 只搜索某些类型的文件格式。
这个语法用来搜电子书或论文比较方便。比较常用的文件格式有:pdf、doc、rtf、ppt、xls
举例——搜索 PDF 文件:
关键词 filetype:pdf
★模糊搜索
◇同义词(波浪号)
紧挨着关键词之前放波浪号 ~
表示搜索同义词。
有了这个功能,你就不必用 OR
写一堆关键词。因为 Google 是足够聪明的,知道哪些词汇是近义词。
举例:
用如下语法,既可以搜索到包含 food 的网页,也可以搜索到包含 nutrition 的网页
~food
请注意:
这里的波浪号一定要用半角的。
◇数字范围(两点)
在两个数字之间放两个小数点 ..
表示模糊搜索该数字范围。
举例:
世界杯 2002..2010
也可以仅指定一个数字。如下例子表示搜索大于 2002 的数字
举例:
世界杯 2002..
请注意:
这里的小数点一定要用半角的。
◇通配符(星号)
你可以用星号 *
指代任何一个词汇。使用此语法,通常配合引号,以提高信噪比。
举例:
比如“以飨读者”这个成语,第二个字你不知道怎么写,也不知道怎么发音——用输入法写不出来。可以用如下语法搜索,就可以找到该成语的写法。
"以*读者"
请注意:
这里的星号一定要用半角的。
另外,星号也可以配合刚才提到的 site:
语法一起使用。
举例:
比如新浪有如下几个域名
sina.com.cn
sina.com.hk
sina.com.tw
你用如下语法,就可以限定搜索范围在上述几个域名
关键词 site:sina.com.*
★【排除】某些关键词
紧挨着关键词之前放减号,表示排除该关键词。也就是说,网页如果包含该关键词,就不会出现在搜索结果中。
举例:
比如你搜索甲骨文
,既找到“考古”方面的页面,也会找到“Oracle 数据库”方面的页面。如果你仅仅想要考古方面的,可以用如下方式排除数据库相关的结果。
甲骨文 -数据库
请注意:
这里的减号一定要用半角的。
这个语法也可以跟前面提到的几个语法(比如 site:
和 filetype:
)组合使用。
★括号的使用
如果你需要混用上述几种语法,就得考虑使用括号——看起来清晰而且不容易搞错不同语法的优先级。
举例:
关键词1 关键词2 (关键词3 OR 关键词4)
★其它的搜索小技巧
以下是若干小技巧,平时不经常用。一旦需要,会很方便
◇Google 当词典
使用如下语法,Google 会给出该单词的注解和音标。
define:某单词
◇Google 当计算器
有些稍微复杂的表达式(比如带多重括号的),用 Windows 计算器不太方便,你可以让 Google 帮你算。
只需把数学表达式输入到搜索框,动态提示中就已经告诉你结果了
举例:
((1+2)*3)^2
提醒一下:
表达式中可以使用常见的数学函数(log、ln、sin、cos、等)
◇用 Google 换算汇率
比如用如下语法,可以计算 100 美元可兑换多少人民币,还配有近期走势图(USD 是美元货币代码,CNY 是人民币货币代码)。
100 USD to CNY
有些同学会问:去哪找那些货币代码捏?
没关系,先在搜索框输入上述这串,敲回车;Google 会显示一个界面,上面有换算货币的下拉框,你就可以选世界上的各种外汇。
◇用 Google 换算温度
这个可能用得不多——貌似天朝很少人用华氏温度。
举例——摄氏温度转华氏温度:
100 c to f
举例——华氏温度转摄氏温度:
100 f to c
三:解答 Google 搜索的常见问题(FAQs)
★如何禁用“国别重定向”?
(这个问题是问的人最多的)
Google 通常会根据“发起搜索的 IP 地址”来进行“国别重定向”。
比如:天朝的网民不FQ直接访问 Google 搜索,就会被重定向到 Google 的香港站点;
比如:你通过 I2P FQ访问 Google 搜索,可能会被重定德国的 Google——因为 I2P 的出口节点在德国。
要想禁止国别重定向,可以点击如下网址,然后 Google 会在你本地保存一个 cookie 设置,下次再访问,就不会被重定向了。
http://www.google.com/ncr
★为啥要使用加密搜索?
Google 大概是在 2011 年开始提供基于 HTTPS 的加密搜索。在那之前,主流的搜索引擎都是明文搜索的。
为啥 Google 要提供 HTTPS 的加密搜索捏?主要目的是:避免你的搜索行为被别人监控。
◇明文搜索的隐患
那么,什么情况下,你的搜索行为会被监控捏?主要有如下几种可能性(注意,是【可能性】,不是必然会发生的):
1. 在公司上网
如果你所在的公司部署了上网审计,或者你公司的网管有偷窥癖。那么你在网上进行明文的搜索(包括 Google、Baidu、Bing 等),有可能会被看到。
2. 在网吧上网
如果你去网吧上网,道理同上。
3. 使用公共 wifi 热点
如果你到公共场合,使用公共的 WIFI 上网(比如某些咖啡吧提供的免费 WIFI),也存在类似隐患。道理同上。
4. 使用FQ软件
在天朝上网,FQ已经是越来越普及的一项运动。要FQ,通常需要FQ软件来帮忙。用了FQ软件之后,你的上网数据都要流经FQ的服务器(包括代理服务器、VPN 服务器)。那么,一旦FQ服务器监控你的网络流量,就有可能知道你的上网行为。
◇加密搜索的好处
先表扬一下:在【主流的】搜索引擎中,Google 最先提供了基于 HTTPS 的加密搜索。
用了加密搜索之后,即使有人监控你的上网流量(术语叫“网络嗅探”),也只能知道你在用搜索引擎;以下几项内容,监控者是【无法】知道滴。
1. 你在搜索引擎上搜了哪些关键字,监控者是看不到滴
2. 搜索引擎返回给你的查询结果,监控者是看不到滴
提醒一下:
如果你在 Google 的搜索结果中点击某个网页,并且那个网页是明文的(网址以 http:// 开头);那么,你点击的这个网页的内容,还是可能被监控者看到。
★两个加密搜索域名有啥差异?
Google 目前有两个加密搜索的网址,网址分别是:
https://encrypted.google.com/ https://www.google.com/
可能很多人不清楚这两个域名有啥区别。好奇的同学可以看 Google 官方的帮助(在“这里”)。
总的来说,https://encrypted.google.com/
比 https://www.google.com/
略为安全一些。
★加密搜索能规避浏览器的监控吗?
答案是:不能!
加密搜索只能规避网络流量的监控(网络嗅探),但是无法防止浏览器窥探你的上网行为。
拿老流氓 360 来举例:
前几年 360 浏览器就被曝光过严重的用户隐私问题。它的行为很恶劣,会把用户访问的每一个网址都收集下来,然后发送到 360 自己的服务器上。这种情况下,加密搜索是帮不了你的。因为浏览器可以直接拿到地址栏里面的内容(也就是网址)。如果你使用搜索引擎,那么,根据相应的网址就可以判断出你输入了哪些搜索关键字。
所以,俺顺便再啰嗦一句:
别用那帮国产的浏览器。不论 360 还是腾讯,都不是啥好鸟。360 尤其恶心,整天嚷嚷着要维护用户利益,背地里不知道干了多少龌龊事情。
★Google 的网页缓存(快照)有啥用处?
很多网友都知道,搜索引擎的缓存,可以帮你看到已经被删除的页面。其实捏,搜索引擎的缓存还有如下好处。
◇支持 HTTPS
刚才介绍了加密搜索的好处,但是也提到了一点:如果你点击某个搜索结果的页面,并且该页面是明文的,那么你的上网行为还是有可能被监控。换句话说:如果有人监控你,可以知道你点开了哪个页面。
如何避免这种情况捏?办法之一就是:访问【加密的】搜索引擎缓存(快照)。目前 Google 的缓存是支持 HTTPS 加密的。所以,你可以通过 HTTPS 方式访问某个网页的缓存,就可以部分降低(但不是完全避免)被监控的风险。
为啥不是“完全避免”捏?因为 Google 的缓存,只是保存了页面本身的 html 内容。它并不保存页面上附加的网页元素(比如:图片、JS、CSS)。如果某个网页元素是通过 HTTP 明文传输的,那么,当你打开这个页面的缓存时,这些明文传输的内容还是会被监控到。
拿俺博客举个例子:
你可以用加密方式访问俺博客首页的缓存。但是因为俺博客上有图片(右上方的 Logo),而且这个图片是明文传输的。这种情况下,虽然缓存本身是 HTTPS,但 HTTP 明文传输的图片,还是会被监控者看到。并且因为这张图片是俺博客的 Logo,那么监控者就可以猜测你在访问“编程随想”这个博客。但是,网页的 HTML 文本(也就是网页的文字内容)是 HTTPS 加密的,所以监控者比较难判断你在看哪一篇博文。
要想解决此问题,有一个替代方法——仅查看缓存的“纯文字版”(下面会提到)。
◇查看有风险的网页(避免网页挂马)
Google 在缓存网页的时候,会检查页面上是否有恶意代码。这样有一个额外的好处——规避网页上的挂马。另外,Google 的缓存有两种:一个是完全版,另一个是纯文字版。完全版基本上是页面的原貌,而纯文字版会滤掉网页的附加元素(javascript 脚本、CSS 样式表)。显然,“纯文字版”比“完全版”更加安全。
举个“纯文字版”的使用场景:
时不时会有某读者给俺来信,说某某网页上的内容很有趣,并附上网址。通常情况下,俺是不会直接去点这个网址的。
俺的做法是:在 Google 缓存里面查看该网页的(纯文字版)。这样的好处在于:万一这个网址是个陷阱,也不容易中招。
★如何快速打开某页面的 Google 缓存?
◇在搜索框输入网址
在 Google 的搜索框中输入:
cache:你要看的网址
举例:
本系列的目录页,网址是:https://program-think.blogspot.com/2013/03/internet-resource-discovery-0.html
你只需在 Google 搜索框输入如下,即可看到该页面的缓存:
cache:https://program-think.blogspot.com/2013/03/internet-resource-discovery-0.html
上述方式看到的是缓存的“完全版”,在页面上方有一个链接,可以让你切换到“纯文字版”。
◇在地址栏输入网址
如果你想用缓存的方式,查看某个有风险的网页。这时候你自然想直接打开“纯文字版”,那么可以在浏览器地址栏输入如下:
https://webcache.googleusercontent.com/search?strip=1&q=cache:
然后把你要看的网址,追加到上述地址后面,变成这样
https://webcache.googleusercontent.com/search?strip=1&q=cache:https://program-think.blogspot.com/2013/03/internet-resource-discovery-0.html
上述网址中的 strip=1
表示“纯文字版”,滤掉页面的附加元素(JavaScript、CSS、等);如果改为 strip=0
就表示“完全版”,不滤掉页面的附加元素。
提醒一下,有些网站的功能非常依赖于 JavaScript 和 CSS,用纯文字版的缓存,可能会显示不正常。
◇使用浏览器书签
上述那串网址很长,不好记。如果你用的是 Firefox,可以添加一个带变量的书签,就可以做到快速打开 Google 缓存。具体做法如下:
在 Firefox 书签菜单或书签工具栏上点右键,选“新建书签”,会弹出创建书签的对话框。
名称随便写一个,地址用如下两个之一。(这两个网址只有 strip 部分有差异,刚才解释过这两者的不同)
“纯文字版”的缓存
https://webcache.googleusercontent.com/search?strip=1&q=cache:%s
“完全版”的缓存
https://webcache.googleusercontent.com/search?strip=0&q=cache:%s
在书签的“关键字”一栏,写 cache(如果你喜欢,也可以用其它单词),点“确定”按钮,就 OK 了。
使用举例:
如果你想看俺博客主页的 Google 缓存,只需要在浏览器地址栏输入
cache https://program-think.blogspot.com/
Firefox 就会自动转向到如下
https://webcache.googleusercontent.com/search?strip=1&q=cache:https://program-think.blogspot.com/
就可以显示出俺博客主页的缓存。
★如何使用 TOR 访问 Google 搜索?
(如果你平时不用 TOR,请跳过本章节)
◇先描述一下问题
经过俺的普及,博客的读者里面,有越来越多人开始用 TOR 来隐匿踪迹。对经常用 TOR 上网的同学,多半会碰到一个问题——Google 搜索经常会报错,或者经常让你输入识别码。为啥会这样捏?
因为如今用 TOR 的网友越来越多(不仅是天朝,全世界都是)。但是捏,TOR 在全球的【出口节点】,数量很有限。这就造成一个后果——每一个出口节点都会频繁地发起对 Google 的搜索请求。
对 Google 来说,当某个 IP 非常频繁地请求 Google 的搜索页面,Google 就会怀疑该 IP 的请求不是人类发起的,而是由软件自动发起的。所以 Google 会跳出一个页面,让你输入一串人类识别码(注册邮箱的时候,通常也会让你输入这种识别码)。如果某个 IP 的请求频率超过一定的限度,Google 忍无可忍,直接给出一个报错页面(连输入识别码的机会都不给)。
◇解决方法之“浏览器的代理扩展”
浏览器的代理扩展具有这样的功能:你可以通过配置,指定某种特征的网址通过某个代理来打开。
常见的代理扩展有:FoxyProxy
在天朝,使用 TOR 的同学多半是通过双重代理(关于如何搞 TOR 的多重代理,俺在“这里”有介绍)。也就是说,TOR 是通过其它FQ工具联网的。为了叙述方便,把“其它FQ工具”称之为 XXX。这里的 XXX 可以是各种代理工具。
这种情况下,你的电脑同时存在两个代理的端口,一个是 TOR 的端口,一个是 XXX 的端口。
如果你安装了代理扩展,你可以配置一下,让 https://encrypted.google.com/
开头的网址都通过 XXX 的端口,而其它网址通过 TOR 的端口。这样就可以避免从 TOR 的出口节点访问 Google 搜索功能。
某些安全意识比较高的网友可能会担心:这样一来,访问 Google 就只经过一重代理,会不会有隐患?
俺个人觉得:
用基于 TOR 的双重代理来隐匿自己的公网 IP,主要是为了对付国内的网站——比方说你要在国内网站发表政治敏感言论。
对于 Google 的搜索请求,一重代理就够了,不需要双重代理。
◇解决方法之“StartPage”
假如你对安全性具有偏执狂,死活不肯用单重代理。或者你嫌浏览器的代理扩展太麻烦,懒得去配置。那么还有一个办法:直接使用 StartPage 进行搜索。
这个 StartPage 相当于是一个专门为 Google 定制的 Web 前端。使用 StartPage 进行搜索,你的浏览器先把搜索请求提交给 StartPage 的服务器,然后 StartPage 的服务器再转发给 Google 服务器。如此一来,Google 看到的搜索是来自于 StartPage 而不是来自于 TOR 出口节点。
关于 StartPage 本身是否会有隐私问题,待会儿后面还会提到。
★如何避免 Google 搜索的隐私问题?
(如果你只是普通网民,不是敏感人士,请跳过本章节)
◇先描述一下问题
大部分 Google 的粉丝,想必都注册了 Gmail 帐号,并且经常使用 Gmail。如此一来,当你登录 Gmail 的时候,Google 会在你的浏览器中保存一些 cookie。
通常来说,这些 cookie 是为了给用户带来方便的:
比如你下一次登录 Gmail,就不需要再输入用户名,因为用户名已经保存在 cookie 里面了。
比如你在 Google 上搜索,Google 通过 cookie 就知道你的身份,然后会分析你以前的搜索历史,智能地判断哪些内容你所偏好的。然后这些你偏好的内容,在搜索结果的排名就会略微靠前。
对于大部分网友而言,cookie 导致的身份识别,问题不大。因为 Google 相对于国内的某些流氓公司而言,是比较靠谱的。他应该不会拿你的个人隐私去卖钱的。所以,就算让 Google 知道了你的搜索历史,也无所谓。
但是,少数安全性要求非常高的网友,他们可能不希望让 Google 了解自己的搜索历史。打个比方:Google 可能会被骇客入侵,然后入侵者拿到了 Google 的某些用户资料,那么自己的隐私可能会被曝光。
这种风险不是俺凭空想像滴,现实生活中发生过真实的案例——2009年的极光行动,骇客企图入侵 Google 的 Gmail 系统,主要攻击目标是“中国政治异议人士的邮箱”。(从当时的迹象看,攻击者显然是天朝的御用骇客。此次事件直接导致 Google 退出大陆)
所以,如果你是一个敏感人士(比如:政治异议人士、维权人士...),并且你对隐私方面具有很高的要求,可以通过下面介绍的方面,让 Google 无法知道你的搜索历史。
◇“不彻底”的解决方法——关闭 Web History
当你访问 https://history.google.com/ 并登录了帐号之后,可以通过界面配置,关闭“Web History”功能。关闭了之后,你就看不到自己的历史搜索记录了。
但是,你看不到了,不等于它就不存在了。有可能用户已经关闭了 Web History,但是 Google 依然在记录用户的搜索历史,只是不显示给你看而已。
所以,这个解决办法是【不彻底】的。根本的解决之道在于:要让 Google 不知道你的身份。但是很多时候,咱们又需要登录才能用 Google 的很多服务(比如 Gmail)。怎么解决这个矛盾捏,请看如下几个【彻底解决】之道。
◇解决方法之“多浏览器”
这是最简单的解决方法——只需安装两款不同的浏览器(这两款最好是【不同内核】的)。
浏览器 A
用来登录 Gmail,然后在该浏览器上使用 Google 那些【需要登录】的服务(比如:Gmail、Google Plus、Google Voice ...)。
浏览器 B
不登录 Google 的帐号,然后在这个浏览器上进行 Google 搜索。
◇解决方法之“浏览器多实例”
有些同学比较挑剔,就喜欢某款浏览器,非它不用。那么,你可以尝试一下“多实例”的玩法。
当浏览器配置为多实例,实例之间是完全隔离的——会使用独立的插件、扩展、页面缓存、cookie、等等。因此,咱们可以利用浏览器多实例之间的隔离性,创建两个实例。一个实例用来登录 Google 帐号,使用那些【需要登录】的服务(比如:Gmail、Google Plus、Google Voice ...);另一个实例不登录,只是用来搜索。
目前主流的浏览器中,Firefox 和 Chrome 都支持多实例。关于这两款浏览器如何配置“多实例”,请看俺之前的博文《如何防止黑客入侵[6]:Web相关的防范》,此处不再啰嗦。(提醒一下:Chrome 的“多用户”功能跟“多实例”是两码事儿。即使你配置了多用户,还是在同一个“实例”里面)
◇解决方法之“StartPage”
聪明的同学,刚才看过 StartPage 的介绍之后,多半猜到这个工具也可以用来进行匿名搜索。
使用 StartPage 进行搜索,虽然最终你的搜索请求还是发送到 Google,但是 Google 看到的搜索请求是从 StartPage 的服务器发出。也就是说,Google 不知道是你本人在进行搜索。
可能有的同学会担心——StartPage 本身是否会有隐私问题?
俺个人觉得:
首先,StartPage 无需注册,所以它没法通过登录帐号来进行身份识别
其次,如果你使用FQ方式访问,那 StartPage 就无法通过公网 IP 来对你进行定位
最后,StartPage 默认是不保存 cookie 的(俺测试过)。除非你在它页面上点 Setting 按钮进行了某些设置(比如每页显示多少条搜索结果),它才会保存 cookie
所以,StartPage 也不失为解决方法之一。
四:搜索关键字有啥讲究
未完待续
五:扫盲博客阅读器的使用
未完待续
以上是关于如何挖掘网络资源(编程随想的博客)的主要内容,如果未能解决你的问题,请参考以下文章