今天买了一个adidas的足球，如何分辨真假

Posted 2023-04-20

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了今天买了一个adidas的足球，如何分辨真假相关的知识，希望对你有一定的参考价值。

今天买了一个2006世界杯的足球
我应该如何分辨是真是假？

首先希望有疑问的朋友明白一点：A，B品的概念和厂、正、拼、假货的概念是不同的，这是两种不同的分类但又有共同的地方。不少说明将其交叉说明让一些朋友混乱，原因后面会说的。我说点我的看法，希望容易明白其中的始末。

一，A、B品 -------- 从质量上分（也只表示质量含义）

A、B品的原始说法来源是质量的检测的分类，完全仅仅只是对质量上的划分。A品的意思就是“授权工厂按严格工艺控制制作的通过了正规检测的鞋”，A品和正品唯一的差别就是"A品是出售前的正品，A品一旦在正规销售渠道上市，就是正品了”。国外这些鞋公司是没有自己的鞋厂的，他们靠认证授权鞋厂产鞋，然后检测人员验证合格后发放到各销售通路去，A品就是这些。质量检测不合格的会打上一个红色的B的标记，然后集中销毁。所以B就是说的质量不过关。真的所谓B品，正规检测时候一般有一个B的标志的（不过不排除特殊流出的）。
猫腻在于，在部分检测或者销毁的时候，内部工作人员将B品偷运出来地下流通到市面，其实就是将质量不合格的鞋弄出来卖。
还有一种情况就是，检测人员将部分质量过关的鞋（A品）也擅自打上B的标记或者混同着，这样便于偷运出来。这种鞋其实没有质量问题。

注意：1，市场上JS们故意扩大混淆这个A，B的概念，动不动就喊什么非原厂的A品，更本就是混帐话！不是指定鞋厂产的还有资格叫A品？？这个A的评级是谁评的？？
2，利用上面说的B品的猫腻，故意神神秘秘把一些假鞋/残次鞋说是偷出来的B品，还说和A品一样质量。
3，由于A品是没有自己明显标记的，所以也有人将偷出来问题鞋或者拼的鞋说是A品。

4，无论是A品还是B品，只要不是正规销售渠道出来的都是非法的，都不是正品！！哪怕质量和正品一样！！

二，厂鞋，正品 ------------ 从来源上分

本来没有厂鞋这个概念，这个说法是早期灵通人士传出来的。凡是“从指定授权鞋厂里经过非正式渠道流出来的鞋都叫厂鞋”，这里面就包括A品和B品。包括偷出来的A品；偷出来的B品；偷出来的名义是B品但实际是A品；偷出来的残次品。请记住，只有真正授权原厂的产品才是厂鞋，市面上一些JS喊的什么所谓“分厂”出来的厂鞋完全就是骗人！

正品，正品是最严格的完成品，只有在正规代理和渠道才可能买到，当然价格也是正式的价格，所以有点贵。正品的意思就是“通过正规渠道，用正规价格出售的A品”。

辨别正品：除了打折的价格，正品的价格都是公司指定的全国统一价格；除了正规渠道和正式代理出售（包括一些小店二传手），其他的都不是正品。正品一定是带原装鞋盒，有保修单据，一定有正规的质量检测标志。

可以看出，正品的概念远不单只是指质量，还包括价格，销售，品牌等多方面的含义。所以现在常有人喊什么原厂流出的正品，要么就是故意混淆偷运品和正品的概念，要么就是完全说梦话，尤其可恨的是居然还有喊非原厂产的正品骗钱的。

三，拼鞋假鞋 ------------- 从生产上分

拼鞋就是假鞋的一种！！不要妄想什么所谓的原厂材料就可以做XX立牌坊了。
拼鞋是利用指定鞋厂里生产多余的材料，偷出来的材料，不合格的材料（材料也有选用检测的），从厂里废品垃圾里捡来的破烂等等，然后躲在某个角落自己用低下的工具拼出来的鞋子。

在这里请注意，部分拼鞋做的很象真的，所以很多人将其冒充厂鞋。

注意：1，有常识的人都知道鞋子是一个完整的工艺过程，用了点所谓的原厂材料（比如什么气垫啊）就喊质量好根本就是用502粘起来的航空母舰，骗自己也骗别人。而且可以肯定的说，所谓拼鞋也只是用了点点部分的原材料，而且各部件还不是配套的（比如42的鞋底配41的鞋面）。（当然也有强人能全套偷零件出来而且还能细致分工我也没话说了），为什么看鞋标容易分出拼鞋，道理就在这里。

2，拼鞋仍然是假鞋，现在好象一喊什么原厂材料就身价高一些，大家看了上面的就知道这东西是什么货色。非法偷的材料，非正式拼装，非正规销售途径，低劣的质量，这不是假鞋是什么？？红灯区的妓女就不是鸡了？？

四，完全的假鞋：自己照样子仿造的，这个大家都知道是什么。 (不过假鞋也有等次之分）

耐克＼阿迪达斯真伪辨别方法

首先是如何分析NIKE鞋的编号一、2001年以前，及少数2002年鞋款的编号规则
先介绍一下示意图。图中是2000年生产的AIR FLIGHPOSITE KG，请注意看图中画横线的部分：
①：产地，MADE IN TAIWAN代表台湾生产，不过有趣的是NIKE的鞋盒却大多是MADE IN USA的美国货。
②：生产日期，"000911"代表2000年9月-11月生产出厂。
③：生产工厂编号，"PC8"是NIKE台湾的工厂，大部分的sample和posite鞋都是这里生产的。
④：鞋的尺码。
⑤：这就是我们将主要介绍的9位货号！

图中的9位货号是830196-002，我们要把它分为三段，分别是830（第一码）、196（第二码）、002（第三码），下面我来一一说明。

第一码的数字所代表的意思是鞋款的系列功能类别，这三个数字代表的意义如下：

[i:35925bc72c]开头的第一个数字代表的意思是：[/i:35925bc72c]
如果是"1"则代表：一般上市的鞋款，早期的鞋大多用这个。
如果是"4"则代表：球员版的SAMPLE鞋。
如果是"6"则代表：复刻版或某连锁鞋店独家销售的款式或颜色．
如果是"7"则代表：订制的鞋款。
如果是"8"则代表：一般上市的鞋款，启用于97年．
如果是"9"则代表：某国家或地区限定版．

此外的2、3、5编号上位定义。

[i:35925bc72c]后面的两个数字，就是用来判定系列的数字，具体如下：[/i:35925bc72c]
02：男室内慢跑鞋
03：女室内慢跑鞋
04：男慢跑鞋
05：女慢跑鞋
06：中性跑鞋
07：乡间路跑鞋
09：男慢跑鞋
10：男女沙滩拖鞋
13：橄榄球鞋
15：金属钉底棒球鞋
16：美式足球鞋(可拆式)
17：男女及儿童沙滩拖鞋
18：摔角鞋
21：美式足球鞋(多功能式)
22：男ACG滑板鞋
30：男篮球鞋
31：女篮球鞋
32：婴儿篮球鞋
34：JORDAN系列(幼童)
35：JORDAN系列(青少年)
36：JORDAN系列
37：女篮球鞋
38：女ACG水上运动鞋
40：男网球鞋
41：女网球鞋
42：男网球鞋(复古型)
43：女网球鞋(复古型)
44：男排球鞋
48：女ACG鞋
50：婴儿鞋(不分类)
51：男幼童鞋(不分类)
52：女幼童鞋(不分类)
53：男童鞋(不分类)
54：女童鞋(不分类)
58：女排球鞋
65：男ACG靴
70：男多功能鞋
71：女多功能鞋
72：女拉拉队鞋
73：男多功能练习鞋
74：女多功能练习鞋
75：男ACG鞋
78：重量训练鞋
80：男网球鞋
82：男走路鞋
83：男高尔夫球鞋
84：男ACG单车鞋
85：男ACG鞋
90：男ACG水上运动鞋
91：女走路鞋
92：女高尔夫球鞋

依照这样的判别刚才的830196-002的第一码所代表的意思就是：（8）一般上市的鞋款（30）男篮球鞋。这样一看就应该很清楚了吧，它是一款正常上市的男子篮球鞋。

第二码为196，这三个数字的意思就没重要的了，它只是个序号，所代表的意思就是在这个分类，是第几款发售的鞋子。所以我们把第一码和第二码加起来判断，830196的意思就是：此款是一般上市的鞋的男篮球鞋，是第218款设计的样式。很容易懂理解吧！

第三码，也就是最后的三个数字（002），它所代表的就是鞋款的配色编号，具体如下：
0：黑/灰/银
1：白
2：棕/香槟色
3：绿
4：蓝
5：紫
6：红
7：黄/金
8：橙
9：金（有金属感）
不过，有关金色的编码问题，我们一直也搞不清楚，何时会用"7"，而何时又会用"9"？我感觉通常如果金颜色比较带金属质感重一些的就会用到"9"，比如Posite training。

至于这三个数字再进一步的划分就很少会有人钻研了，又说研究的FANS也大都众说纷纭。这里我借鉴一些被人的经验，并进行一连串验证后，做一下比较接近解说。当然这些都不可能100%的正确，不过暂时我觉得还可以说有七、八成把握的，仅供参考吧：

第一个数字：是指鞋面的颜色，值得注意的是，不一定是那种颜色比例占的多就是主色，很多是都是以鞋面的颜色来决定的。例如我们正说的002，是用0字头的，代表黑色。

第二个数字：通常是Nike Logo所用的颜色，当然对于乔丹系列没有Nike Logo，会用飞人标志的颜色。还是例如我们正说的002，是用0字头的，代表黑色的Nike Logo。另外在举个例子，红白的AJ11 LOW是161，但红白BB4却是101。色号不同的原因就是，前者因为飞人logo用的红色，所以是161；但BB4中的Nike Logo在为银色，再加上鞋面是白色，所以色号就是101。

第三个数字：这个通常是当同一鞋款中前2位数相同时，它作为区分之用。例如Air Presto (104231)就有001(黑黄),003(灰橙),004(黑银),005(黑蓝),006(灰紫黑)和007(全黑)之分。另外，当某种配搭色彩有超过十种时，有可能出现第一个数为"9",比如AF1，"11x"的配色到 "119"后，便会有910,911,912等编号。

言归正题，我们将这三码拼在一起，就是这款鞋子所运用的主要配色，举例的第三码是002，所带表的颜色就是黑色鞋面、黑色Nike Logo，同时是黑面黑钩配色的第二款鞋。

二、2002年以后大部份鞋款编号规则
先介绍一下示意图。图中是2002年生产的SHOX SUPREMACY，请注意看图中画横线的部分：
①：产地，MADE IN CHINA代表中国生产。
②：生产日期，"021202"代表2002年12月至第二年的2月生产出厂。
③：生产工厂编号，"LN3"好像是NIKE在福建的工厂，全名是"福建大丰集团有限公司"。这方面的东西其察看RAVEN以前的贴子，里面对鞋盒和厂址有更详细的说明。
④：鞋的尺码。
⑤：这就是我们将主要介绍的9位货号！

图中的9位货号是305522-101，我们要把它分为两段来看，分别是305522（第一码）、101（第二码），下面我来一一说明。

第一码的数字，在新的编号系统里已经不再代表鞋款的系列功能类别，仅作为系统识别的ID号码是用。所有鞋款的头码全以"3"来表示。至于后面的五位数字则表示在新标号规则下的第几款产品，数字越大代表推出时间越晚。不过还是有个要留意的地方，新标号规则的第一双鞋的编号是"02001",而不是"00001"。这对大家识别假鞋还是有帮助，在终结篇里我会介绍如何利用号码识别假鞋。

第二码的数字代表鞋款颜色的信息，具体规则与原来的相同，请参见上面的文章。我在这里只简单概括一下：
颜色对照表如下：
0：黑/灰/银、1：白、2：棕/香槟色、3：绿、4：蓝、5：紫、6：红、
7：黄/金、8：橙、9：金（有金属感）。

喜份规则如下：第一个数字代表鞋面颜色；第二个数字代表Logo的颜色；第三个数字通常用来区分前2位数相同的同款鞋。

总结一下，305522-101的含义就是：新编号规则下，ID号为05522的鞋款，且白色鞋面、银色Nike Logo，同时是这款鞋白色银钩配色的第一款鞋。

利用编号规则识别假鞋一直以来都是最直接有效的办法之一，虽然并不是所有假鞋都是错好，但可以肯定的是错号的肯定是假鞋。

我下面举个例子来介绍如何使用这种方法。

图中是一个外观仿制的极像的Aj16拼装鞋，当然为了区分我还是特意修改了一个地方，熟悉的朋友应该很容易看出来这一点。但对于没有见过Aj16的人来说，它在我修改前真的是做的天衣无缝，无法从外形上分辨，就算说成是厂鞋都会有相信。

就此而言，即使我们没见过实物真鞋，也不知道正确货号，仅凭编号规则识别，也可以很容易就可以揭穿它。

我们来看看，这鞋的货号是"830222-101"，那么它有两点错误：
第一点，乔丹系列的篮球鞋的头3位应该是"836"或"136"！所以这双是假的！
第二点，颜色码，黑色漆皮的鞋头怎么可能是"1"字开头呢？光凭猜得也可以知道应该是"0xx"的配色码。如果有示意图参考，黑色鞋面、红色LOGO，那么配色码就可以确定是"061"。所以这双是假的！

另外，还有nike厂家代码的问题。。。
在此我也总结一下
我所知道的厂家代码
青岛：qt， qs， qh（大多生产跑鞋）
广东：y1， y2 ，y3 （现以改成y3-n）高档篮球鞋以及训练鞋，xc （抵挡篮球鞋），fc （凉鞋以及户外）
sf （足球鞋）
苏州：hj（抵挡跑鞋）
福建：ln1， ln 2，ln3，ln4（大多sohx，复古）
印度尼西亚的：ir ，ip， iw
泰国：ba ，pa
越南：vt ，vs

最后，是阿迪鞋的鞋码的一些知识
ADIDAS得号码，遇到基数的，没有正号
比如37就肯定没有37正号的只能够有37又三分一的
39的肯定不可能有39正码的，都是要要跟随有 39又三分一的，
遇到偶数号码的时候有正号，以及三分2
比如40，就有正号的40 又可以有40又三分2，不可以有40又三分一，
又如42的可以有正号的42码，可以有42又三分2 ，
不可以有42又三分一的，出现差错就是假的。
以此类推就可以知道基数，偶数号码后面应该跟随什么，
总的简单规律是，阿迪鞋的号码是以2/3递增的，比如40码，下一个是40又2/3
在下一个是41又1/3，总之，加2/3即可
一些假鞋上经常出现纰漏。。。所以按这个方法也可以一定程度上
鉴别真假鞋。。
其实鉴别ADIDAS鞋子并不是传闻中的那么困难。。
从鞋标处下手就可以完全辨别出。
另外，鞋上的胶，线头，做工的粗糙程度也能进行辨别参考技术A 如何辨别真假NIKE运动首先在运动鞋这个领域上，大家可能了解得真的很少，很片面，有时候显得很幼稚，首先我想先澄清几个概念。
1。正品鞋
所有经过原厂加工并且带有原装盒子的鞋子，也就是和专卖店一样的货。
2。厂鞋
原厂加工并由工人携带出来的鞋子，没有原装的盒子。
3。组装鞋
使用原厂的材料，或是废料，在其他私人的工厂加工的鞋子。
4。假鞋
分为精纺和低防，垃圾材料，垃圾做工。
5。A,B品鞋
A品在意义上可以等同于厂鞋，但有的js拿来混淆视听，把组装也称为A品。B品是在原厂加工时出现质量问题的鞋子，在鞋标上打上B,然后销毁。也能由工人拿出来，不过数量及其少。属于天上掉馅饼级。

大家对自己脚上的鞋子的鞋标了解多少。
简单的真假鞋分辨，从鞋标上着手。
一。nike
每一个型号的NIKE鞋，都会有编配一组九个数位、独一无二的编号，我们只要从这九个数字，就能得知这双鞋的一些资料。这九个数字的排列方法，是采用前六后三的排列法。前后组再以一横线隔开，如：
830142-101
前组分隔线后组
前组
前组的六个数位，再可以分为三个部份： 8 30 218 前码中码后码
前码：单独一个数字，代表波鞋的属性：
1 一般推出市面发售的鞋款
2（没有采用）
3（没有采用）
4 球员版的样板鞋
5（没有采用）
6 复刻版或尘些鞋店的独家款式
7 订制版（有待证实）
8 由97年起的一般推出市面发售的鞋款
9 国家地区的限定版
0（没有采用）

--------------------------------------------------------------------------------

中码：由两个数字组成，表示波鞋的所属鞋类，先时有编号的有： 02-男室内慢跑鞋
03-女室内慢跑鞋
04-男慢跑鞋
05-女慢跑鞋
06-中性跑鞋
07-越野跑鞋
09-男跑鞋
10-男女沙滩拖鞋
13-橄榄球鞋
15-棒球鞋（金属钉）
16-美式足球鞋
17-沙滩拖鞋（男/女/儿童）
18-拳击鞋
21-多功能型（美式足球鞋）
22-男ACG
30-男篮球鞋
31-女篮球鞋
32-儿童篮球鞋
34-乔丹系列（C码）
35-AJ系列（Y码）
36-AJ系列（男装）
37-AJ系列（女装）
38-女ACG（水上运动类）
40-男网球鞋
41-女网球鞋
42-男网球鞋（复古型）
43-女网球鞋（复古型）
44-男排球鞋
48-女ACG
50-BB鞋
51-男幼童鞋
52-女幼童鞋
53-男童鞋
54-女童鞋
58-女排球鞋
65-男ACG（靴型）
70-男多功能鞋
71-女多功能鞋
72-女啦啦队鞋
73-男多功能鞋（练习用）
74-女多功能鞋（练习用）
75-男ACG
78-举重用鞋
80-男网球鞋
82-男慢步鞋
83-男高尔夫球鞋
84-男ACG（单车用）
85-男ACG
90-男ACG（水上运动用）
91-女慢步鞋
92-女高尔夫球鞋
----------------------------------------------------------------------------------

后码：由三个数字组成，表示波鞋在该属性类中所推出的第几款。
"218"就是代表这双波鞋属于第三十类（男篮球鞋）中的第 218 款鞋。

--------------------------------------------------------------------------------

后组
后组的三个数字，头两个表示这款波鞋的主要配色。
配色表：
0-黑?灰?银
1-白
2-咖啡?棕
3-绿
4-蓝
5-紫
6-红
7-黄
8-橙
9-金
第一码：
是指鞋面的颜色（记住！不一定是那一种色的比例最多才叫主色，很多是都是以鞋面的颜色来决定的......如乔丹矮帮系列，都是用1字头的——即白色）
第二码：
不少人以为第二码就是所谓的"第二主色"，但经过考证，发觉第二码很多时都跟是否是第二主色没有直接关系！
原来决定第二码的数字，通常是会看......NIKE Logo所用的颜色！（对于如乔丹系列没有NIKE Logo的，当然是用飞人标志的颜色啦）而且，又会以鞋身或鞋跟部份的NIKE Logo（文字）颜色为准。
用一个明显的例子：红白AJ11矮帮最后三个数字是"141"，但红白"BB4"的最后三个码是"101"，为什么呢？前者因为飞人logo用上了红色，所以是"141"；但"BB4"中的NIKE Logo在鞋身最后的位置，是银色的，再加上鞋面是白色而非红色，所以就得出了"101"这个编码。
不过，刚才也提过，这个方法也不是百分百绝对的。Air Trainer Escape就是其中一个例子。它的第二码，不少又会原用番第二主色... 另外也有部份鞋的第二码会以鞋面的logo为准。不过，以鞋身或鞋跟作为第二码，通常都会有80%以上的准确率。
第三码：
这个码和颜色没有直接关系，通常是用来区别同一鞋款中两码相同时的处理方法。比如新近推出的Air Presto Tremelo Max，就有两款同以蓝色为主的鞋，就以先推出的深蓝色为"441"，而后推出的水蓝色，就以"442"表示。又比如Air Presto（104231）就有"001"（黑黄）,"002"（闪电）,"003"（灰橙）,"004"（黑银）,"005"（黑蓝）,"006"（灰紫黑）和"007"（全黑）之分。

二。adidas
ad的鞋标较nike来说逊色很多。信息不是很详细，但其对尺码的划分很有特点，可以作为辨点。ad的尺码不是以0.5进位的，是以2/3进位的。例如42....42.2/3......43.1/3......44...
大家看出来了吧，以这种进位方式，是不可能有41...43....45...这样的码数出现的，只能有
41.1/3....43.1/3....45.1/3....懂了吧：），如果出现这样码数的ad鞋子,必假。

其他的品牌无简易明显特征，不再阐述。

大家经常听到什莫走私鞋，水货等等，均是假货，各大厂家大部分工厂都在中国，下面介绍nike工厂概况。
LN3（三丰），福建福州（大多生产高档鞋，AJ 11复刻，，SHOX篮球鞋，JAMES。以及一些DUNK。。今年的AJ 2。。。等）
LN2，LN4，福建莆田。（注：很多SB都在LN2生产）
Y3（裕元3厂，目前2厂为ADIDAS生产），广东东莞（大多生产高档篮球鞋，以及训练鞋，，AJ 18 ，19，2K4等都在此工厂生产）
HJ，苏州太仓（大多生产低档跑鞋，以及普通AF1）
QT，QS，QH。青岛（大多生产跑鞋。MAX 2003等。。）
XC广州小坪（大多生产低档篮球鞋）
FC广东番禺（大多生产凉鞋以及户外皮靴）
SF深圳（生产足球鞋）
台湾：
PC8，FT 1
印尼：
IR，IP，IW
泰国：
BA，PA
越南：
VT， VS
ad,reebok的厂家集中在福建

下面是对adidas服装的一些鉴别方法：
1.adidas的商标：
商标上的三条斜杠和两个d d的上端一角是相连的，正品的绣的比较细腻，没有线头，还有间距是有比例的。
2.adidas经典的三条杠：
这三条杠做工精细，大小匀称。而且三条杠的中间的间隔也和线本身大小是一致的。
3.面料和辅料验证，adidas的面料和辅料都是外商直接提供的。是国外定做并采购来的，国内防版的面料怎能相提并论，手摸就知道一二了。
4.拉链头，阿迪采用的拉链头是YKK国际一流厂商提供的，反面有YKK的字样，正面一般有adidas的字样。
5. 水洗标, 水洗标上都会有8国旗标的,是彩色的,主标旁边还有一个标,上面有3行数字加英文的,第一行是款号,第二行有数字有英文,我就不太清楚是什么了,第三行是生产的年月份.所以你也很容易辨别出是否是新款了

以上方法供大家参考，一般仿版的衣服根据这几点一眼就能识别出来，如果这些仿版都做到了，那是不是正品也无所谓了。参考技术B 抱歉,只有找到这个,希望能帮助你吧

如何辨别真假NIKE运动首先在运动鞋这个领域上，大家可能了解得真的很少，很片面，有时候显得很幼稚，首先我想先澄清几个概念。
1。正品鞋
所有经过原厂加工并且带有原装盒子的鞋子，也就是和专卖店一样的货。
2。厂鞋
原厂加工并由工人携带出来的鞋子，没有原装的盒子。
3。组装鞋
使用原厂的材料，或是废料，在其他私人的工厂加工的鞋子。
4。假鞋
分为精纺和低防，垃圾材料，垃圾做工。
5。A,B品鞋
A品在意义上可以等同于厂鞋，但有的js拿来混淆视听，把组装也称为A品。B品是在原厂加工时出现质量问题的鞋子，在鞋标上打上B,然后销毁。也能由工人拿出来，不过数量及其少。属于天上掉馅饼级。

大家对自己脚上的鞋子的鞋标了解多少。
简单的真假鞋分辨，从鞋标上着手。
一。nike
每一个型号的NIKE鞋，都会有编配一组九个数位、独一无二的编号，我们只要从这九个数字，就能得知这双鞋的一些资料。这九个数字的排列方法，是采用前六后三的排列法。前后组再以一横线隔开，如：
830142-101
前组分隔线后组
前组
前组的六个数位，再可以分为三个部份： 8 30 218 前码中码后码
前码：单独一个数字，代表波鞋的属性：
1 一般推出市面发售的鞋款
2（没有采用）
3（没有采用）
4 球员版的样板鞋
5（没有采用）
6 复刻版或尘些鞋店的独家款式
7 订制版（有待证实）
8 由97年起的一般推出市面发售的鞋款
9 国家地区的限定版
0（没有采用）

--------------------------------------------------------------------------------

中码：由两个数字组成，表示波鞋的所属鞋类，先时有编号的有： 02-男室内慢跑鞋
03-女室内慢跑鞋
04-男慢跑鞋
05-女慢跑鞋
06-中性跑鞋
07-越野跑鞋
09-男跑鞋
10-男女沙滩拖鞋
13-橄榄球鞋
15-棒球鞋（金属钉）
16-美式足球鞋
17-沙滩拖鞋（男/女/儿童）
18-拳击鞋
21-多功能型（美式足球鞋）
22-男ACG
30-男篮球鞋
31-女篮球鞋
32-儿童篮球鞋
34-乔丹系列（C码）
35-AJ系列（Y码）
36-AJ系列（男装）
37-AJ系列（女装）
38-女ACG（水上运动类）
40-男网球鞋
41-女网球鞋
42-男网球鞋（复古型）
43-女网球鞋（复古型）
44-男排球鞋
48-女ACG
50-BB鞋
51-男幼童鞋
52-女幼童鞋
53-男童鞋
54-女童鞋
58-女排球鞋
65-男ACG（靴型）
70-男多功能鞋
71-女多功能鞋
72-女啦啦队鞋
73-男多功能鞋（练习用）
74-女多功能鞋（练习用）
75-男ACG
78-举重用鞋
80-男网球鞋
82-男慢步鞋
83-男高尔夫球鞋
84-男ACG（单车用）
85-男ACG
90-男ACG（水上运动用）
91-女慢步鞋
92-女高尔夫球鞋
----------------------------------------------------------------------------------

后码：由三个数字组成，表示波鞋在该属性类中所推出的第几款。
"218"就是代表这双波鞋属于第三十类（男篮球鞋）中的第 218 款鞋。

--------------------------------------------------------------------------------

后组
后组的三个数字，头两个表示这款波鞋的主要配色。
配色表：
0-黑?灰?银
1-白
2-咖啡?棕
3-绿
4-蓝
5-紫
6-红
7-黄
8-橙
9-金
第一码：
是指鞋面的颜色（记住！不一定是那一种色的比例最多才叫主色，很多是都是以鞋面的颜色来决定的......如乔丹矮帮系列，都是用1字头的——即白色）
第二码：
不少人以为第二码就是所谓的"第二主色"，但经过考证，发觉第二码很多时都跟是否是第二主色没有直接关系！
原来决定第二码的数字，通常是会看......NIKE Logo所用的颜色！（对于如乔丹系列没有NIKE Logo的，当然是用飞人标志的颜色啦）而且，又会以鞋身或鞋跟部份的NIKE Logo（文字）颜色为准。
用一个明显的例子：红白AJ11矮帮最后三个数字是"141"，但红白"BB4"的最后三个码是"101"，为什么呢？前者因为飞人logo用上了红色，所以是"141"；但"BB4"中的NIKE Logo在鞋身最后的位置，是银色的，再加上鞋面是白色而非红色，所以就得出了"101"这个编码。
不过，刚才也提过，这个方法也不是百分百绝对的。Air Trainer Escape就是其中一个例子。它的第二码，不少又会原用番第二主色... 另外也有部份鞋的第二码会以鞋面的logo为准。不过，以鞋身或鞋跟作为第二码，通常都会有80%以上的准确率。
第三码：
这个码和颜色没有直接关系，通常是用来区别同一鞋款中两码相同时的处理方法。比如新近推出的Air Presto Tremelo Max，就有两款同以蓝色为主的鞋，就以先推出的深蓝色为"441"，而后推出的水蓝色，就以"442"表示。又比如Air Presto（104231）就有"001"（黑黄）,"002"（闪电）,"003"（灰橙）,"004"（黑银）,"005"（黑蓝）,"006"（灰紫黑）和"007"（全黑）之分。

二。adidas
ad的鞋标较nike来说逊色很多。信息不是很详细，但其对尺码的划分很有特点，可以作为辨点。ad的尺码不是以0.5进位的，是以2/3进位的。例如42....42.2/3......43.1/3......44...
大家看出来了吧，以这种进位方式，是不可能有41...43....45...这样的码数出现的，只能有
41.1/3....43.1/3....45.1/3....懂了吧：），如果出现这样码数的ad鞋子,必假。

其他的品牌无简易明显特征，不再阐述。

大家经常听到什莫走私鞋，水货等等，均是假货，各大厂家大部分工厂都在中国，下面介绍nike工厂概况。
LN3（三丰），福建福州（大多生产高档鞋，AJ 11复刻，，SHOX篮球鞋，JAMES。以及一些DUNK。。今年的AJ 2。。。等）
LN2，LN4，福建莆田。（注：很多SB都在LN2生产）
Y3（裕元3厂，目前2厂为ADIDAS生产），广东东莞（大多生产高档篮球鞋，以及训练鞋，，AJ 18 ，19，2K4等都在此工厂生产）
HJ，苏州太仓（大多生产低档跑鞋，以及普通AF1）
QT，QS，QH。青岛（大多生产跑鞋。MAX 2003等。。）
XC广州小坪（大多生产低档篮球鞋）
FC广东番禺（大多生产凉鞋以及户外皮靴）
SF深圳（生产足球鞋）
台湾：
PC8，FT 1
印尼：
IR，IP，IW
泰国：
BA，PA
越南：
VT， VS
ad,reebok的厂家集中在福建

下面是对adidas服装的一些鉴别方法：
1.adidas的商标：
商标上的三条斜杠和两个d d的上端一角是相连的，正品的绣的比较细腻，没有线头，还有间距是有比例的。
2.adidas经典的三条杠：
这三条杠做工精细，大小匀称。而且三条杠的中间的间隔也和线本身大小是一致的。
3.面料和辅料验证，adidas的面料和辅料都是外商直接提供的。是国外定做并采购来的，国内防版的面料怎能相提并论，手摸就知道一二了。
4.拉链头，阿迪采用的拉链头是YKK国际一流厂商提供的，反面有YKK的字样，正面一般有adidas的字样。
5. 水洗标, 水洗标上都会有8国旗标的,是彩色的,主标旁边还有一个标,上面有3行数字加英文的,第一行是款号,第二行有数字有英文,我就不太清楚是什么了,第三行是生产的年月份.所以你也很容易辨别出是否是新款了

以上方法供大家参考，一般仿版的衣服根据这几点一眼就能识别出来，如果这些仿版都做到了，那是不是正品也无所谓了。参考技术C 抱歉,只有找到这个,希望能帮助你吧

如何辨别真假NIKE运动首先在运动鞋这个领域上，大家可能了解得真的很少，很片面，有时候显得很幼稚，首先我想先澄清几个概念。
1。正品鞋
所有经过原厂加工并且带有原装盒子的鞋子，也就是和专卖店一样的货。
2。厂鞋
原厂加工并由工人携带出来的鞋子，没有原装的盒子。
3。组装鞋
使用原厂的材料，或是废料，在其他私人的工厂加工的鞋子。
4。假鞋
分为精纺和低防，垃圾材料，垃圾做工。
5。A,B品鞋
A品在意义上可以等同于厂鞋，但有的js拿来混淆视听，把组装也称为A品。B品是在原厂加工时出现质量问题的鞋子，在鞋标上打上B,然后销毁。也能由工人拿出来，不过数量及其少。属于天上掉馅饼级。

大家对自己脚上的鞋子的鞋标了解多少。
简单的真假鞋分辨，从鞋标上着手。
一。nike
每一个型号的NIKE鞋，都会有编配一组九个数位、独一无二的编号，我们只要从这九个数字，就能得知这双鞋的一些资料。这九个数字的排列方法，是采用前六后三的排列法。前后组再以一横线隔开，如：
830142-101
前组分隔线后组
前组
前组的六个数位，再可以分为三个部份： 8 30 218 前码中码后码
前码：单独一个数字，代表波鞋的属性：
1 一般推出市面发售的鞋款
2（没有采用）
3（没有采用）
4 球员版的样板鞋
5（没有采用）
6 复刻版或尘些鞋店的独家款式
7 订制版（有待证实）
8 由97年起的一般推出市面发售的鞋款
9 国家地区的限定版
0（没有采用）

--------------------------------------------------------------------------------

中码：由两个数字组成，表示波鞋的所属鞋类，先时有编号的有： 02-男室内慢跑鞋
03-女室内慢跑鞋
04-男慢跑鞋
05-女慢跑鞋
06-中性跑鞋
07-越野跑鞋
09-男跑鞋
10-男女沙滩拖鞋
13-橄榄球鞋
15-棒球鞋（金属钉）
16-美式足球鞋
17-沙滩拖鞋（男/女/儿童）
18-拳击鞋
21-多功能型（美式足球鞋）
22-男ACG
30-男篮球鞋
31-女篮球鞋
32-儿童篮球鞋
34-乔丹系列（C码）
35-AJ系列（Y码）
36-AJ系列（男装）
37-AJ系列（女装）
38-女ACG（水上运动类）
40-男网球鞋
41-女网球鞋
42-男网球鞋（复古型）
43-女网球鞋（复古型）
44-男排球鞋
48-女ACG
50-BB鞋
51-男幼童鞋
52-女幼童鞋
53-男童鞋
54-女童鞋
58-女排球鞋
65-男ACG（靴型）
70-男多功能鞋
71-女多功能鞋
72-女啦啦队鞋
73-男多功能鞋（练习用）
74-女多功能鞋（练习用）
75-男ACG
78-举重用鞋
80-男网球鞋
82-男慢步鞋
83-男高尔夫球鞋
84-男ACG（单车用）
85-男ACG
90-男ACG（水上运动用）
91-女慢步鞋
92-女高尔夫球鞋
----------------------------------------------------------------------------------

后码：由三个数字组成，表示波鞋在该属性类中所推出的第几款。
"218"就是代表这双波鞋属于第三十类（男篮球鞋）中的第 218 款鞋。

--------------------------------------------------------------------------------

后组
后组的三个数字，头两个表示这款波鞋的主要配色。
配色表：
0-黑?灰?银
1-白
2-咖啡?棕
3-绿
4-蓝
5-紫
6-红
7-黄
8-橙
9-金
第一码：
是指鞋面的颜色（记住！不一定是那一种色的比例最多才叫主色，很多是都是以鞋面的颜色来决定的......如乔丹矮帮系列，都是用1字头的——即白色）
第二码：
不少人以为第二码就是所谓的"第二主色"，但经过考证，发觉第二码很多时都跟是否是第二主色没有直接关系！
原来决定第二码的数字，通常是会看......NIKE Logo所用的颜色！（对于如乔丹系列没有NIKE Logo的，当然是用飞人标志的颜色啦）而且，又会以鞋身或鞋跟部份的NIKE Logo（文字）颜色为准。
用一个明显的例子：红白AJ11矮帮最后三个数字是"141"，但红白"BB4"的最后三个码是"101"，为什么呢？前者因为飞人logo用上了红色，所以是"141"；但"BB4"中的NIKE Logo在鞋身最后的位置，是银色的，再加上鞋面是白色而非红色，所以就得出了"101"这个编码。
不过，刚才也提过，这个方法也不是百分百绝对的。Air Trainer Escape就是其中一个例子。它的第二码，不少又会原用番第二主色... 另外也有部份鞋的第二码会以鞋面的logo为准。不过，以鞋身或鞋跟作为第二码，通常都会有80%以上的准确率。
第三码：
这个码和颜色没有直接关系，通常是用来区别同一鞋款中两码相同时的处理方法。比如新近推出的Air Presto Tremelo Max，就有两款同以蓝色为主的鞋，就以先推出的深蓝色为"441"，而后推出的水蓝色，就以"442"表示。又比如Air Presto（104231）就有"001"（黑黄）,"002"（闪电）,"003"（灰橙）,"004"（黑银）,"005"（黑蓝）,"006"（灰紫黑）和"007"（全黑）之分。

二。adidas
ad的鞋标较nike来说逊色很多。信息不是很详细，但其对尺码的划分很有特点，可以作为辨点。ad的尺码不是以0.5进位的，是以2/3进位的。例如42....42.2/3......43.1/3......44...
大家看出来了吧，以这种进位方式，是不可能有41...43....45...这样的码数出现的，只能有
41.1/3....43.1/3....45.1/3....懂了吧：），如果出现这样码数的ad鞋子,必假。

其他的品牌无简易明显特征，不再阐述。

大家经常听到什莫走私鞋，水货等等，均是假货，各大厂家大部分工厂都在中国，下面介绍nike工厂概况。
LN3（三丰），福建福州（大多生产高档鞋，AJ 11复刻，，SHOX篮球鞋，JAMES。以及一些DUNK。。今年的AJ 2。。。等）
LN2，LN4，福建莆田。（注：很多SB都在LN2生产）
Y3（裕元3厂，目前2厂为ADIDAS生产），广东东莞（大多生产高档篮球鞋，以及训练鞋，，AJ 18 ，19，2K4等都在此工厂生产）
HJ，苏州太仓（大多生产低档跑鞋，以及普通AF1）
QT，QS，QH。青岛（大多生产跑鞋。MAX 2003等。。）
XC广州小坪（大多生产低档篮球鞋）
FC广东番禺（大多生产凉鞋以及户外皮靴）
SF深圳（生产足球鞋）
台湾：
PC8，FT 1
印尼：
IR，IP，IW
泰国：
BA，PA
越南：
VT， VS
ad,reebok的厂家集中在福建

下面是对adidas服装的一些鉴别方法：
1.adidas的商标：
商标上的三条斜杠和两个d d的上端一角是相连的，正品的绣的比较细腻，没有线头，还有间距是有比例的。
2.adidas经典的三条杠：
这三条杠做工精细，大小匀称。而且三条杠的中间的间隔也和线本身大小是一致的。
3.面料和辅料验证，adidas的面料和辅料都是外商直接提供的。是国外定做并采购来的，国内防版的面料怎能相提并论，手摸就知道一二了。
4.拉链头，阿迪采用的拉链头是YKK国际一流厂商提供的，反面有YKK的字样，正面一般有adidas的字样。
5. 水洗标, 水洗标上都会有8国旗标的,是彩色的,主标旁边还有一个标,上面有3行数字加英文的,第一行是款号,第二行有数字有英文,我就不太清楚是什么了,第三行是生产的年月份.所以你也很容易辨别出是否是新款了

以上方法供大家参考，一般仿版的衣服根据这几点一眼就能识别出来，如果这些仿版都做到了，那是不是正品也无所谓了。参考技术D 有没有搞错啊?人家问的是足球,怎么一个个都回答鞋啊?
最简单的方法是看价格.....以决赛用球为例.专卖店的价格990，网上所谓“正品”最便宜的450，但是一眼就可看出接缝,明显不是正品....其次比较便宜的是788,但是不是正品不好说,因为没有实物图片.....总之和900这个价格相差太多就不太保险了啊

我在网上看到的鉴别方法如下:
1、正版决赛用“团队之星”的金色部分只有在灯光下才会有泛起金光的感觉，色泽柔和呈暖色；球身通体全部图案均在最外层漆的下面，绝不会因场地摩擦而有任何掉色；

2、正版决赛用“团队之星”用料考究，外皮为PU复合材料，质地柔软且膨胀饱满，皮与皮之间近乎无缝接合；里面为三层高分子复合材料制成，脚感极佳。“团队之星”在气门处修改了通常内嘴技术所带来的不牢固的问题，使足球的使用寿命更长。

不过我觉得最重要的是真的"团队之星"采用无缝粘合技术.没有线缝.

我知道的就这么多了....不过我觉得实在不放心的话,托人去专卖店买一个吧= =|||专卖就是让人放心啊

分辨真假数据科学家的20个问题及回答

2016-11-14 大数据文摘

【导语】本文分为两个部分，第一部分是quora上很火的一篇问答--【20个分辨真假数据科学家的问题】中赞赏数最高的回答，第二部分则是KDnuggets阅读量非常高的一篇文章【KDnuggets编辑们针对这20个问题给出的回答】。前者由大数据文摘团队选稿翻译校对后，呈现在各位读者面前。后者授权转载自计算广告（Comp_Ad）译者白雪、龙星镖局，原载于KDnuggets。本次将分散于不同地址的相关资源整合推送，希望更有利于有兴趣读者的学习，别忘了【评论区】给我们留言你的体会、收获、以及建议喔！

◆ ◆ ◆

分辨真假数据科学家的20个问题

在读答案之前，先来看看这20个问题，并试着自己作答。回答可能包含有数学公式或少量代码(R, Python, SQL等)，而不只是泛泛而谈的模糊内容。

或许你可以试着把“我不知道，但我可以从阅读以下内容开始……”作为你答案的一部分，因为这也是在测试候选人的诚实与正直。一家组织最不想要的人就是那些夸张自己的能力或纯粹胡编乱造的虚假人才。

注（我留意到回复中关于这一点的讨论很火热）：

这些问题都不是最终的或是具备代表性的问题，只是基于我自己专业领域提出来的。这些是问题的原型，使用时应该在此基础上进行编辑和改进。若针对你通常处理的数据类型，你需要在问题中加上更多细节描述。

解释什么是正规化（regularization）以及它的用处。解释特定方法的优劣势，如岭回归（ridge regression）和LASSO算法？
解释什么是局部优化（local optimum）以及为什么它在特定情况，如K均值聚类，是很重要的。具体有哪些方法能确定你是不是真的遇到了局部优化问题？用什么方法可以避免局部最优解？
假设你需要使用多次回归来为一个定量分析结果中的变量建立预测模型，请解释你将如何来验证该模型。
解释什么是准确率（precision）和召回率（recall），它们和ROC曲线有什么关联？
解释什么是长尾分布并举出三个相关案例。为什么它们在分类和预测问题中很重要？
什么是隐语义分析（latent semantic indexing）？其主要是用来做什么的？这种方式的局限性是什么？
中心极限理论是什么？其重要性是什么？在何种情况下会失效？
统计功效（statistical power）是什么？
解释什么是重采样法（resampling methods）以及它的用处和局限性。
解释含softmax activation的人工神经网络（artificial neural networks ）、逻辑回归及最大熵分类器的区别。
解释选择性偏差（这里指特定数据库而不是随机选择）及其重要性。解释缺失数据处理等数据管理流程是如何让这种偏差变得更严重的？
举例说明实验设计是如何帮助解决行为问题的。例如解释实验设计如何帮助优化网络页面。如何将实验数据和观测数据作对比？
解释“长格式数据”和“宽格式数据”的不同，为什么你选择使用其中某一种？
对缺失数据使用均数填补法（mean imputation）是可行的么？为什么？
解释Edward Tufte 的“chart junk”理论。
什么是异常值？解释你是如何在数据库中寻找异常值以及找到后是如何处理的。
什么是主成分分析（PCA）?阐述你会用PCA来解决何种问题，以及这种方法的局限性。
假如你拥有一家客户呼叫服务中心的来电时长数据，你打算如何编码并分析这些数据？描述一个这些电话时长数据可能呈现的分布场景，你将如何验证（最好是能图形化地展现）这个分布场景的正确性？
解释什么是“误报”（false positive）和“漏报”（false negative）。区分这两者的重要性是什么？分别对以下场景举例：（1）误报比漏报更重要（2）漏报比误报更重要（3）两者同样重要。
解释管理数据集(administrative datasets)和实验中收集的数据集(datasets gathered from experimental studies)之间可能的差异。有哪些是管理数据可能碰到的问题？实验是如何帮助减轻这些问题的？但随之又会带来哪些其他问题？

quora地址：https://www.quora.com/What-are-20-questions-to-detect-fake-data-scientists

原作者|Jay Verkuilen 翻译|Lizyjieshu

校对|apple 寒小阳

◆ ◆ ◆

KDnuggets编辑们针对这20个问题给出的回答

由于回答人不同，这二十个答案和上一部分的内容可能不会一一对应，但相信你还是可以得到想要成为数据科学家的知识。

Q1:什么是正则化(regularization)？它有什么作用？

【Matthew Mayo解答】

答：正则化项是保证模型平滑性的一个调节参数，它可以起到防止过拟合的作用。正则化的通常做法，是将已有的权重向量经过L1(Lasso)或者L2(ridge)变换，当然变换也可以是其他形式。最终的模型优化目标，是加入了正则化项后的损失函数。Xavier Amatriain给了一个很好的例子，对L1和L2正则化进行比较。

技术分享

Lp球：p值减小，对应Lp空间也减小

Q2：你最崇拜的数据科学家和创业公司有哪些？

【Gregory Piatetsky解答】

答：这个问题没有标准答案，下面是我个人最崇拜的12位数据科学家，排名不分先后。

技术分享
12位知名的数据科学家

Geoff Hinton, Yann LeCun, 和Yoshua Bengio在神经网络方面坚持不懈的努力开启了当前深度学习(Deep Learning)的革命。
Demis Hassabis在DeepMind(AlphaGo发明者，Google子公司)的突出贡献，使机器在玩Atari游戏以及最近进行的围棋比赛中达到了人类或超人类的水平。
来自DataKind的Jake Porway和U. Chicago/DSSG的Rayid Ghani，使数据科学可以在社会福利方面有所贡献。
DJ Patil美国政府的第一位首席数据科学家，用数据科学服务于美国政府。
Kirk D. Borne以社交媒体上的影响力和领导力为大家所知。
Claudia Perlich在广告生态方面有很出色的工作，他还是KDD 2014的主席。
Hilary Mason在Bitly的伟大贡献，激励着其他人成为大数据的摇滚明星。
Usama Fayyad在KDD和Data Science展现出的领导力和规划才能，帮助和激励着我和其他千千万的数据科学工作者竭尽全力工作。
Hadley Wickham在基于R的数据科学和数据可视化方面的卓越工作，包括 dplyr, ggplot2, 和 Rstudio。

在数据科学领域有很多出色的创业公司。为了避免利益冲突，我就不将它们都列出来了。

Q3：用多元回归(multiple regression)生成了一个量化输出的预测模型，如何验证其有效性？

【Matthew Mayo.解答】

答：验证多元回归模型的方法有很多，我们推荐如下的一些方法：

如果模型预测值远在响应变量范围之外，那么模型的预估准确性显然存在问题。
虽然预测值看起来合理，但是参数存在以下问题，也可以判断存在预估问题或者多重共线性问题：与期望值相反的迹象；值特别大或特别小；在给模型输入新数据时发现不一致。
通过向模型输入新的数据，来做预测，然后用相关系数来评价模型的正确性。
把数据分成两份，一份用来训练模型参数，另一份用来验证。
如果数据集很小，就要使用 jackknife resampling技术，并用R平方和MSE(mean squared error)来测量效度。

Q4：什么是查准率(precision)和查全率(recall)？与ROC曲线的关系？

【Gregory Piatetsky解答】

答：计算查准率和查全率实际上很简单。比如，在10,000个实例中有100个正例，如果你预测的结果有200个正例，那么显然召回这100个正例的概率自然会大一些。根据你的预测结果和实际的标签，将结果中正确或者错误的次数分别加起来，有如下四个统计量：

TN / True Negative:实例是负的，预测也是负的
TP / True Positive:实例是正的，预测也是正的
FN / False Negative:实例是正的，但是预测是负的
FP / False Positive:实例是负的，但是预测是正的

	Predicted Neg	Predicted Pos
Neg Cases	TN: 9,760	FP: 140
Pos Cases	FN: 40	TP: 60

现在可以回答如下三个问题：

1、预测正确的百分比是？

回答：精度(accuracy)是(9,760 + 60) / 10,000 = 98.2%

2、实际为正例的样本你预测对了多少？

回答：查全率(recall)是60 / 100 = 60%

3、预测为正例的样本中实际为正例的百分比？

回答：查准率(precision)是60 / 200 = 30%

技术分享
查准率和查全率

ROC曲线体现了灵敏性(召回)[原文：sensitivity, (RECALL)]和特异性(不是精确度)[原文：specificity(Not PRECISION)]之间的关系。通常用于衡量二分类器的好坏。然而，当处理正负样本分布得极不均匀数据集，PR曲线展示信息更具代表性。

Q5：如何证明对一个算法的改进的确是有用的？

【Anmol Rajpurohit解答】

答：在对快速迭代(又叫“快速成名”)[原文：rapid innovation (aka “quick fame”)]的追逐中，违反科学方法论的原则常导致误导性的创新，特别是一些很吸引人但没经过严格验证的观点。考虑如下场景，你要改进算法的效果，并且有好几个改进思路。心急的做法，是尽快列出这些思路并实施。当需要支撑数据时，只有很局限的结果可以共享，这些结果很容易受到已知或未知的选择偏差、或者误导性的全局最优(原因是缺乏适当变化的测试数据)影响。

数据科学家最忌讳的是将情感凌驾于逻辑推理之上。虽然证明算法改进有效的方法要看实际案例，但仍有一些通用的指导原则：

确定用于效果评测的测试数据没有选择偏差(selection bias)。
确保测试数据有足够的变化(variety)，以便对真实数据有扩展性(有助于避免过拟合)。
确保遵循对照实验(controlled experiment)原则，比如当对比效果时，确保新旧算法的测试环境(硬件等)完全一致。
确定试验(近似)结果可以重复。
检查结果反映了局部极大值/极小值(local maxima/minima)或是全局极大值/极小值(global maxima/minima)。

遵循以上原则的通常做法是A/B测试，将两个算法都放到相似的环境里运行相当长一段时间，并且将实际输入数据随机的划分到两个算法上。这种方法在网络分析(Web Analytics)中很常用。

Q6：什么是根本原因分析(root cause analysis)？

【Gregory Piatetsky解答】

答：维基百科上的解释是：Root cause analysis (RCA)是确定错误或问题根本原因的方法。当把某个因素从问题故障序列中去除，能够避免最终不良事件的再次发生，该因素就会被认定为根本原因；反之，诱因影响事件的结果，却不是根本原因。

根本原因分析最初是用来分析工业事故，现在已经在医疗保健、项目管理和软件测试等领域广泛应用。

本质上来说，通过反复问“为什么”，就可以找到一个问题的根本原因和原因之间的关系，直到找到问题的根本。这个方法通常叫做“5 Whys”，当然问题的个数并不一定是5个。

技术分享

“为什么”分析法示例, 来自 The Art of Root Cause Analysis

Q7：你熟悉以下概念吗？

价格优化(price optimization)、

价格弹性(price elasticity)、

库存管理(inventory management)、

竞争情报(competitive intelligence)。

请举例说明。

【Gregory Piatetsky解答】

答：这些术语都来自经济学领域，在数据科学中并不常见。但是，了解这些术语很有意义。

价格优化，是用数学工具来确定消费者对不同渠道获得的产品或服务的不同价格的反应。

大数据和数据挖掘使个性化定价成为可能。现在，像亚马逊这样的公司可以基于用户的历史行为，将价格优化更进一步，实现不同用户不同的价格。当然，这样做是否公平仍存在很大的争论。

价格弹性，分为需求价格弹性和供给价格弹性：

需求价格弹性是对价格敏感度的一种度量，其计算公式如下：

需求价格弹性 = 需求量变化的百分比 / 价格变化的百分比

[原文：Price Elasticity of Demand = % Change in Quantity Demanded / % Change in Price]供给的价格弹性(Price elasticity of supply)指的是商品或服务的供给数量随商品价格变动而变动的情况。

库存管理，是指对公司在生产过程中使用的各种物品的订购、储存和使用的监督和控制，以及待售成品数量的监督和控制。

竞争情报，维基百科上的定义如下：

Competitive intelligence: 定义、收集、分析、和发布有关产品、客户、竞争对手以及制定战略决策所需的任何方面的情报。

像Google Trends, Alexa, Compete等工具都可以在网上获得总体趋势，进而分析竞争对手的情况。

Q8：什么是统计功效(statistical power)？

【Gregory Piatetsky解答】

答：维基百科这样定义二元假设检验(binary hypothesis test)的统计功效或者灵敏度(sensitivity)：当备选假设(alternative hypthesis)H1为真时，正确地拒绝零假设(null hypothesis)H0的概率。另一种说法，统计功效是当效应(effect)存在时，能够检测到效应的可能性。功效越高，出现II类错误(Type II error)可能性越低(即检测结论没有效应，但事实上是有的。译者注：即假阴性)。

Q9：什么是重采样(resampling)？它有什么用？有什么局限？

【Gregory Piatetsky解答】

答：经典的统计参数检测把实测统计量当作理论抽样分布。而重采样是数据驱动的，而不是理论驱动的方法，它是在同一个样本中反复采样的技术。

以下各种方法都可以被称为重采样：

使用可用数据集的子集(jackknifing)或者随机可重复采样出一批的数据点(bootstrapping)来估计样本统计量(中位数、方差、百分位数)[原文：medians, variances, percentiles]的准确率。
在进行显著性检验时交换数据点的标记(置换检验，也被称为精确检验，随机化检验，或重随机化检验)[原文：permutation tests, also called exact tests, randomization tests, or re-randomization tests]
通过随机子集验证模型(bootstrapping，交叉验证)[原文：bootstrapping, cross validation]

Q10：假阳性(false positive)多还是假阴性(false negative)多比较好？请说明原因。

【Devendra Desale解答】

答：这个问题取决于要解决的问题和领域。

比如，在医学检验方面，假阴性会给病人和医生提供错误的检查信息，但病人有病时却检测为没有病，这会导致病人得不到适合的治疗。所以，这个时候我们希望多一些假阳性。

但是，在垃圾邮件过滤时，假阳性意味着会将正常邮件当成了垃圾邮件，从而干扰邮件的传送。反垃圾邮件除了要能够够拦截或过滤大部分的垃圾邮件，但减少假阳性带来的误伤也非常重要。所以，这时我们希望多一些假阴性。

Q11：什么是选择偏差(selection bias)？它的重要性如何？怎样才能避免？

【Matthew Mayo解答】

答：一般来说，选择偏差指的是由于非完全随机的样本引发错误的一种情况。举例来说，如果有100个测试样本，分别由60/20/15/5分成四类组成，但实际的训练样本中每类实例数量又是接近的，那么模型有可能给出错误的假设—每类占比是决定性的预测因素。避免非随机采样是解决选择偏差的最好办法，但当它在实践中有困难时，使用类似重采样(resampling)、boosting和加权(weighting)这样的策略也有助于解决这个问题。

Q12：举例说明怎样设计实验来回答有关用户行为(user behavior)的问题

【Bhavya Geethika解答】

答：步骤1，制定要研究的问题：页面加载时间对用户满意度评级的影响是什么？

步骤2，识别变量：我们要识别出原因和结果，自变量是页面加载时间，因变量是用户满意度评级。

步骤3，构造假设：对一个网页来说，较低的页面加载时间会对用户满意度有更多影响。这里我们要分析的因素就是页面加载时间。

技术分享
你的实验设计有一个缺陷

步骤4，确定实验的设计：考虑实验的复杂性，即一次改变一个因素或者在同一时间改变多个因素，这样我们用的是因子设计(factorial design, 又称2 ^?设计)。设计的选择要基于目标的类型(比较、筛选、响应面)[原文：Comparative, Screening, Response surface]和因素(factors)的个数。

我们还要确定采用何种实验形式，可以是参与者组内、参与者组间或者混合方式。例如：有两个版本的网页，一个在左边有购买按钮(点击购买)另一个网页这个按钮在右边。

参与者组内设计(Within-participants design) – 用户组的用户都可以看到两个版本的网页。

参与者组间设计(Between-participants design) – 一个用户组看到A版本，另一组的用户看到B版本的。

步骤5，制定实验任务和程序：

实验中涉及的步骤的详细描述，用来衡量用户行为的工具, 目标和成功度量这些都要定义。收集有关用户参与的定性数据，以便进行统计分析。

步骤6，确定操作和测量：操作(manipulation): 控制一个层级的因素，处理另一个。我们还要定义行为的衡量标准。

延迟(Latency)-从提示到行为发生的时间(从展示出商品到用户点击购买按钮用了多长时间)。
频次(Frequency)-一个行为发生的次数(在某个时间内点击特定页面的次数)。
持续时长(Duration)-特定行为持续时间(添加所有商品所用的时间)。
强度(Intensity)-行为发生的强烈程度(用户多快购买一个商品)。

步骤7，分析结果：

识别用户行为数据，根据观测到的结果，支持或反对该假设。例如：不同页面加载时间下用户满意度评级的分布是怎样的。

Q13：“高/宽”数据(tall/wide data)的差别是什么？

【 Gregory Piatetsky解答】

答：在大多数数据挖掘、数据科学的应用中，记录(行)比特征(列)多很多-这种数据有时被称做“高”数据。

在像基因组学或者生物信息学的一些应用中，你可能只有很少的记录（病人），例如100，但又可能会对每个病人做20,000个观察。这时，通常用在“高”数据上的标准方法会导致过度拟合数据，所以需要引入特殊的方法。

技术分享
针对高数据和宽数据的不同方法

问题不仅仅是变形(reshape)数据(这里有R包 useful R packages)，而是通过减少特征数来寻找最相关的特征，以避免假阳性(false positives)。特征约减(feature reduction)的方法像Lasso在"Statistical Learning with Sparsity: The Lasso and Generalizations"一书中有介绍, 请在公众号后台发送信息“data2”获取。

Q14：怎样确定一篇文章里（报纸或其他媒体上）的统计数据是错的或者只是为了支持作者的观点，而不是关于某主题正确全面的真实信息？

答：Zack Lipton提出了一个简单的原则：如果这些统计数据发表在报纸上，那么它就是错的。这里有一个来自Anmol Rajpurohit的更严谨的解答。

每个媒体都有目标受众，对受众的选择在很大程度上决定了发布哪些文章、文章怎样措辞、重点突出文章的哪部分、怎样去讲这个事件等。

要判定发表在一篇文章上统计数据的有效性，第一步先要看发表它的机构和它的目标受众。你会发现即使是同样一个包含统计数据的新闻事件，福克斯新闻(Fox news)、华尔街新闻(wsj)和ACM/IEEE发布的会不那么一样。因此，数据科学家能聪明地知道从哪里获取资讯(以及要相信它几分)。

技术分享
出现在“福克斯新闻”上一个十分具有误导性的柱状图

技术分享
如何客观地呈现相同的数据

作者通常通过下面的方法试图隐藏他们研究的不足：巧妙的叙事技巧和忽略重要的细节直接跳到诱人的错误结论。因此，可以使用“拇指规则”(thumb’s rule)识别文章是否包含误导人的统计数据，检查文章是否包含了研究方法上的细节以及研究方法是否存在有感知限制的选择。注意查找像“样本容量(sample size)”，“误差范围(margin of error)”等词。尽管对“样本容量”，“误差范围”多少合适没有完美的答案，这些属性在阅读最终结论时要牢记于心。

另一个常见的错误报道案例是这样的，缺乏数据素养(data-education)的记者从已发表的研究报告的一两段中得到一个见解，并且为了得到他们的观点而忽略报告的其他部分。因此，以下一些方法能够避免你被这样的文章愚弄：首先，一篇可靠的文章不会含有任何无事实根据的观点。所有观点都必须能够对应研究结果的支持。否则，则必须明确将其区分为“意见”，而不是一个观点。其次，即便一篇文章引用了著名的研究论文，也并不代表它正确地运用了论文中的观点。这能通过全面阅读这些研究论文来判断其与手头文章的相关性。最后，虽然结论看起来是一篇文章最有趣的部分，但直接跳过研究方法(research methodology)的细节(例如明显错误，偏差等)[原文：spot errors, bias, etc.]往往是灾难性的。

理想情况下，我希望所有这些文章发表研究数据的时候也同时公布研究方法。这样，文章才能做到真正可信，因为每个人都可以分析这些数据，应用研究方法得出结论。

Q15：解释Edward Tufte‘s的“图表垃圾”(chart junk)的概念

【Gregory Piatetsky解答】

图表垃圾指的是图表或图片中所有可视元素对表达信息是不必要的，或者干扰观察者获取信息。图表垃圾这个名词是由Edward Tufte在他1983年的书《定量信息的视觉展示》里提出的。

技术分享
“一个无意的内克尔错觉，像后面两个平面翻转到了前面来。有的角锥体遮住了其他的；一个变量(角锥体堆叠的深度)没有注明标识或比例”。

技术分享

上图一个来自exceluser的更现代的例子，由于工人和吊车的干扰，图中的柱状图很难理解

这些修饰的存在迫使读者花更大力气而非必要地来发现数据的意义。

Q16：怎样筛查异常点(outliers)以及发现异常点后该如何处理？

【Bhavya Geethika解答】

答：一些筛查异常点的方法有Z分数(z-score)、改进的Z分数(modified z-score)、箱线图(box plots)、格拉布斯测试(Grubb’s test)、Tietjen-Moore测试指数平滑(Tietjen-Moore test exponential smoothing)、Kimber测试指数分布(Kimber test for exponential distribution)和移动窗口滤波算法(moving window filter algorithm)。下面是两种稳健(robust)方法的细节：

四分位距法(Inter Quartile Range)

异常值是给定数据集中一个小于第一四分位数(Q1)或者大于第三四分位数(Q3)1.5倍四分位距以上的数据点。

High = (Q3) + 1.5 IQR
Low = (Q1) - 1.5 IQR

Tukey法(Tukey Methond)

它使用四分位距来过滤太大或太小的数。它实际上与上面的方法一样，除了它使用了“围栏(fences)”的概念。有两个一高一低的围栏：

Low outliers = Q1 - 1.5(Q3 - Q1) = Q1 - 1.5(IQR)
High outliers = Q3 + 1.5(Q3 - Q1) = Q3 + 1.5(IQR)

在围栏之外的都是异常点。

当发现了异常值，不能在没有进行定性评估下就将它们移除，因为这样做是数据不再纯净。重要的是要理解分析问题的上下文或者说重要的是“为什么的问题-为什么异常值不同于其他数据点?”

这个原因很关键。如果是异常点导致了错误的发生，就可以把它扔掉。但如果异常点表示了一种新的趋势、模式或者揭示了数据中有价值的结论，那么它就应该被保留。

Q17：怎样运用极值理论(extreme value theory)、

蒙特卡洛模拟(Monte Carlo simulations)或其他数理统计方法来正确的估计一个小概率事件(rare event)的发生几率。

【Matthew Mayo解答】

答：极值理论关注的是小概率事件或极值，这点和经典统计方法不太一样，后者更关注平均。极值理论认为有3种分布可以建模从一些分布中随机观察到的极值点：Gumble, Frechet, 和 Weibull分布，也被叫做极值分布(Extreme Value Distributions, EVD)I型、II型和III型。

极值理论认为，如果从一个给定分布中产生N个数据集，然后创建一个只包含了这N个数据集的最大值的新数据集，那么这个新数据集只能被一种EVD分布精确描述：Gumble, Frechet, 或者 Weibull分布。广义极值分布(GEV)则是一个可以组合这3种极值理论分布还有极值分布模型的模型。

首先要理解用来建模数据的模型，然后才能使用模型来建模数据，最后才是评估。一旦找到最合适的模型，就能对模型进行分析，包括计算可能性。

Q18：什么是推荐引擎(recommendation engine)？

它是怎么工作的？

【Gregory Piatetsky解答】

我们现在都对推荐很熟悉，比如netflix的“你可能喜欢的其他电影”，亚马逊的“购买了X的用户还买了Y”。这些系统就叫做推荐引擎，或者更通俗地叫做推荐系统(recommender systems)。

技术分享

两种典型的进行推荐的方法是：协同过滤(Collaborative filtering)和基于内容的推荐(Content-based filtering)。

协同过滤基于用户过去的行为(如买过的商品、看过的电影、评过的电影等)和用户以及其他用户的决定建模，然后模型被用于预测用户可能会感兴趣的物品(或者给物品的评分)。

基于内容的推荐方法基于一个物品特征来推荐更多具有类似特性的物品(items)。这些方法经常包含在混合推荐系统(Hybrid Recommender Systems)中。

这里有两种方法应用到两个流行音乐推荐系统中的比较：Last.fm和Pandora Radio(例子来自维基百科的推荐系统条目Recommender System)

Last.fm建立了一个歌曲推荐站。他们观察一个用户经常听的乐队或单曲，并与其他用户的听歌行为进行比较，然后Last.fm会给一个用户播放那些不在其曲库里，但和其兴趣相似的其他用户常听的歌曲。由于这种方法利用了用户行为，它是一个协同过滤技术的例子。
Pandora是一个可以播放具有相似属性音乐的站，它主要基于一首歌或艺术家的属性(一个由Music Genome Project提供的400个属性的子集)来推荐。用户的反馈用来修正曲库的结果，当用户不喜欢一首歌曲时就减弱对应的属性(attributes)，而当用户喜欢一首歌曲时就增强对应的属性。这是一个基于内容过滤的例子。

Q19：说明假阳性(false positive)和假阴性(false negative)分别是什么？为什么区分它们的差异性很重要？

【 Gregory Piatetsky解答】

答：在二分类(或者医学检验)中，假阳性是指当一个算法或测试显示出现某种状况，但实际上并未出现。假阴性是指当一个算法或测试显示未出现某种状，但实际上却出现了。

在统计假设检验中，假阳性也叫做一类错误，假阴性也叫做二类错误。

很明显区分和区别对待假阳性和假阴性非常重要，因为这两类错误的代价可能会有巨大差异。

举例来讲，如果对一项重大疾病的检测是假阳性(检测结果是有病，但其实病人是健康的)，那么就需额外的检测来做出正确的诊断。另一方面，如果一项检测是假阴性(检测结果是健康的，但其实病人有疾病)，那么必要的治疗将会终止，可能会导致病人病情恶化而死亡。

Q20：你使用什么工具来做可视化(visualization)？你觉得Tableau怎么样？R呢？SAS呢？怎样在一张图或视频里有效地展示5维数据？

【Gregory Piatetsky解答】

答：数据可视化有很多很好的工具，如R, Python, Tableau 和 Excel等都是数据科学家经常使用的。

有很多方法可以在一个图表里展示多于2维的信息。第三维度可以用能旋转的三维散点来展示。还可以应用颜色、阴影、形状、尺寸。动画可以有效地展示时间维度（随着时间改变）。下面是个好例子。

技术分享
5维Iris数据集的散点图分别对应尺寸: 花萼长度; 颜色: 花萼宽度; 形状: 类别标记; 横轴: 花瓣长度; 纵轴: 花瓣宽度