[少前统计学]YMFM及YMFM背后的理论探究(授权搬运)

修改于2020/03/02557 浏览综合
原作者警告:本文所涉及概念、术语、事例均凭记忆所写,未经考据。
一、飞妈诅咒
“喂,充十。”
听到我叫他的名字,王充十转过头来,“嗯?”,等待我说下去。
王充十是我对床的舍友,他善良纯洁,待人真诚,人长得帅,家境富裕,知识渊博,还有位聪明漂亮的女朋友(虽然最近吵架了),但他——
我接着说:“你快去微博看,玩家又开始飞云母的妈了,正热闹呢。”
——没错,他和我这种没人爱的死宅一样玩少女前线,一样深爱着小狐狸G41。
我时常会有一种使命感,上帝给王充十开了那么多扇窗,那么我这损友的使命便是关掉他的门。
王充十没有打开微博,而是凑到我的电脑前和我一起看,我们花了大概10分钟整理前因后果,又花了20分钟看玩家制作来嘲讽云母的沙雕图。真是快乐的时光。
我说:“云母难道就没有记性的吗?他们为什么总能持续不断地挖掘新爆点,激怒玩家。”
王充十表示同意,引用网友的话说:“逆风超神,顺风超鬼。”
我又说:“因为飞妈次数太多了,又很有规律的时不时飞一次,你说会不会背后有人操控?”
王充十问:“什么意思?”
我说:“用网上的话说,叫‘带节奏’,意思是友商水军带头起哄。或者干脆就是云母故意激怒玩家制造话题。”
“噢……”,王充十点头,但表示否定:“我从来不相信阴谋论。”
正如我所说的,王充十为人正直,光明磊落,他怎么会相信阴谋论这种小人的观点。我注意到王充十陷入思考,但我没有打断他。
我知道,当他完成思考需要说话时自然会说出来的,而且此时他的观点往往很有见地。
王充十打破沉默,说:“我想起一个词,叫‘赢家诅咒’。”
我没听说过这个词,王充十明白这点,为我解释下去。
赢家诅咒是美国商业史中被发现的一个规律:表现最好的10家公司会在***内衰落,跌出前10,或者是赢得油田拍卖的石油公司反而会在开发中陷入衰落,或者取得某一阶段胜利的公司仿佛被诅咒一般会在接下来的时间里迅速溃败。
我说:“但这不是真的诅咒,对吧?”
王充十回答:“是的。”稍微思考过后,他说:“我用另一个例子给你说明。“
我这位贴心的舍友大概是考虑到我的智商水平,决定换个浅显易懂的例子。
我接着听下去。
我们投一个六面骰子,出现“1~3(小)“的概率和出现”4~6(大)“的概率是一样的,都是50%。假如现在小狐狸和哒喵玩骰子,小狐狸在某一次投出5,是大,她第二次投出大或者小的概率依然是各50%。
每次投骰子的概率是互相独立的,这是我这名挂科大学生也懂的道理。
但如果我们不看大小,而是看数字呢。
小狐狸第一次投出5,第二次将有六分之四的概率投出1~4,出现数字下降,而仅有六分之一的概率继续上升,也就是投出6。
出现下降的概率是上升概率的4倍。
此时情况发生了改变,投骰子得到5的小狐狸会比投出2的哒喵面临更严峻的困难,小狐狸有六分之四的概率出现下滑,而哒喵相反,有六分之四的概率上升。
如果这场投骰子比赛有解说员,他也许会说小狐狸在第一回合就用光运气,点数出现下降,而哒喵后劲十足正在追赶领先的小狐狸。
王充十说:“这解说是不是很荒谬?“
我说:“概率没有变,但人们的期待变了,这就是赢家诅咒吗?“
王充十说:“没错,有一个专门的词描述这种情况,这叫‘均值回归’。“
二、均值回归
“让我们进一步分析均值回归的特征。“以这句话为开头,王充十继续解说。
均值回归说的是赢家小狐狸回归到平均水平的趋势,她投出5则有六分之四的概率下降,投出6则有六分之五的概率下降。
但并不是所有赢家都会回归均值,例如王充十,他每次考试都会在班级前三。这里面的区别就在于小狐狸是凭运气投的5,而他是凭实力考的前三。
从另一个角度看,也可以认为王充十的均值就是前三,他从未偏离,自然也不会回归。
因此,均值回归的另一层隐含意义就是——均值偏离,然后才有回归。
我问:“所以那些出现回归的赢家都是撞大运吗?微软、苹果这些公司都是撞大运成为赢家的吗?“我很怀疑。
面对我的提问,王充十露出诡异微笑,他坐直身子,双手抱胸。
——他要说名台词了!
王充十说:“愚蠢的人只能看到事物间很少的联系,然后把绝大部分自己看不见的联系通通叫做运气。
他的名台词每次不一样,但还都挺有道理的。
一间公司如果拥有优秀的经营者和员工,优秀的公司文化,优秀的产品,那么将大概率成为一间优秀的公司。但要在激烈的美国市场中脱颖而出成为TOP10,光有优秀是不够的,还需要天时地利人和的完美统一,也就是更多的外部因素。
越是顶尖,越是需要更多的外部因素配合,或者干脆把外部因素称为运气也无妨。
“总之“,王充十说:“微软、苹果这些公司都是撞大运成为赢家的吗?不准确,但你要这么说也对。“
我问他:“那么,你说的这些和YMFM有什么关系呢?“
王充十回答说:“别急,现在已经讲到外部因素,马上就到终点了。“
前面提到的均值回归最初是作为一种定性的现象被发现的,但随后,一种定量的关系被挖掘出来。
——那就是均值回归的反面:相关系数。
相关系数是一个统计学的概念,表示两串数字之间的关联程度,0是无关联,1则是完 全 一 致 ,相关系数是可以计算的,显然它的数值通常不会是0或1,而是介乎其中的某个数字。
王充十给我讲解了相关系数的计算方法,但我完全记不住,他只好退而求其次,用回最开始的例子给我说明相关度和均值回归的概念。
小狐狸投骰子。
众所周知,小狐狸可爱又迷人,受到幸运女神的眷顾,但幸运女神也影响不了骰子的点数,因此骰子点数完全是随机的,也就是说骰子点数和小狐狸的相关度为0。
此时骰子点数就会表现出完全的均值回归倾向,偏离越大则回归倾向越大。
另一方面,王充十的考试成绩和他学习程度直接相关,学习越好考试成绩也越高,二者之间的相关系数接近1。此时考虑成绩会趋于稳定,没有明显的均值偏离或者回归。
我理解了,说:“相关度小就会引起均值回归的现象。“
王充十补充说:“反过来说,如果我们观察到强烈的均值回归,便说明观察对象二者之间的关联其实很小。“
可能是外部因素干扰了对象的表现,例如美国TOP10的商业公司业绩,使得我们能观察到均值回归。
也可能是我们自己搞错了关联,例如有研究者曾经分析地方经济与某种癌症发病率的关系,得到似乎不错的结果,却又在随后的时间里出现均值回归现象,这恰恰成为二者之间没有因果关系的证据。
王充十说:“均值回归是一种随处可见的现象,懂得人能透过它看穿逻辑背后的荒谬,不懂的人则会信以为真,相信某种牵强附会上去的理论。“
三、YMFM
王充十提出:“我们可以对飞妈行为进行量化。“
我问要怎么做。
他说:“方法很多,例如我们把官微下的评论按正面和负面统计起来,设置一个恰当公式计算出每条微博对应的‘飞妈/卫兵值’,这样我们就可以看到这3年间的舆论趋势了。“
我说:“这工作量很大。“
王充十承认这点,说:“所以我没打算这么做,这份工作做完足够写一篇本科论文了。但你我可以凭感觉画出一份走势图,也许是这样。“
王充十随手画出一个曲线图,正数越大表示卫兵值越高、玩家越开心,负数越大表示飞妈值越高、玩家越愤怒,整个曲线就像三角函数一样上下波动。
不得不承认,这个随手画的图我还挺赞同的。
“所以……“,我谨慎地斟酌用词:”我们玩家3年来的飞妈历史……实际上就是一个上下波动的均值回归历史了吗?“
“不完全是”,王充十说:“但如此强烈的波动现象,我必须说相当一部分是均值回归的效应。”
紧接着,王充十说出这句重磅炸弹一般的话:
“因此,玩家的飞妈也有相当一部分和云母本身无关。”
我实在很难接受这样的观点,我说:
“明明就是云母做了些智障操作,玩家才开始飞***,怎么能说无关呢。”
王充十说:“注意,我说的是一部分,不是全部。玩家飞妈有一部分是因为云母的智障操作,也有一部分是外部因素——正是这些外部因素引起强烈的均值回归效应。”
“例如呢?”
王充十答:“例如认知谬误的一种——社会认同,这种效应也许加大了玩家的飞妈力度。”
我知道他的意思。
在一个著名的例子中,一个人看到一群人抬头,这个人很自然也会抬头张望,而这个人抬头的行为又会成为这群人行为的一部分,吸引更多的人抬头。
这就像是一种人与人之间的共振,我们接受对方发出的信息,强化后又传递回去,某种一致意见便在来回传递中不断加强。
我说,我很难确认、或者否认玩家之间情绪共振的影响。
王充十表示同意。
“社会认同只是我猜测的一个因素,“他说:”但有一点是明确的,你不能指望一间公司在3年间一直暴走,一会能把玩家激怒到外太空,一会又趴在地上给玩家舔鞋子。这当中,一定有某种外部因素在放大波动,从而不断触发均值回归。“
他用一句漂亮的话作为总结:
均值回归是一种警告信号,提醒我们注意某种外部因素的作用。“
四、我
谈话结束时,我想到某件事,噗地一声笑出来。
王充十问我笑什么。
我说:“你虽然聪明冷静,总能看到我看不到的问题,却反而会忽略一些近在咫尺、显而易见的事。“
他问我说的是什么。
我告诉他:“你最近不是在和女朋友吵架吗?这里面也许也出现均值回归了。“
“不……怎么会呢?“
看到王充十露出窘迫表情,我暗自觉得好笑,继续说:
“还有一种认知谬误——选择偏爱,你知道的吧。“
“……“
选择偏爱指的是人一旦做出某种选择,大脑就会不自觉地寻找证据支持自己的选择是正确的,就像微商骗局中,受害者一旦购买了代理权就会在瞬间把一切疑问抛诸脑后,他们会对一切证据视而不见,反而全身心投入进去。而在没有做出选择的旁人看来则完全无法理解。
我对王充十说:
“你在选择你女朋友的时候会不会也受到了选择偏爱的影响,你高估了你对女朋友的爱,然后——现在你发生均值回归了。“
王充十沉默了好一阵子,最后,他痛苦地微微点头。
“好吧,你说的也许有点道理。“
三天后,王充十和他女友分手了。
假如有一天审判日来临,上帝问我做过什么好事时,我打算回答他:
随手关门
本文搬运自[NGA_16LAB研究院],已获原作者@noteli授权,阅读更多精彩内容请点击返回目录
6
7
4