说起悖论,可谓大名鼎鼎。那么,大家知道辛普森悖论吗?具体就是说两场活动的胜率并不能完全反映总的胜率。怎么说呢?就是第一场的胜率和第一场的胜率甲都比乙高,然而总的胜率却是甲没有乙高。请问,这是什么原因呢?核桃说。
很简单胜率的本质是比例,比例的本质是分数。而我们知道分数其实是很复杂的。两个分胜率看似和总胜率有关,事实上却是风马牛不相及的两个比例。我认为两个比例就是不能真实反映总的比例的。举个例子,有人说中国的网速没有阿富汗的快。为什么会这么说呢?原来我国虽然有300万个基站,但是我国人口很多。还有就是很多基站都建在偏远地区,而阿富汗的基站全部都建在繁华地区。我们知道基站越多,网速越快。所以,就有个上述的结论。这说明什么?比例并不能完全反映真实情况,甚至可能导致错误。
埃斯皮诺萨,你错了。比例是可以反映真实情况的。只不过要求有点高。如果甲乙参与了两场同样的活动,那么两场活动两个人参与的次数相同。举个例子,甲和乙都是编辑。第一周,甲受到了5件稿子,而他改了一篇。因此,修改率就是20/100。乙还是受到了5件稿子,而他改了2篇。修改率就是40/100。第二周,甲和乙都受到了5件稿子。甲修改了3篇,修改率是60/100。乙修改了4篇,修改率是80/100。最后,甲的总修改率是40/100,而乙的是60/100。你们看,第一周和第二周甲的修改率都低于乙的。而最后甲的总修改率还是低于乙的。这就说明所有样本的数量必须相等,结论才有意义。严格来说,这不是悖论。它只是说明不同比例并不是一定就可以统计的。
小尼,其实只要甲和乙在第一场的样本和第二场的样本都相等就可以了。举个例子,甲乙还是编辑。甲和乙在第一周都受到了5件稿子。甲修改了一篇,修改率是20/100。乙修改了3篇,修改率是60/100。他们在第二周都收到了20件稿子。甲修改了4篇,修改率是20/100。乙修改了5篇,修改率是25/100。最后,甲的修改率是20/100。而乙的是32/100。你们看,这不就避免了辛普森悖论吗!其实,当所有样本都不相同时,也有一种情况是可以避免辛普森悖论的。那么,大家知道这种情况吗?
好了,我来说一下。其实这就是一个求不等式的过程。甲乙在第一周分别收到了a、b件稿子。甲修改了m篇,修改率是m/a。乙修改了n篇,修改率是n/b。令m/a<n/b。他们在第二周收到了c、d件稿子。甲修改了p篇,修改率是p/c。乙的是q/d。令p/c<q/d,且(p+m)/(a+c)<(q+n)/(b+d)。当 m=2,n=9,a=5,b=10,p=9,q=20,c=15,d=30时,辛普森悖论就是不成立的。所以说,决定结论是否可靠的样本之间的关系。
有人说,辛普森悖论违背直觉。其实,这是错误的。分数本来就不平凡,仅凭循环小数这一项就没有人可以轻视它。如果你说分数很普通,不就是小看它吗?这个悖论的出现还是因为人们对分数的认识不够的。核桃如是说。