舍恩伯格在《大数据时代》中提到,“大数据时代最大的转变就是,放弃对因果关系的追求,而关注相关关系。”这一观点受到很多质疑,小编也认为只发现相关,无法解决问题的全部。但是通过数据如何找到因果,还是个很困难的事情。Eric Siegel就指出在现在很多的分析中,相关性和因果性被混为一谈,这会导致很多决策失误的出现。
“相关性并不意味着因果关系”。然而,数据科学家往往将二者混同,这可能会导致我们根据数据做出一些非常糟糕的决定。
有一个结论是:不吃早餐与心脏疾病有关,但是这并不意外着早餐就是一天之中最重要的一餐。
哈佛大学的医学研究人员得出结论认为,45岁至82那些不吃早餐的美国男人在这16年期间冠状动脉心脏疾病的概率比吃早餐的高27%。然而,早餐并非直接影响健康,吃早餐可以更简单地说是良好的生活方式。
在哈佛大学研究报告中:“不吃早餐的人往往感觉有更大的生活压力。研究中不吃早餐的人更可能是这样的人,会吸烟,有全职的工作,未婚,不够活跃,喝酒比较多。”但是早餐和健康之间的联系可能不是因果关系。
这是一个很好的例子,为什么一个科学的咒语经常重复:相关性并不意味着因果关系。然而,数据科学家们往往将两者混为一谈,屈服于过度解读诱惑,这会导致我们做出一些非常糟糕的决定,这可能会让原本认为数据预测有巨大价值的人失望。
预测分析会基于数据来预测出结果——例如一个曾经犯罪的人是否会再犯罪,或者一个又病史的人再次患病的概率。预测在医疗、金融服务、执法,政府和制造等行业中会产生重大影响。
然而有时候过度预测可能是更大的危险。Stein Kretsinger告诉我们他的亲身经历。在90年代初期,作为一个研究生,Stein领导一个医疗研究会议,评估那些确定多长时间能停止使用呼吸器的因素。那时候还没有PPT,Stein只能把那些因素用幻灯片的形式一次一次展示出来,每一张幻灯片放映后,卫生保健团队的专家们看到这些由数据中的关系确定的因素后会选择是否同意。
但放映了几个幻灯片之后,斯坦因意识到自己犯了个错误,之前放映的幻灯片都拿反了,也就是显示的图表和描绘数据点之间的真实关系相反。之后,他把幻灯片调到正确的一面,但专家们似乎并没有什么疑问,而且给这些相反的效果新的解释。
换句话说,我们的思维具有延展性。人们可以很容易地找到潜在的理论几乎任何解释。
就拿公布的医学研究发现那些接受激素替代疗法的妇女心脏疾病的发生率较低这项研究来说。难道说这是一种新的治疗方法吗?
显然不是。随后的实验人员适当控制推翻了这一结论。相反,目前的想法是,更富裕的妇女有获得激素替代疗法,这些相同的妇女有更好的健康习惯的整体。这种跟踪分析是至关重要的。
企业有可能也会发生这样的错误。例如,想象一个在线汽车经销商,发现使用价格计算器网站访问者更可能最终购买车辆。这种认识有助于他们进行预测,这时候给那些不使用价格计算器的客户发优惠券也许是一种明智的选择,可以提高他们买车的意愿。不过,这并不一定说明哪些因素会影响客户的决定,这也许只是用户想多体验一下网站上的功能,所以积极推进价格计算器不一定会有助于增加销售,可能是无用功。
Uber提供了另一个例子。该公司发现,在旧金山,卖淫率较高,多酗酒的人,盗窃、入室抢劫频繁的地区有更多乘车的需求。不过,该公司知道犯罪本身并不一定导致此更高的要求,即使是间接的。相反,他们原来的假设是“在没有固定居住地的人群中,犯罪率会高。”高犯罪率的地方会有更多的人不居住在附近,又需要乘车。
过早的根据因果关系下结论当然是不好的,也可能会导致一些错误的决策。这个结果可能比不吃早饭会带来什么后果要严重的多。幸运的是避免这种错误也很简单。公司、研究人员和政府当然可以使用预测分析来做一些决策,例如那些不吃早餐萎靡不振的患者,医疗服务提供者可以考虑附加的诊断或预防措施。但是我们必须要避免给我们的直觉太多信任,还需要理解对预测的根本原因,需要进一步分析。
未经允许不得转载:武大金融网 » 相关关系并不意味因果关系 大数据应避免大混乱