莫再提了!啤酒尿布是都市传说

作者: 时间:2020-08-02 分类:技节科技 评论:74 条 浏览:739

莫再提了!啤酒尿布是都市传说
台湾某知名超市,啤酒旁边很直觉的放了零食。那尿布旁放什幺呢?文末解答。

资料分析领域流传这幺一则故事:

莫再提了!啤酒尿布是都市传说
Google 第一页没有一篇文章告诉你正确资讯

这个故事常被引用来强调资料分析的价值。但事实上源头难以考究, Google 也只会告诉你各种版本的都市传说。

但若用英文「beer diapers」搜索,第一页前几篇文章会告诉你这个故事不太可靠。

所以这故事是假的?

是,也不是。

2002 年, 北爱荷华大学教授 Daniel J. Power 做了一份 考察 ,如果读者英文还行,建议直接看原文。提到啤酒尿布的英文文章大多会附上这份考察连结。

在该文中,作者描述当时他也听过一个版本的故事,并且偶尔会转述给其他人听。在 2002 年七月,他看了一份 Teradata 欢庆啤酒尿布研究 10 週年的网路直播录影。

在录影中 Thomas Blischok 讲述他在 1992 年协助 Osco Drug 做资料探勘的专案,分析代表 25 家门市,120 万笔购物车结帐记录。 Blischok 宣称,团队的确发现在下午五点到七点间,消费者会买啤酒与尿布。这样的洞见在当时确实是外星科技,但他说这个关联性并非最具革命性的改变。当时 Osco 的管理团队学到,以消费者偏好为核心去设计店面是可行的。结果是, Osco 并没有为啤酒与尿布的关联性做任何事情。

然而,并非所有人都同意 Blischok 的说法。

1998 年末 John Earle 在部落格提到,他曾在 Teradata 工作并参与 Osco 的专案,寻找交易记录的近似性。团队建议试着移动商品在店里的位置来实验看看移动会不会影响近似性。但团队「英勇」的领导 Blischok 在媒体上发表时并没有区分假设与真实实验结果。 Earle 表示,团队必须兜售他们开发的系统的价值,有时,事实和都市传说的界线会很模糊。

在 2000 年, HP 实验室的 Tom Fawcett 在知名资料探勘新闻网 KDnuggets 发了篇 文章 ,从第三手转信中揭露更多。信中记载,Blischok 带着半打当时很潮的 SQL 高手,试着用 SQL 查询从资料中找出近似商品。他们找到了「化妆品与贺卡」关係以及其他关係。由于 Blischok 在之后想说服商家储存商家自己的交易资料,以利后续分析,因此他需要一个够噱头的例子。于是 Blischok 发明了「啤酒与尿布」这个说法。 Power 表示,就他所知, Blischok 团队所分析的资料从来没有支持过该说法。

同年, Ronny Kohavi 也在 KDnuggets 发文 ,他找到 Blischok 团队中跑 SQL 查询的 K. Heath 。 K. Heath 在 1990 年跑 SQL self join ,尝试任两组有包含婴儿用品的商品集,看看是否有明显获利。在 50 分店,一天的资料,他发现啤酒与尿布的规律。 K. Heath 表示,这规律很有趣 但并不显着 。

Power 总结,在 1992 年 Teradata 零售顾问团队经理 Thomas Blischok 与他的同事们分析 Osco Drug 25 店家、 120 万笔结帐资料。分析结果「的确」发现「五点到七点消费者买啤酒与尿布」,但 Osco 管理阶层并未使用啤酒尿布关係来移动商品。这个分析也只是用 SQL 查询指令来找关联性。就 Power 的说法,真实故事比起传说十分枯燥乏味。

结论

在 Tom Fawcett 的文章中,引述 Mark Twain 的「Never let truth get
in the way of a good story.」,意为别让真相坏了一则好故事。

这句话也许对小说家是成立,但对做教育、做商业、做工程的人来说,故事得要有凭有据才有参考价值。

但人类总是要进步的,吹梦也得推陈出新。在 2016 年我们有不少公司,在资料分析与应用有太多辉煌事蹟能讲。爷爷时代不明不白的轶事也该随风而去了。

莫再提了!啤酒尿布是都市传说
答案揭晓:放洗手乳
参考资料

相关推荐