财新传媒
位置:博客 > 王兰 > 比数据更糟糕的是方法

比数据更糟糕的是方法

近日,国家统计局发布的一组数据引起争议,为免歧义,特引用国家统计局2018.6.27新闻稿:1-5月份,全国规模以上工业企业实现利润总额27298.3亿元,同比增长16.5%,增速比1-4月份加快1.5个百分点。争议在于,国家统计局在2017年6月27日发布的数据显示,2017年前5个月,规上工业企业实现利润总额29047.6亿元,同比增长22.7%。27298.3比29047.6下降-6.0%,-6.0%或+16.5%?为此国家统计局新闻发言人数次接受采访,依据其说明大致还原如下:
                                  
国家统计局说明:所指“规模以上工业企业”,主要指年主营业务收入在2000万元以上的工业企业。也就是说,统计部门在统计规模以上工业企业利润时,只把年主营业务收入2000万元以上的工业企业纳入样本库,其余企业则被排除在样本库之外。计算“可比口径的增长率”,是把今年的样本数据,与今年样本的上年数据相比较,得出“可比口径的增长率”。
 
表面似乎解释了为什么不是-6.0%而是+16.5%,但暴露的统计方法可能更糟糕。其同比数据是以第N年为基础去比较(N-1)年的,可能的演变情况如下表:
简言之,除正常外,剔除了降级样本,纳入了升级样本,第N年的统计结果(N/(N-1))一定优于“现实”,这种偏差是系统性的,没法通过跨年度“差分”将其消除,每个统计基准年都存在偏大。
 
糟糕的方法比糟糕的数据更麻烦,经济社会领域,“绝对准确”的数据可能压根就不存在,但人为的偏差还是力求避免,因为它可能带来混淆乃至误判。
推荐 6