报告人:房祥忠 教授 (北京大学太平洋在线会员登录)
时间:2016年11月28日(周一)上午9:30开始
【摘要】在调查一个群体的收入时, 很多时候会出现被调查者拒绝回答或者回答不真实的情况. 这一现象在收入过高或者过低这两个极端情况时越发明显. 对于数据不完整的情况, 从已有的文献看来, 通常的做法是将问题假设为数据是左截断右删失模型. 对其处理的基本思路是借用生存分析中的PL估计等方法, 先估计出分布函数F, 然后利用分布 函数和Lorenz曲线之间的关系估计出Lorenz曲线. 而本报告处理数据缺失的情形, 这样做可以符合调查实际更多情况. 直观上, 我们可以想象, 这样的调查结果是有偏差的. 由于缺失了高收入或低收入者的回答, 这样的偏差会导致对个体间收入差距的估计偏小, 反映到对基尼系数的影响时就体现为单纯依据样本计算出的基尼系数会比真实的基尼系数偏小. 因此, 仅仅是使用那些回答者的样本是不够的, 我们需要再加上缺失机制等信息, 尽可能地将原始的情况恢复出来. 假定数据缺失机制与收入水平有关, 即假定不回答的概率与被调查者的收入有关. 在几种不同的收入分布模型和缺失机制下研究了基尼系数的估计问题. 模拟研究表明在假定了缺失机制下对基尼系数的估计更加准确。 另外,如果通过某种方式已知基尼系数的真实值或者范围,利用现有数据我 们可以估计出缺失机制,从而可以恢复出真实的收入分布。