中国农民工的职业选择、职业流动与工资决定机制研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第三节 研究方法与数据来源

一、研究方法

本书所采用的研究方法包括文献研究法、抽样调查法和实证研究法。其中,在实证研究法中我们构造了基于样本自选择偏差校正的农民工职业选择和工资决定模型,以及农民工的职业上升机制模型、工作搜寻模型和工资差距分解模型。

(一)文献研究法

就中文文献而言,我们从中国知网、维普网、万方、优秀博士论文库等多种学术期刊数据库收集了300余篇关于农民工职业选择、职业流动和职业上升、工资决定和工资差距的实证研究文献,对其进行分类整理和综述。就外文文献而言,我们基于EBSCO、Elsevier、JSTOR、Emerald等国际权威的外文文献数据库,对移民经济学、职业选择理论、职业流动理论、工作搜寻理论、工资差距理论等基础理论进行了集中整理,并对国外关于移民职业选择和流动,以及移民的工资决定等领域的实证研究进行了总结和评述。这些理论和实证研究层面的回顾,为本书的实证模型构建、抽样策略、结论解释和讨论奠定了重要的理论和文献基础。

(二)抽样调查法

由于农民工在空间和时间上分布的复杂性,现实中农民工的抽样调查面临先天性的困难。作为常见的抽样策略,流入地抽样和流出地抽样在操作的可行性、所收集数据的全面准确性、样本的代表性等方面各有利弊,适用的研究主题也不尽相同。为了综合利用两种抽样策略的优势,提升农民工实证研究的科学性,本书分别开展了在典型的农民工流出地和流入地的抽样调查。其中,在流出地,我们选取了代表农民工典型流出地的陕西省和甘肃省,并采用了严格的分层随机抽样方法。在具体的样本省份内,采用经济发展水平、地理位置、市场机会、农民人均纯收入等指标分层抽取相应的县、乡、村。在具体的样本村内部,则采用随机等距抽样抽取具体的农户样本。在流入地,我们选择了代表农民工典型输入地的北京和苏州,在区域内采取配额抽样法,根据样本区域在农民工的空间分布、行业分布以及研究目标进行配额抽样。详细的抽样策略和调查方案见本章第四节。

(三)实证研究法

本书重点采用的计量经济模型是基于样本自选择校正的职业选择和收入决定模型。此外,我们还针对具体研究目标,开发了农民工职业上升机制模型、工作搜寻模型和工资差距分解模型。

职业选择模型的基础是理性职业选择理论,即个体在进行职业选择时,会比较从他一生周期来看各种可能的职业选择所带来的效用的折现值,并最终选择那种能使他一生效用最大化的职业(Barkley, 1990;Boskin, 1974)。在具体的实证分析中,我们采用了Greene(2007)所提到的职业选择的多元逻辑回归模型(Multinominal Logit Model),考察了农民工在管理和技术人员、办事人员、技术型工人等七类细分职业之间的决策机制。工资决定方程是贯穿本研究的另一个主要实证模型。在经典的明瑟收入方程(Mincer, 1974)的基础上,结合中国劳动力市场转型和农民工迁移的特殊性,我们对明瑟收入方程进行了扩展,除教育、培训、语言等人力资本之外,同时还考察了社会资本、政治资本、家庭特征和地域特征对农民工收入的影响。在应用上述模型比较本地农民工与外地农民工之间的职业选择机制,以及分析参加技能培训的收入效应时,我们采用了Heckman两阶段法(Heckman, 1979)对样本自选择偏差问题进行了校正,以控制农民工群体内部不可观测力的差异对职业选择机制和工资决定机制的干扰。农民工在劳动力市场上通常会面临较频繁的职业流动,但是,究竟是否可以通过职业流动实现职业社会经济地位的上升,研究界存在较大争议。在职业选择模型的基础上,本研究以农民工当前职业类型与上一份职业类型经济地位的变化来衡量其职业流动方向,进而采用职业流动方向的二元选择模型来考察农民工职业上升的主要影响因素,重点检验过去三年的职业流动频次对职业上升的影响。

针对农民工在劳动力市场上的工作搜寻行为,本书重点讨论了农民工工作搜寻渠道对工作搜寻时间影响。由于样本数据包含正处于工作搜寻阶段的农民工,我们采用了持续时间模型(也称“Cox比例风险模型”),以最大限度地降低样本选择性偏差。其中,工作搜寻时间是求职者从开始寻找工作直到成功获得工作所花费的时间,它可以作为农民工工作搜寻效率的代理变量。一般来说,农民工的工作搜寻时间越短,表明该农民工工作搜寻效率越高。

为了解释农民工内部日益凸显的工资差距现象和背后的成因,我们分别采用了基于工资均值的Blinder-Oaxaca分解法,以及基于无条件分位数回归的Melly分解法(Melly, 2005)和FFL分解法(Firpo et al.,2009)。工资的均值分解法通常将工资的均值差异分解成两部分:特征差异和系数差异。特征差异是指由个体特征的不同而导致的工资差异,也称为工资差异中的可解释部分。系数差异是指由于个体特征回报率的不同而引起的工资差异,也被称为工资差异中的不可解释部分。但工资均值分解无法观测到在工资分布的不同区间上工资差距和形成机制的变化。由于农民工群体内部异质性的增强,工资差异的大小和成因在工资分布的不同区间可能是不同的。因此,我们在分析自雇与受雇农民工的工资差异,以及工会与非工会会员之间的工资差异时,分别采用了Melly分解和FFL分解。前者在充分考虑异方差问题的基础上,将不同分位数上的工资差别分解为:特征差异、中位系数差异和残差差异。后者则将工资差异分解为特征差异、系数差异和前两项的交互效应,并估计出各解释变量对特征效应和系数效应的贡献。

二、数据来源

(一)全国层面的监测和抽样调查数据

在全国观层面,数据主要来源于国家统计局(2009—2019年)《农民工监测调查报告》、《中国统计年鉴》、人力资源和社会保障部《人力资源和社会保障事业发展统计公报》,以及中国家庭收入调查数据(CHIP)、中国健康与营养调查数据(CHNS)和中国劳动力动态调查数据(CLDS)。

1.全国农民工监测调查数据

为准确反映全国农民工规模、流向、分布、就业、收支、生活和社会保障等情况,国家统计局自2008年建立了农民工监测调查制度,在农民工输出地开展监测调查。调查范围是全国31个省(自治区、直辖市)的农村地域,在1527个调查县(区)抽选了8930个村和23.5万名农村劳动力作为调查样本。调查采用入户访问调查的形式,按季度进行调查。本书使用了国家统计局公布的2009年、2011年、2012年、2013年、2014年、2015年、2016年、2017年和2018年的农民工监测调查报告数据。

2.中国家庭收入调查数据

为了追踪中国收入分配的动态情况,中国家庭收入调查(Chinese Household Income Project Survey,CHIP)收集了1988年、1995年、1999年、2002年、2007年、2018年和2013年的收支信息,以及其他家庭和个人信息。每年的调查包含三个子样本:农村住户样本、农村—城镇流动人口样本、城镇住户样本,其中流动人口样本由调查课题组完成,样本来自课题组自行设计的抽样框,涉及了出现在城镇和农村调查中的9个省份15个城市。需要注意的是,在CHIP的调查问卷中,外出农民工和本地农民工的划分标准是“本市(县城)农民工户口”和“外地农业户口”,这与国家统计局的划分方式有所不同。

3.中国健康与营养调查数据

中国健康与营养调查(China Health and Nutrition Survey,CHNS)是由北卡罗来纳大学人口研究中心、美国国家营养与食物安全研究所和中国疾病与预防控制中心合作开展的调查项目。该项目旨在调查政府实施的健康、营养和计划生育政策和方案的效果,以及研究中国社会和经济转型对人口健康和营养状况的影响。目前已收集了1989年、1991年、1993年、1997年、2000年、2004年、2006年、2009年、2011年和2015年的追踪调查数据。本书筛选出户籍为农村且从事非农业、非个体商工作的样本,通过分析个人特征、就业区域、就业部门、职业类型和收入状况数据,得出农民工的职业获得状况、职业工资差异状况及差异的决定因素。

4.中国劳动力动态调查数据

中国劳动力动态调查(China Labor-force Dynamics Survey,CLDS)由中山大学社会科学调查中心负责进行,聚焦中国劳动力的现状与变迁,涵盖教育、工作、迁移、健康、社会参与、经济活动、基层组织等研究问题。本书根据户口性质、从事行业、就业状况辨别出符合条件的农民工样本,对农民工自雇群体和受雇群体的人口特征、就业状况及工资收入进行了描述统计,并重点对自雇群体和受雇群体之间的工资差异及其影响因素进行了实证分析。

(二)重点区域的抽样调查数据

2010—2015年,我们的项目团队分别采用输出地抽样和输入地抽样策略,收集了陕西、甘肃、北京和苏州四地的微观农民工调查数据。具体包括:2010年陕西省农户入户调查数据(有效样本为365户)、2012年甘肃省入户调查数据(有效样本为358户)、2013年北京市农民工就业和收入调查数据(有效样本为614人)、2015年苏州市农民工就业和社会融入调查数据(有效样本为1371人)。这些数据包括农民工个人基本情况、职业和收入的现状和历史变动、技能与培训状况。作为输出地的数据,还收集了样本家庭成员的就业和收入、家庭经济状况、所在村的经济社会发展状况等数据;作为输入地的数据,我们还重点收集了样本所在企业规模、行业、所有制性质、工资福利制度、工会建设等方面的数据,为顺利开展本书的主要研究内容、实现研究目标,提供了充分、可靠的数据支持。