CHARLS 抽样以保证样本的无偏和代表性为宗旨,通过四个阶段,分别在县(区)-村(居)-家户-个人层面上进行抽样。具体而言,在县(区)-村(居)两级抽样中,CHARLS均采用按人口规模成比例的概率抽样,简称为PPS抽样(probabilities proportional to size)。在县级抽样阶段,按照PPS方法,以每个区县2009年人口数量为基础,使用地区、城乡和GDP为分层指标,直接从全国30个省级行政单位(不包括西藏自治区、台湾省以及香港和澳门特别行政区)范围内随机抽取150个区县;在村级抽样阶段,按照PPS方法,以每个村或社区2009年常住人口为基础,从上述150个区县中各随机抽取3个村或社区,最后得到450个村/社区。以上抽样过程均在STATA软件环境中进行,不允许换样本。
为了避免人口信息的偏差,抽样时我们对450个村级单位的2009年常住人口数据与2007年数据进行了比对。对于两年人口数据差别超过一定限度的村或社区,向统计局进行了核实。同时,对于抽中的村或社区,通过中国疾控中心发文到全国进行核实,进一步保证了抽样的质量。
在村/社区抽样完成后,为得到准确的家户样本抽样框,中国健康与养老追踪调查项目设计并开发了专用的绘图软件(简称CHARLS-GIS)以进行实地绘图并搜集住户信息。该软件利用清晰的Google Earth影像图或者其它途径的图片作为底图。在实地工作中,绘图员首先携带GPS在村的边界外走一圈来确定样本村/居委会的边界;其次,根据实地情况依次在底图上勾画建筑物,导入建筑物GPS位置并进行拍照;之后,填写建筑物内住户信息列表。在绘图和列表工作完成后,CHARLS北京总部与每个村(居)联络人联系,并对以下三方面进行审核:(1)边界是否准确;(2)是否所有建筑物都包括在内;(3)住户列表是否准确(通过随机抽取住户核对他们的地址进行)。
通过审核后,从每个样本村/居委会的所有住户信息列表中随机抽取80户样本家户,并对这80户进行入户询问、核实家里最长家户成员的年龄、户主的姓名、联系方式、家户状态(是否空户、无法联系)。之后,根据2008年CHARLS甘肃和浙江试调查的拒访率,按照每个村(居)24户有效家户估算需要抽中的样本户数量并在80户内进行相应数量的样本抽取。最终在450个村、居抽取的样本户为23590户。抽样完成后,抽中的住户会在地图上自动显示,绘图员会重新访问这些户,对住户门口拍照,取GPS位置,送《致居民的一封信》。
在个人层面,我们利用过滤问卷进行调查,在每个样本户中随机选择一位年龄大于45岁的家庭成员作为主要受访者,对他(她)及其配偶进行访问。
最终调查有效样本17587人,具体分布见下面表格(%)。
|
性别 |
户口 |
地域分布 |
年龄分组 |
总计 |
男性 |
女性 |
城镇 |
农村 |
城镇 |
农村 |
50- |
25.77 |
23.42 |
27.91 |
23.79 |
26.56 |
27.35 |
24.18 |
51-55 |
15.49 |
16.00 |
15.02 |
14.06 |
16.07 |
15.11 |
15.87 |
56-60 |
19.00 |
19.32 |
18.69 |
18.68 |
19.12 |
18.65 |
19.34 |
61-65 |
13.88 |
14.78 |
13.07 |
14.13 |
13.78 |
13.19 |
14.58 |
66-70 |
9.62 |
10.20 |
9.08 |
9.82 |
9.53 |
9.02 |
10.21 |
71-75 |
7.17 |
7.84 |
6.56 |
9.51 |
6.23 |
7.64 |
6.70 |
76-80 |
4.67 |
4.73 |
4.61 |
5.32 |
4.40 |
4.60 |
4.73 |
80+ |
4.41 |
3.71 |
5.05 |
4.69 |
4.30 |
4.44 |
4.38 |
总计(人) |
17,587 |
8,436 |
9,151 |
3,872 |
13,715 |
7,106 |
10,481 |
数据不包括缺失年龄、性别以及户口等信息的受访者