欢迎 数据用户登录   数据用户注册 | English
位置: 首页 > 关于 > 样本介绍

样本介绍

浙江、甘肃两省试调查及追访调查抽样介绍

2008预调查抽样介绍

CHARLS预调查抽样程序:县级单位的选取是按区域以及城乡分层,然后依照PPS(Probability Proportional to Size)方法随机选取的。在每个县级单位中,CHARLS再依照PPS方法随机抽取3个村级单位(或是一个城镇社区),在每一个村或社区中,再从地图上随机抽取25-36处住所;然后决定每个住所中家庭户的样本个数。CHARLS随机选取其中一个符合年龄条件的家庭,然后确定该家庭中符合年龄条件的家庭成员个数并随机抽取一人作为主要受访者。基于这样的随机抽样过程,每个村或社区会产生25-36个样本家庭,每户家庭产生的受访者有1名(单身、离婚或丧偶)或2名(主要受访者及其配偶)。

CHARLS预调查样本规模:

CHARLS预调查的样本是浙江和甘肃两省45岁及以上的人,共有来自1570个家庭的2685人,他们代表了城乡,分布涵盖样本各年龄阶段。

年龄段 男性 女性 合计
50及以下 192 344 536
50~59 492 485 977
60~69 348 318 666
70~79 212 180 392
80及以上 56 54 110
合计 1302 1383 2685

2012追踪调查样本介绍

样本规模:

2012年对浙江和甘肃两省45岁及以上的老年人进行了追踪预调查。在1554户样本中有2385个被访者包含了性别、城乡差别等信息,并且覆盖了所有的样本年龄组。

年龄分组 总计 男性 女性 男性所占比率

频数 频率% 频数 频率% 频数 频率%
<45 27 1.13 3 0.26 24 1.94 11.11
45-49 190 7.97 43 3.76 147 11.85 22.63
50-54 359 15.05 164 14.32 195 15.73 45.68
55-59 467 19.58 242 21.14 225 18.15 51.82
60-64 433 18.16 220 19.21 213 17.18 50.81
65-69 346 14.51 172 15.02 174 14.03 49.71
70-74 234 9.81 131 11.44 103 8.31 55.98
75-79 185 7.76 99 8.65 86 6.94 53.51
80+ 144 6.04 71 6.20 73 5.89 49.31
总计 2385 100.00 1145 100.00 1240 100.00 48.01



全国基线调查及追踪调查样本抽样介绍

CHARLS 抽样以保证样本的无偏和代表性为宗旨,通过四个阶段,分别在县(区)-村(居)-家户-个人层面上进行抽样。具体而言,在县(区)-村(居)两级抽样中,CHARLS均采用按人口规模成比例的概率抽样,简称为PPS抽样(probabilities proportional to size)。在县级抽样阶段,按照PPS方法,以每个区县2009年人口数量为基础,使用地区、城乡和GDP为分层指标,直接从全国30个省级行政单位(不包括西藏自治区、台湾省以及香港和澳门特别行政区)范围内随机抽取150个区县;在村级抽样阶段,按照PPS方法,以每个村或社区2009年常住人口为基础,从上述150个区县中各随机抽取3个村或社区,最后得到450个村/社区。以上抽样过程均在STATA软件环境中进行,不允许换样本。
为了避免人口信息的偏差,抽样时我们对450个村级单位的2009年常住人口数据与2007年数据进行了比对。对于两年人口数据差别超过一定限度的村或社区,向统计局进行了核实。同时,对于抽中的村或社区,通过中国疾控中心发文到全国进行核实,进一步保证了抽样的质量。

在村/社区抽样完成后,为得到准确的家户样本抽样框,中国健康与养老追踪调查项目设计并开发了专用的绘图软件(简称CHARLS-GIS)以进行实地绘图并搜集住户信息。该软件利用清晰的Google Earth影像图或者其它途径的图片作为底图。在实地工作中,绘图员首先携带GPS在村的边界外走一圈来确定样本村/居委会的边界;其次,根据实地情况依次在底图上勾画建筑物,导入建筑物GPS位置并进行拍照;之后,填写建筑物内住户信息列表。在绘图和列表工作完成后,CHARLS北京总部与每个村(居)联络人联系,并对以下三方面进行审核:(1)边界是否准确;(2)是否所有建筑物都包括在内;(3)住户列表是否准确(通过随机抽取住户核对他们的地址进行)。

通过审核后,从每个样本村/居委会的所有住户信息列表中随机抽取80户样本家户,并对这80户进行入户询问、核实家里最长家户成员的年龄、户主的姓名、联系方式、家户状态(是否空户、无法联系)。之后,根据2008年CHARLS甘肃和浙江试调查的拒访率,按照每个村(居)24户有效家户估算需要抽中的样本户数量并在80户内进行相应数量的样本抽取。最终在450个村、居抽取的样本户为23590户。抽样完成后,抽中的住户会在地图上自动显示,绘图员会重新访问这些户,对住户门口拍照,取GPS位置,送《致居民的一封信》。

在个人层面,我们利用过滤问卷进行调查,在每个样本户中随机选择一位年龄大于45岁的家庭成员作为主要受访者,对他(她)及其配偶进行访问。

最终调查有效样本17587人,具体分布见下面表格(%)。


性别 户口 地域分布
年龄分组 总计 男性 女性 城镇 农村 城镇 农村
50- 25.77 23.42 27.91 23.79 26.56 27.35 24.18
51-55 15.49 16.00 15.02 14.06 16.07 15.11 15.87
56-60 19.00 19.32 18.69 18.68 19.12 18.65 19.34
61-65 13.88 14.78 13.07 14.13 13.78 13.19 14.58
66-70 9.62 10.20 9.08 9.82 9.53 9.02 10.21
71-75 7.17 7.84 6.56 9.51 6.23 7.64 6.70
76-80 4.67 4.73 4.61 5.32 4.40 4.60 4.73
80+ 4.41 3.71 5.05 4.69 4.30 4.44 4.38
总计(人) 17,587 8,436 9,151 3,872 13,715 7,106 10,481

数据不包括缺失年龄、性别以及户口等信息的受访者



English | 2019-09-16
北京大学  |  NIA  |  NSFC  |  国家发展研究院  |  中国社会科学调查中心  |  北京大学开放研究数据平台