Khai thác dữ liệu khảo sát mức sống hộ gia đình Việt Nam (VHLSS) để làm đề tài nghiên cứu – sử dụng phần mềm Stata

Đểcung cấp thông tin vềmức sống dân cưphục vụviệc xây dựng, đánh giá chính sách Đến nay,

Tổng cục thống kê đã tiến hành 6 cuộc điều tra mức sống lớn với 2 tên gọi khác nhau: khảo sát mức

sống dân cư(1993-1994, 1997-1998); khảo sát mức sống hộgia đình (năm 2002, năm 2004, năm

2006, năm 2008). Có lẽ, khoảng gần 2 năm nữa anh chịmới có được dữliệu VHLSS của năm 2010!

Gần đây nhất là cuộc khảo sát/điều tra mức sống (thường được viết tắt là KSMS) hộgia đình năm

2008. Dữliệu điều tra từcuộc điều tra này được lưu trữtrong bộdữliệu khảo sát mức sống hộgia

đình năm 2008 (thường gọi là VHLSS 2008). Chúng ta có thểkhai thác bộdữliệu này đểlàm đềtài

nghiên cứu/ bài viết chính sách. (Bạn có thểliên hệvới VụXã hội & Môi trường – Tổng cục thống kê

vềvấn đềbản quyền trong việc sửdụng bộdữliệu này, hỏi các thông tin cần thiết )

Đểtìm hiểu chi tiết vềcuộc điều tra này, vềcách chọn mẫu, tổchức điều tra, phiếu điều tra, các khái

niệm , chúng ta cần đọc thêm tài liệu “Sổtay khảo sát mức sống hộgia đình 2008” do Tổng cục

Thống kê biên soạn. Dường như, người phân tích VHLSS nào cũng cần có quyển sổtay này bên cạnh.

Chúng ta tìm hiểu sơlược một sốthông tin chung vềKSMS 2008

pdf52 trang | Chia sẻ: honglan88 | Lượt xem: 1710 | Lượt tải: 0download
Bạn đang xem trước 20 trang mẫu tài liệu Khai thác dữ liệu khảo sát mức sống hộ gia đình Việt Nam (VHLSS) để làm đề tài nghiên cứu – sử dụng phần mềm Stata, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
c kỳ Thu 2010 
8. Trợ giúp
• Stata online:  và rất nhiều trang khác! 
Hình 8.1 
 • Thư viện chương trình FETP 
• Bạn có thể vào Mục Help\Contents của Stata để học tìm hiểu thêm về stata. 
Nguyễn Khánh Duy, email: khanhduy@ueh.edu.vn Ghi chú bài giảng 25
Chương trình giảng dạy Kinh tế Fulbright Lớp MPP3 – học kỳ Thu 2010 
Hình 8.2 
 • Có thể tra cứu từng câu lệnh bằng cách Help\Command 
Hình 8.3 
 • Các Sách, tài liệu, bài giảng  mà giảng viên giới thiệu bạn 
• Trao đổi với các chuyên gia trên diễn đàn thông tin phát triển Việt Nam:  
• Và Google! 
Nguyễn Khánh Duy, email: khanhduy@ueh.edu.vn Ghi chú bài giảng 26
Chương trình giảng dạy Kinh tế Fulbright Lớp MPP3 – học kỳ Thu 2010 
Phô lôc 1. 
Håi quy – nh÷ng c©u lÖnh c¬ b¶n trªn Stata 
Sö dông file muc1234a_hhexpe08.dta mμ b¹n ®· t¹o ra ®Ó thùc hiÖn c¸c 
c«ng viÖc(nèi c¸c file muc123a.dta, muc4a.dta vμ hhexpe08.dta) 
1. ChuÈn bÞ d÷ liÖu 
. egen chigd=rowtotal( m2ac13k m2ac16) 
. gen gioi= m1ac2 
. replace gioi=0 if m1ac2==2 
(17952 real changes made) 
. gen tuoi= m1ac5 
. gen tuoibp= tuoi^2 
. gen thanhthi= urban08 
. recode thanhthi 2 =0 
(thanhthi: 26301 changes made) 
. tab reg8, gen(vung) 
 reg8 | Freq. Percent Cum. 
------------+----------------------------------- 
 1 | 6,812 19.38 19.38 
 2 | 5,036 14.33 33.70 
 3 | 1,891 5.38 39.08 
 4 | 3,802 10.82 49.90 
 5 | 3,304 9.40 59.30 
 6 | 2,500 7.11 66.41 
 7 | 4,714 13.41 79.82 
 8 | 7,095 20.18 100.00 
------------+----------------------------------- 
 Total | 35,154 100.00 
C©u 9. Thùc hiÖn hμm håi quy 
2. TÝnh hÖ sè t−¬ng quan 
. pwcorr chigd tuoi hhsize, sig 
 | chigd tuoi hhsize 
-------------+--------------------------- 
 chigd | 1.0000 
 | 
 | 
 tuoi | -0.2393 1.0000 
 | 0.0000 
 | 
 hhsize | -0.0177 -0.1926 1.0000 
 | 0.0009 0.0000 
Nguyễn Khánh Duy, email: khanhduy@ueh.edu.vn Ghi chú bài giảng 27
Chương trình giảng dạy Kinh tế Fulbright Lớp MPP3 – học kỳ Thu 2010 
3. VÏ ®å thÞ Scatter 
scatter chigd tuoi 
graph matrix chigd tuoi hhsize, half 
4. ¦íc l−îng hμm håi quy 
reg chigd gioi tuoi tuoibp thanhthi vung1 vung2 vung3 vung4 vung5 vung7 vung8 
hhsize if m2ac5<= 2 
M« h×nh 1 
 Source | SS df MS Number of obs = 9019 
-------------+------------------------------ F( 12, 9006) = 282.73 
 Model | 2.0005e+10 12 1.6671e+09 Prob > F = 0.0000 
 Residual | 5.3103e+10 9006 5896435.89 R-squared = 0.2736 
-------------+------------------------------ Adj R-squared = 0.2727 
 Total | 7.3109e+10 9018 8106973.15 Root MSE = 2428.3 
------------------------------------------------------------------------------ 
 chigd | Coef. Std. Err. t P>|t| [95% Conf. Interval] 
-------------+---------------------------------------------------------------- 
 gioi | 52.54772 51.30177 1.02 0.306 -48.01542 153.1109 
 tuoi | 347.9577 15.20595 22.88 0.000 318.1506 377.7648 
 tuoibp | -3.115513 .4194744 -7.43 0.000 -3.937779 -2.293248 
 thanhthi | 1081.325 61.32333 17.63 0.000 961.1169 1201.532 
 vung1 | 163.8409 104.2717 1.57 0.116 -40.55528 368.237 
 vung2 | -273.0126 110.2669 -2.48 0.013 -489.1608 -56.86438 
 vung3 | -655.3806 137.272 -4.77 0.000 -924.4648 -386.2963 
 vung4 | -30.02082 110.9621 -0.27 0.787 -247.5317 187.49 
 vung5 | 77.38069 115.4724 0.67 0.503 -148.9715 303.7329 
 vung7 | 958.442 111.6069 8.59 0.000 739.6671 1177.217 
Nguyễn Khánh Duy, email: khanhduy@ueh.edu.vn Ghi chú bài giảng 28
Chương trình giảng dạy Kinh tế Fulbright Lớp MPP3 – học kỳ Thu 2010 
 vung8 | 21.29995 107.4682 0.20 0.843 -189.3622 231.9621 
 hhsize | -76.84445 17.67135 -4.35 0.000 -111.4843 -42.20459 
 _cons | -2364.973 185.9853 -12.72 0.000 -2729.547 -2000.4 
------------------------------------------------------------------------------ 
4. KiÓm ®Þnh Wald 
Cã ng−êi cho r»ng quy m« hé (hhsize) vμ thanhthi ®Òu kh«ng ¶nh h−ëng ®Õn chigd. 
Theo b¹n, ®iÒu ®ã lμ ®óng hay sai 
. test thanhthi= hhsize=0 
 ( 1) thanhthi - hhsize = 0 
 ( 2) thanhthi = 0 
 F( 2, 9006) = 174.06 
 Prob > F = 0.0000 
5. KiÓm ®Þnh hiÖn t−îng ®a céng tuyÕn 
B¹n h·y kiÓm ®Þnh xem m« h×nh 1 cã bÞ vi ph¹m hiÖn t−îng ®a céng tuyÕn? 
Sau khi −íc l−îng m« h×nh, b¹n h·y gâ lÖnh VIF 
. vif 
 Variable | VIF 1/VIF 
-------------+---------------------- 
 tuoi | 9.20 0.108700 
 tuoibp | 9.18 0.108991 
 vung1 | 2.62 0.382354 
 vung8 | 2.30 0.435498 
 vung2 | 2.19 0.456844 
 vung4 | 2.13 0.468623 
 vung7 | 2.13 0.469353 
 vung5 | 1.97 0.508528 
 vung3 | 1.53 0.653950 
 hhsize | 1.08 0.926313 
 thanhthi | 1.07 0.931843 
 gioi | 1.01 0.994199 
-------------+---------------------- 
 Mean VIF | 3.03 
6. KiÓm ®Þnh hiÖn t−îng ph−¬ng sai thay ®æi 
H·y kiÓm ®Þnh xem m« h×nh 1 cã bÞ vi ph¹m hiÖn t−îng ph−¬ng sai thay ®æi? 
. hettest 
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity 
 Ho: Constant variance 
 Variables: fitted values of chigd 
 chi2(1) = 6006.98 
 Prob > chi2 = 0.0000 
. imtest 
Cameron & Trivedi's decomposition of IM-test 
--------------------------------------------------- 
 Source | chi2 df p 
---------------------+----------------------------- 
 Heteroskedasticity | 393.87 59 0.0000 
 Skewness | 104.13 12 0.0000 
 Kurtosis | 13.30 1 0.0003 
---------------------+----------------------------- 
 Total | 511.31 72 0.0000 
--------------------------------------------------- 
Nguyễn Khánh Duy, email: khanhduy@ueh.edu.vn Ghi chú bài giảng 29
Chương trình giảng dạy Kinh tế Fulbright Lớp MPP3 – học kỳ Thu 2010 
7. Sö dông option robust sau lÖnh reg ®Ó kh¾c phôc hiÖn t−îng ph−¬ng sai thay ®æi 
H·y −íc l−îng l¹i m« h×nh 1 mμ cã thÓ kh¾c phôc hiÖn t−îng ph−¬ng sai thay ®æi 
reg chigd gioi tuoi tuoibp thanhthi vung1 vung2 vung3 vung4 vung5 vung7 vung8 
hhsize if m2ac5<= 2, robust 
Linear regression Number of obs = 9019 
 F( 12, 9006) = 185.08 
 Prob > F = 0.0000 
 R-squared = 0.2736 
 Root MSE = 2428.3 
------------------------------------------------------------------------------ 
 | Robust 
 chigd | Coef. Std. Err. t P>|t| [95% Conf. Interval] 
-------------+---------------------------------------------------------------- 
 gioi | 52.54772 51.17439 1.03 0.305 -47.76572 152.8612 
 tuoi | 347.9577 21.66313 16.06 0.000 305.493 390.4224 
 tuoibp | -3.115513 .682129 -4.57 0.000 -4.452641 -1.778385 
 thanhthi | 1081.325 74.50076 14.51 0.000 935.2862 1227.363 
 vung1 | 163.8409 87.9385 1.86 0.062 -8.53859 336.2203 
 vung2 | -273.0126 87.90441 -3.11 0.002 -445.3252 -100.7 
 vung3 | -655.3806 92.42965 -7.09 0.000 -836.5637 -474.1974 
 vung4 | -30.02082 89.04394 -0.34 0.736 -204.5672 144.5256 
 vung5 | 77.38069 100.2281 0.77 0.440 -119.0891 273.8505 
 vung7 | 958.442 143.1455 6.70 0.000 677.8443 1239.04 
 vung8 | 21.29995 102.6027 0.21 0.836 -179.8247 222.4246 
 hhsize | -76.84445 15.91004 -4.83 0.000 -108.0317 -45.65715 
 _cons | -2364.973 202.2426 -11.69 0.000 -2761.415 -1968.532 
------------------------------------------------------------------------------ 
8. L−u l¹i phÇn d− cña m« h×nh vμ kiÓm ®Þnh tÝnh ph©n phèi chuÈn cña sai sè 
L−u l¹i phÇn d− trong biÕn r, vÏ ®å thÞ ph©n phèi cña phÇn d−, tÝnh thèng kª 
skewness vμ kurtosis cho biÕn r 
. predict r, resid 
. histogram r, normal 
(bin=45, start=-9364.6592, width=1145.6248) 
. tabstat r,stat(skewness kurtosis) 
 variable | skewness kurtosis 
-------------+-------------------- 
 r | 1.68251 13.18075 
---------------------------------- 
Nguyễn Khánh Duy, email: khanhduy@ueh.edu.vn Ghi chú bài giảng 30
Chương trình giảng dạy Kinh tế Fulbright Lớp MPP3 – học kỳ Thu 2010 
. sktest r 
 Skewness/Kurtosis tests for Normality 
 ------- joint ------ 
 Variable | Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 
-------------+--------------------------------------------------------------- 
 r | 3.5e+04 0.0000 0.0000 . . 
. swilk r 
 Shapiro-Wilk W test for normal data 
 Variable | Obs W V z Prob>z 
-------------+-------------------------------------------------- 
 r | 35154 0.88757 1583.543 20.303 0.00000 
Ghi chó: Sau khi thùc hiÖn håi quy, gâ lÖnh predict tªn_biÕn kÕt hîp víi c¸c 
option sau cã thÓ t¹o ra nh÷ng biÕn míi liªn quan ®Õn m« h×nh: 
§Ó t¹o ra Thªm option sau lÖnh predict 
Gi¸ trÞ dù b¸o cña Y Kh«ng cÇn option 
PhÇn d− resid 
PhÇn d− chuÈn ho¸ rstandard 
PhÇn d− student ho¸ Rstudent 
Leverage Lev hoÆc hat 
Sai sè chuÈn cña phÇn d− Stdr 
Cook’s D Cooksd 
Sai sè chuÈn cña gi¸ trÞ dù b¸o (c¸ biÖt) Stdf 
Sai sè chuÈn cña gi¸ trÞ dù b¸o (trung b×nh) stdp 
Cã thÓ sö dông ®å thÞ p, ®å thÞ q? 
pnorm r 
qnorm r 
Nguyễn Khánh Duy, email: khanhduy@ueh.edu.vn Ghi chú bài giảng 31
Chương trình giảng dạy Kinh tế Fulbright Lớp MPP3 – học kỳ Thu 2010 
9. ¦íc l−îng m« h×nh håi quy – cã sö dông träng sè trong ®iÒu tra VHLSS 
H·y −íc l−îng l¹i m« h×nh trªn, vμ chó ý ®Õn vÊn ®Ò träng sè trong VHLSS 
reg chigd gioi tuoi tuoibp thanhthi vung1 vung2 vung3 vung4 vung5 vung7 vung8 
hhsize if m2ac5<=2 [pw= hhszwt], robust 
(sum of wgt is 9.8756e+07) 
Linear regression Number of obs = 9019 
 F( 12, 9006) = 122.22 
 Prob > F = 0.0000 
 R-squared = 0.2497 
 Root MSE = 2651.2 
------------------------------------------------------------------------------ 
 | Robust 
 chigd | Coef. Std. Err. t P>|t| [95% Conf. Interval] 
-------------+---------------------------------------------------------------- 
 gioi | 35.68653 72.54715 0.49 0.623 -106.5224 177.8955 
 tuoi | 341.5655 29.01901 11.77 0.000 284.6816 398.4493 
 tuoibp | -3.148191 .888906 -3.54 0.000 -4.890649 -1.405733 
 thanhthi | 1245.069 101.016 12.33 0.000 1047.055 1443.084 
 vung1 | 283.2034 90.92591 3.11 0.002 104.968 461.4389 
 vung2 | -202.6547 86.93577 -2.33 0.020 -373.0686 -32.24081 
 vung3 | -488.0537 97.7098 -4.99 0.000 -679.5871 -296.5203 
 vung4 | 132.6486 100.3422 1.32 0.186 -64.04499 329.3422 
 vung5 | 83.13013 94.97234 0.88 0.381 -103.0373 269.2975 
 vung7 | 1290.005 181.5838 7.10 0.000 934.0593 1645.95 
 vung8 | 118.2045 100.7079 

File đính kèm:

  • pdfgiao trinh.pdf