Khai thác dữ liệu khảo sát mức sống hộ gia đình Việt Nam (VHLSS) để làm đề tài nghiên cứu – sử dụng phần mềm Stata
Đểcung cấp thông tin vềmức sống dân cưphục vụviệc xây dựng, đánh giá chính sách Đến nay,
Tổng cục thống kê đã tiến hành 6 cuộc điều tra mức sống lớn với 2 tên gọi khác nhau: khảo sát mức
sống dân cư(1993-1994, 1997-1998); khảo sát mức sống hộgia đình (năm 2002, năm 2004, năm
2006, năm 2008). Có lẽ, khoảng gần 2 năm nữa anh chịmới có được dữliệu VHLSS của năm 2010!
Gần đây nhất là cuộc khảo sát/điều tra mức sống (thường được viết tắt là KSMS) hộgia đình năm
2008. Dữliệu điều tra từcuộc điều tra này được lưu trữtrong bộdữliệu khảo sát mức sống hộgia
đình năm 2008 (thường gọi là VHLSS 2008). Chúng ta có thểkhai thác bộdữliệu này đểlàm đềtài
nghiên cứu/ bài viết chính sách. (Bạn có thểliên hệvới VụXã hội & Môi trường – Tổng cục thống kê
vềvấn đềbản quyền trong việc sửdụng bộdữliệu này, hỏi các thông tin cần thiết )
Đểtìm hiểu chi tiết vềcuộc điều tra này, vềcách chọn mẫu, tổchức điều tra, phiếu điều tra, các khái
niệm , chúng ta cần đọc thêm tài liệu “Sổtay khảo sát mức sống hộgia đình 2008” do Tổng cục
Thống kê biên soạn. Dường như, người phân tích VHLSS nào cũng cần có quyển sổtay này bên cạnh.
Chúng ta tìm hiểu sơlược một sốthông tin chung vềKSMS 2008
c kỳ Thu 2010 8. Trợ giúp • Stata online: và rất nhiều trang khác! Hình 8.1 • Thư viện chương trình FETP • Bạn có thể vào Mục Help\Contents của Stata để học tìm hiểu thêm về stata. Nguyễn Khánh Duy, email: khanhduy@ueh.edu.vn Ghi chú bài giảng 25 Chương trình giảng dạy Kinh tế Fulbright Lớp MPP3 – học kỳ Thu 2010 Hình 8.2 • Có thể tra cứu từng câu lệnh bằng cách Help\Command Hình 8.3 • Các Sách, tài liệu, bài giảng mà giảng viên giới thiệu bạn • Trao đổi với các chuyên gia trên diễn đàn thông tin phát triển Việt Nam: • Và Google! Nguyễn Khánh Duy, email: khanhduy@ueh.edu.vn Ghi chú bài giảng 26 Chương trình giảng dạy Kinh tế Fulbright Lớp MPP3 – học kỳ Thu 2010 Phô lôc 1. Håi quy – nh÷ng c©u lÖnh c¬ b¶n trªn Stata Sö dông file muc1234a_hhexpe08.dta mμ b¹n ®· t¹o ra ®Ó thùc hiÖn c¸c c«ng viÖc(nèi c¸c file muc123a.dta, muc4a.dta vμ hhexpe08.dta) 1. ChuÈn bÞ d÷ liÖu . egen chigd=rowtotal( m2ac13k m2ac16) . gen gioi= m1ac2 . replace gioi=0 if m1ac2==2 (17952 real changes made) . gen tuoi= m1ac5 . gen tuoibp= tuoi^2 . gen thanhthi= urban08 . recode thanhthi 2 =0 (thanhthi: 26301 changes made) . tab reg8, gen(vung) reg8 | Freq. Percent Cum. ------------+----------------------------------- 1 | 6,812 19.38 19.38 2 | 5,036 14.33 33.70 3 | 1,891 5.38 39.08 4 | 3,802 10.82 49.90 5 | 3,304 9.40 59.30 6 | 2,500 7.11 66.41 7 | 4,714 13.41 79.82 8 | 7,095 20.18 100.00 ------------+----------------------------------- Total | 35,154 100.00 C©u 9. Thùc hiÖn hμm håi quy 2. TÝnh hÖ sè t−¬ng quan . pwcorr chigd tuoi hhsize, sig | chigd tuoi hhsize -------------+--------------------------- chigd | 1.0000 | | tuoi | -0.2393 1.0000 | 0.0000 | hhsize | -0.0177 -0.1926 1.0000 | 0.0009 0.0000 Nguyễn Khánh Duy, email: khanhduy@ueh.edu.vn Ghi chú bài giảng 27 Chương trình giảng dạy Kinh tế Fulbright Lớp MPP3 – học kỳ Thu 2010 3. VÏ ®å thÞ Scatter scatter chigd tuoi graph matrix chigd tuoi hhsize, half 4. ¦íc l−îng hμm håi quy reg chigd gioi tuoi tuoibp thanhthi vung1 vung2 vung3 vung4 vung5 vung7 vung8 hhsize if m2ac5<= 2 M« h×nh 1 Source | SS df MS Number of obs = 9019 -------------+------------------------------ F( 12, 9006) = 282.73 Model | 2.0005e+10 12 1.6671e+09 Prob > F = 0.0000 Residual | 5.3103e+10 9006 5896435.89 R-squared = 0.2736 -------------+------------------------------ Adj R-squared = 0.2727 Total | 7.3109e+10 9018 8106973.15 Root MSE = 2428.3 ------------------------------------------------------------------------------ chigd | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- gioi | 52.54772 51.30177 1.02 0.306 -48.01542 153.1109 tuoi | 347.9577 15.20595 22.88 0.000 318.1506 377.7648 tuoibp | -3.115513 .4194744 -7.43 0.000 -3.937779 -2.293248 thanhthi | 1081.325 61.32333 17.63 0.000 961.1169 1201.532 vung1 | 163.8409 104.2717 1.57 0.116 -40.55528 368.237 vung2 | -273.0126 110.2669 -2.48 0.013 -489.1608 -56.86438 vung3 | -655.3806 137.272 -4.77 0.000 -924.4648 -386.2963 vung4 | -30.02082 110.9621 -0.27 0.787 -247.5317 187.49 vung5 | 77.38069 115.4724 0.67 0.503 -148.9715 303.7329 vung7 | 958.442 111.6069 8.59 0.000 739.6671 1177.217 Nguyễn Khánh Duy, email: khanhduy@ueh.edu.vn Ghi chú bài giảng 28 Chương trình giảng dạy Kinh tế Fulbright Lớp MPP3 – học kỳ Thu 2010 vung8 | 21.29995 107.4682 0.20 0.843 -189.3622 231.9621 hhsize | -76.84445 17.67135 -4.35 0.000 -111.4843 -42.20459 _cons | -2364.973 185.9853 -12.72 0.000 -2729.547 -2000.4 ------------------------------------------------------------------------------ 4. KiÓm ®Þnh Wald Cã ng−êi cho r»ng quy m« hé (hhsize) vμ thanhthi ®Òu kh«ng ¶nh h−ëng ®Õn chigd. Theo b¹n, ®iÒu ®ã lμ ®óng hay sai . test thanhthi= hhsize=0 ( 1) thanhthi - hhsize = 0 ( 2) thanhthi = 0 F( 2, 9006) = 174.06 Prob > F = 0.0000 5. KiÓm ®Þnh hiÖn t−îng ®a céng tuyÕn B¹n h·y kiÓm ®Þnh xem m« h×nh 1 cã bÞ vi ph¹m hiÖn t−îng ®a céng tuyÕn? Sau khi −íc l−îng m« h×nh, b¹n h·y gâ lÖnh VIF . vif Variable | VIF 1/VIF -------------+---------------------- tuoi | 9.20 0.108700 tuoibp | 9.18 0.108991 vung1 | 2.62 0.382354 vung8 | 2.30 0.435498 vung2 | 2.19 0.456844 vung4 | 2.13 0.468623 vung7 | 2.13 0.469353 vung5 | 1.97 0.508528 vung3 | 1.53 0.653950 hhsize | 1.08 0.926313 thanhthi | 1.07 0.931843 gioi | 1.01 0.994199 -------------+---------------------- Mean VIF | 3.03 6. KiÓm ®Þnh hiÖn t−îng ph−¬ng sai thay ®æi H·y kiÓm ®Þnh xem m« h×nh 1 cã bÞ vi ph¹m hiÖn t−îng ph−¬ng sai thay ®æi? . hettest Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of chigd chi2(1) = 6006.98 Prob > chi2 = 0.0000 . imtest Cameron & Trivedi's decomposition of IM-test --------------------------------------------------- Source | chi2 df p ---------------------+----------------------------- Heteroskedasticity | 393.87 59 0.0000 Skewness | 104.13 12 0.0000 Kurtosis | 13.30 1 0.0003 ---------------------+----------------------------- Total | 511.31 72 0.0000 --------------------------------------------------- Nguyễn Khánh Duy, email: khanhduy@ueh.edu.vn Ghi chú bài giảng 29 Chương trình giảng dạy Kinh tế Fulbright Lớp MPP3 – học kỳ Thu 2010 7. Sö dông option robust sau lÖnh reg ®Ó kh¾c phôc hiÖn t−îng ph−¬ng sai thay ®æi H·y −íc l−îng l¹i m« h×nh 1 mμ cã thÓ kh¾c phôc hiÖn t−îng ph−¬ng sai thay ®æi reg chigd gioi tuoi tuoibp thanhthi vung1 vung2 vung3 vung4 vung5 vung7 vung8 hhsize if m2ac5<= 2, robust Linear regression Number of obs = 9019 F( 12, 9006) = 185.08 Prob > F = 0.0000 R-squared = 0.2736 Root MSE = 2428.3 ------------------------------------------------------------------------------ | Robust chigd | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- gioi | 52.54772 51.17439 1.03 0.305 -47.76572 152.8612 tuoi | 347.9577 21.66313 16.06 0.000 305.493 390.4224 tuoibp | -3.115513 .682129 -4.57 0.000 -4.452641 -1.778385 thanhthi | 1081.325 74.50076 14.51 0.000 935.2862 1227.363 vung1 | 163.8409 87.9385 1.86 0.062 -8.53859 336.2203 vung2 | -273.0126 87.90441 -3.11 0.002 -445.3252 -100.7 vung3 | -655.3806 92.42965 -7.09 0.000 -836.5637 -474.1974 vung4 | -30.02082 89.04394 -0.34 0.736 -204.5672 144.5256 vung5 | 77.38069 100.2281 0.77 0.440 -119.0891 273.8505 vung7 | 958.442 143.1455 6.70 0.000 677.8443 1239.04 vung8 | 21.29995 102.6027 0.21 0.836 -179.8247 222.4246 hhsize | -76.84445 15.91004 -4.83 0.000 -108.0317 -45.65715 _cons | -2364.973 202.2426 -11.69 0.000 -2761.415 -1968.532 ------------------------------------------------------------------------------ 8. L−u l¹i phÇn d− cña m« h×nh vμ kiÓm ®Þnh tÝnh ph©n phèi chuÈn cña sai sè L−u l¹i phÇn d− trong biÕn r, vÏ ®å thÞ ph©n phèi cña phÇn d−, tÝnh thèng kª skewness vμ kurtosis cho biÕn r . predict r, resid . histogram r, normal (bin=45, start=-9364.6592, width=1145.6248) . tabstat r,stat(skewness kurtosis) variable | skewness kurtosis -------------+-------------------- r | 1.68251 13.18075 ---------------------------------- Nguyễn Khánh Duy, email: khanhduy@ueh.edu.vn Ghi chú bài giảng 30 Chương trình giảng dạy Kinh tế Fulbright Lớp MPP3 – học kỳ Thu 2010 . sktest r Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+--------------------------------------------------------------- r | 3.5e+04 0.0000 0.0000 . . . swilk r Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z -------------+-------------------------------------------------- r | 35154 0.88757 1583.543 20.303 0.00000 Ghi chó: Sau khi thùc hiÖn håi quy, gâ lÖnh predict tªn_biÕn kÕt hîp víi c¸c option sau cã thÓ t¹o ra nh÷ng biÕn míi liªn quan ®Õn m« h×nh: §Ó t¹o ra Thªm option sau lÖnh predict Gi¸ trÞ dù b¸o cña Y Kh«ng cÇn option PhÇn d− resid PhÇn d− chuÈn ho¸ rstandard PhÇn d− student ho¸ Rstudent Leverage Lev hoÆc hat Sai sè chuÈn cña phÇn d− Stdr Cook’s D Cooksd Sai sè chuÈn cña gi¸ trÞ dù b¸o (c¸ biÖt) Stdf Sai sè chuÈn cña gi¸ trÞ dù b¸o (trung b×nh) stdp Cã thÓ sö dông ®å thÞ p, ®å thÞ q? pnorm r qnorm r Nguyễn Khánh Duy, email: khanhduy@ueh.edu.vn Ghi chú bài giảng 31 Chương trình giảng dạy Kinh tế Fulbright Lớp MPP3 – học kỳ Thu 2010 9. ¦íc l−îng m« h×nh håi quy – cã sö dông träng sè trong ®iÒu tra VHLSS H·y −íc l−îng l¹i m« h×nh trªn, vμ chó ý ®Õn vÊn ®Ò träng sè trong VHLSS reg chigd gioi tuoi tuoibp thanhthi vung1 vung2 vung3 vung4 vung5 vung7 vung8 hhsize if m2ac5<=2 [pw= hhszwt], robust (sum of wgt is 9.8756e+07) Linear regression Number of obs = 9019 F( 12, 9006) = 122.22 Prob > F = 0.0000 R-squared = 0.2497 Root MSE = 2651.2 ------------------------------------------------------------------------------ | Robust chigd | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- gioi | 35.68653 72.54715 0.49 0.623 -106.5224 177.8955 tuoi | 341.5655 29.01901 11.77 0.000 284.6816 398.4493 tuoibp | -3.148191 .888906 -3.54 0.000 -4.890649 -1.405733 thanhthi | 1245.069 101.016 12.33 0.000 1047.055 1443.084 vung1 | 283.2034 90.92591 3.11 0.002 104.968 461.4389 vung2 | -202.6547 86.93577 -2.33 0.020 -373.0686 -32.24081 vung3 | -488.0537 97.7098 -4.99 0.000 -679.5871 -296.5203 vung4 | 132.6486 100.3422 1.32 0.186 -64.04499 329.3422 vung5 | 83.13013 94.97234 0.88 0.381 -103.0373 269.2975 vung7 | 1290.005 181.5838 7.10 0.000 934.0593 1645.95 vung8 | 118.2045 100.7079
File đính kèm:
- giao trinh.pdf