3.1. Giới thiệu3.1.1. Khái niệm về hồi quyPhân tích hồi quy là tìm
quan hệ phụ thuộc của một biến, được gọi là biến phụ thuộc vào một hoặc nhiều
biến khác, được gọi là biến độc lập nhằm mục đích ước lượng hoặc tiên đoán giá
trị kỳ vọng của biến phụ thuộc khi biết trước giá trị của biến độc lập.
[You must be registered and logged in to see this link.]Một số tên gọi khác của biến
phụ thuộc và biến độc lập như sau:
Biến phụ thuộc: biến được giải thích, biến được dự báo, biến được hồi quy, biến phản ứng,
biến nội sinh.
Biến độc lập: biến giải thích, biến dự báo, biến hồi quy, biến tác nhân hay biến kiểm
soát, biến ngoại sinh.
Sau đây là một và ví dụ về
phân tích hồi quy
(1) Ngân hàng XYZ muốn tăng
lượng tiền huy động. Ngân hàng này muốn biết mối quan hệ giữa lượng tiền gửi và lãi suất tiên gửi, cụ thể
hơn họ muốn biết khi tăng lãi suất thêm 0,1% thì lượng tiền gửi sẽ tăng trung
bình là bao nhiêu.
(2) Một nhà nghiên cứu nông
nghiệp muốn biết năng suất tôm sú nuôi trong hệ thống thâm canh phụ thuộc thế
nào vào diện tích ao nuôi, mật độ thả tôm giống, chi phí hoá chất xử lý môi
trường, trình độ nhân công. Từ phân tích hồi quy này ông ta đề ra các chỉ tiêu
kỹ thuật phù hợp cho loại hình này.
3.1.2. Sự khác nhau giữa các dạng quan hệQuan hệ tất định và quan hệ thống kê Quan hệ tất định là loại
quan hệ có thể biểu diễn bằng môt hàm số toán học. Một số quan hệ trong vật lý,
hoá học và một số ngành khoa học tự nhiên khác là quan hệ tất định.
Ví dụ định luật Ohm trong
vật lý : gọi U là điện áp, R là điện trở của mạch điện thì dòng điện I sẽ là
, nói cách khác khi điện áp và điện trở được cố định trước
thì chúng ta chỉ nhận được một và chỉ một giá trị dòng điện.
Đa số các biến số kinh tế không có quan hệ tất
định. Thí dụ ta không thể nói với diện tích nuôi tôm cho trước và kỹ thuật nuôi
được chọn thì năng suất sẽ là bao nhiêu.
Lý do là có rất nhiều biến số được kể
đến trong mô hình cũng tác động lên năng suất, ngoài ra trong số các biến số
vắng mặt này có những biến không thể kiểm soát được như thời tiết, dịch bệnh…
Nhà nghiên cứu nông nghiệp kể trên chỉ có thể tiên đoán một giá trị trung bình
của năng suất ứng với kỹ thuật nuôi đã chọn. Quan hệ giữa các biến số kinh tế
có tính chất quan hệ thống kê.
Hồi quy và quan hệ nhân quảMặc
dù phân tích hồi quy dựa trên ý tưởng sự phụ thuộc của một biến số kinh tế vào
biến số kinh tế khác nhưng bản thân kỹ
thuật phân tích hồi quy không bao hàm quan hệ nhân quả. Một ví dụ điển hình của
sự nhầm lẫn hai khái niệm này tiến hành hồi quy số vụ trộm ở một thành phố với
số nhân viên cảnh sát của thành phố. Gọi Y là số vụ trộm trong một năm và X là
số nhân viên cảnh sát. Khi chúng ta hồi quy Y theo X, nếu chúng ta tìm được mối quan hệ đồng biến
của Y và X có ý nghĩa thống kê thì phân tích hồi quy này cho kết luận: “Tăng số
lượng nhân viên cảnh sát sẽ làm tăng số vụ trộm”. Rõ ràng phân tích này sai lầm
trong việc nhận định mối quan hệ nhân quả. Số cảnh sát tăng lên là do sự tăng
cường của lực lượng cảnh sát trong bối cảnh số vụ trộm tăng lên. Vậy đúng ra
chúng ta phải hồi quy số cảnh sát theo số vụ trộm hay X theo Y.Vậy trước khi
phân tích hồi quy chúng ta phải nhận định chính xác mối quan hệ nhân quả.[You must be registered and logged in to see this link.]Một
sai lầm phổ biến nữa trong phân tích kinh tế lượng là quy kết mối quan hệ nhân
quả giữa hai biến số trong khi trong thực tế chúng đều là hệ quả của một nguyên
nhân khác. Ví dụ chúng ta phân tích hồi quy giữa số giáo viên và số phòng học
trong toàn ngành giáo dục. Sự thực là cả số giáo viên và số phòng học đều phụ
thuộc vào số học sinh. Như vậy phân tích mối quan hệ nhân quả dựa vào kiến thức
và phương pháp luận của môn khác chứ không từ phân tích hồi quy. Hồi quy và
tương quanPhân tích tương quan chỉ cho thấy độ mạnh yếu của mối
quan hệ tuyến tính giữa hai biến số. Phân tích tương quan cũng không thể hiện
mối quan hệ nhân quả.Ví dụ chúng ta xét quan hệ giữa hai biến số X là số bệnh
nhân bị xơ gan và Y là số lít rượu được tiêu thụ của một nước. Chúng ta có thể
nhận được hệ số tương quan cao giữa X và Y. Hệ số tương quan được xác định như
sau:
Qua
đẳng thức này chúng ta cũng thấy trong phân tích tương quan vai trò của hai
biến là như nhau và hai biến đều là ngẫu nhiên.
Phân
tích hồi quy của X theo Y cho ta biết trung bình số bệnh nhân bị xơ gan là bao
nhiêu ứng với lượng tiêu dùng rượu cho trước. Chúng ta không thể đảo ngược hồi
quy thành Y theo X. Phân tích hồi quy dựa trên giả định biến độc lập là xác
định trong khi biến phụ thuộc là ngẫu nhiên. Chúng ta tìm giá trị kỳ vọng của
biến phụ thuộc dựa vào giá trị cho trước của của biến độc lập.
3.2.Hàm hồi quy tổng thể và hồi quy mẫu3.2.1.Hàm
hồi quy tổng thể (PRF)Ví dụ 3.1. Hồi quy tiêu dùng Y theo thu nhậpX.
[You must be registered and logged in to see this link.]Theo Keynes thì hàm tiêu dùng như sau
[You must be registered and logged in to see this link.]:
Y =
b1 +
b2X , với
b2 là xu hướng tiêu dùng biên, 0<
b2<1.(3.1)
Chúng ta kiểm chứng giả thiết trên với số liệu từ một
nước giả định Z có dân số 30 người với số liệu tiêu dùng và thu nhậpcủa từng
người như đồ thị phân tán sau.
[You must be registered and logged in to see this link.] Hình 3.1. Đồ
thị phân tán quan hệ giữa tiêu dùng và thu nhập khả dụng.Đồ thị 3.1. cho thấy có mối quan hệ đồng biến giữa
tiêu dùng và thu nhập khả dụng, hay là thu nhậptăng sẽ làm tiêu dùng tăng. Tuy
quan hệ giữa Y và X không chính xác như hàm bậc nhất (3.1).
Trong phân tích hồi quy chúng ta xem biến độc lập X có
giá trị xác định trong khi biến phụ thuộc Y là biến ngẫu nhiên. Điều này tưởng
như bất hợp lý. Khi chúng ta chọn ngẫu nhiên người thứ i thì chúng ta thu được
đồng thời hai giá trị: Xi là thu nhậpvà Yi là tiêu dùng của người đó. Vậy tại
sao lại xem Yi là ngẫu nhiên? Câu trả như sau : Xét một mức thu nhậpX
ixác định, cách lấy mẫu của chúng ta là chọn ngẫu nhiên trong số những người có
thu nhậplà Xi. Thu nhậpgóp phần chính yếu quyết định tiêu dùng như thể hiện ở
hàm số (1.3), tuy nhiên còn nhiều yếu tố khác cũng tác động lên tiêu dùng nên
ứng với một cách lấy mẫu thì với nhiều lần lấy mẫu với tiêu chí X = Xi ta nhận
được các giá trị Yi khác nhau. Vậy chính xác hơn biến phụ thuộc Y là một biến
ngẫu nhiên có điều kiện theo biến độc lập X. Ước lượng tốt nhất cho Y trong
trường hợp này là giá trị kỳ vọng của Y ứng với điều kiện X nhận giá trị Xi xác
định.
Hàm hồi quy tổng thể (PRF):
E(Y/X=Xi) =
b1 +
b2X (3.2)
Đối với một quan sát cụ thể thì giá trị biến phụ thuộc
lệch khỏi kỳ vọng toán, vậy:
Y
i =
b1 +
b2X
i +
ei(3.3)
b1 và
b2 : các
tham số của mô hình
b1 : tung
độ gốc
b2: độ dốc
Giá trị ước lượng của Y
i ei : Sai số
của hồi quy hay còn được gọi là nhiễu ngẫu nhiên
Nhiễu ngẫu nhiên hình thành từ nhiều nguyên nhân:
-
Bỏ sót biến giải
thích.
-
Sai số khi đo
lường biến phụ thuộc.
-
Các tác động
không tiên đoán được.
-
Dạng hàm hồi quy
không phù hợp.
Dạng hàm hồi quy (3.2) được gọi là hồi quy tổng thể
tuyến tính. Chúng ta sẽ thảo luận chi
tiết về thuật ngữ hồi quy tuyến tính ở cuối chương. Hình 3.2 cho ta cái nhìn
trực quan về hồi quy tổng thể tuyến tính và sai số của hồi quy.
3.2.2.Hàm
hồi quy mẫu (SRF)Trong thực tế hiếm khi chúng có số liệu của tổng thể
mà chỉ có số liệu mẫu. Chúng ta phải sử dụng dữ liệu mẫu để ước lượng hàm hồi quy
tổng thể.
Hàm hồi quy mẫu:
(3.4)
Trong đó
: ước lượng cho
b1.
: Ước lượng cho
b2.
Đối với quan sát thứ i :
Y
i =
+
X
i + e
i(3.5)
Hình 3.3 cho thấy sự xấp xỉ của
hàm hồi quy mẫu (SRF) và hàm hồi quy tổng thể (PRF).
3.3.Ước lượng các hệ số của mô hình hồi
quy theo phương pháp bình phương tối thiểu-OLS[You must be registered and logged in to see this link.]3.3.1.Các giả định của mô hình hồi quy
tuyến tính cổ điển Các
giả định về sai số hồi quy như sau đảm bảo cho các ước lượng hệ số hàm hồi quy
tổng thể dựa trên mẫu theo phương pháp bình phương tối thiểu là ước lượng tuyến
tính không chệch tốt nhất(BLUE).
Giá
trị kỳ vọng bằng 0:
Phương
sai không đổi:
Không
tự tương quan:
Không
tương quan với X:
Có
phân phối chuẩn:
Ở
chương 5 chúng ta sẽ khảo sát hậu quả khi các giả thiết trên bị vi phạm.
3.3.2.Phương pháp bình phương tối thiểu:
Ý
tưởng của phương pháp bình phương tối thiểu là tìm
và
sao cho tổng bình
phương phần dư có giá trị nhỏ nhất.
Từ hàm hồi quy (3.5)
Vậy
(3.6)
Điều
kiện để (3.6) đạt cực trị là:
(1)
(3.7)
(2)
(3.
Từ
(3.7) và (3.
chúng ta rút ra
(3.9)
(3.10)
Các
phương trình (3.9) và (3.10) được gọi là các phương trình chuẩn. Giải hệ phương
trình chuẩn ta được
(3.11)
Thay
(3.9) vào (3.
và biến đổi đại số chúng
ta có
(3.12)
Đặt
và
ta nhận được
(3.13)
3.3.3.Tính
chất của hàm hồi quy mẫu theo OLSTính chất
của tham số ước lượng(1)
và
là duy nhất ứng với
một mẫu xác định gồm n quan sát (Xi,Yi).
(2)
và
là các ước lượng điểm
của
b1 và
b2 . Giá
trị của
và
thay đổi theo mẫu
dùng để ước lượng.
Tính chất
của hàm hồi quy mẫu[You must be registered and logged in to see this link.](1) Hàm hồi quy mẫu đi qua giá trị trung bình của dữ liệu
Thật vậy, từ (3.11) ta có
3.4.Khoảng tin cậy và kiểm
định giả thiết về các hệ số hồi quy
3.4.1.
Khoảng tin cậy cho các hệ số hồi quy
Thực
sự chúng ta không biết nên ta dùng ước lượng
không chệch của nó là
Sai
số chuẩn của hệ số hồi quy cho độ dốc
Từ với ta có
(3.14)
Từ
tính chất của phương sai mẫu ta có
(3.15)
Từ
(3.14) và (3.15) Ta xây dựng trị thống kê
(3.16)
Biến
đổi vế trái chúng ta được
Thay
vào (3.16) ta được
(3.17)
Chứng
minh tương tự ta có
(3.18)
Ước
lượng khoảng cho hệ số hồi quy với mức ý nghĩa a như sau
(3.19)
(3.20)
3.4.2. Kiểm định giả thiết về hệ số hồi
quy
Chúng ta quan tâm nhiều đến ý nghĩa thống kê độ dốc (b2) của
phương trình hồi quy hơn là tung độ gốc (b1). Cho nên từ đây đến cuối chương chủ yếu chúng ta
kiểm định giả thiết thống kê về độ dốc.
Giả
thiết
Phát
biểu mệnh đề xác suất
Quy
tắc quyết định
Ø
Nếu hoặc thì bác bỏ H0.
Ø
Nếu thì ta không thể bác
bỏ H0.
Quy tắc thực hành-Trị thống kê t trong
các phần mềm kinh tế lượng
Trong thực tế chúng ta thường xét xem biến độc lập X
có tác động lên biến phụ thuộc Y hay không. Vậy khi thực hiện hồi quy chúng ta
kỳ vọng 0. Mức ý nghĩa hay được dùng trong phân tích hồi quy là a=5%.
Giả
thiết
Trị
thống kê trở thành
t-stat
=
Quy
tắc quyết định
Ø
Nếu /t-stat/ >
t(n-2,97,5%) thì bác bỏ H0.
Ø
Nếu /t-stat/ ≤ t(n-2,97,5%)
thì không thể bác bỏ H0.
Tra
bảng phân phối Student chúng ta thấy khi bậc tự do n trên 20 thì trị thống kê t97,5% thì
xấp xỉ 2.
Quy tắc thực hành
Ø
Nếu /t-stat/ >
2 thì bác bỏ giả thiết b2 = 0.
Ø
Nếu /t-stat/≤ 2
thì ta không thể bác bỏ giả thiết b2=0.
Trong
các phần mềm bảng tính có tính toán hồi quy, người ta mặc định mức ý nghĩa a=5% và giả thiết H0: bi=0. Thủ tục tính toán hồi quy của Excel cung cấp cho
ta các hệ số hồi quy, trị thống kê t, ước lượng khoảng của hệ số hồi quy và giá
trị p[You must be registered and logged in to see this link.].Sau
đây là kết quả hồi quy được tính toán bằng thủ tục hồi quy của một vài phần mềm
thông dụng.
[You must be registered and logged in to see this link.]
Ở chương 2 chúng ta đã biết ước kiểm định trên ước lượng khoảng, trị thống kê
và giá trị p là tương đương nhau.
3.5.
Định lý
Gauss-Markov
Với
các giả định của mô hình hồi quy tuyến tính cổ điển, hàm hồi quy tuyến tính
theo phương pháp bình phương tối thiểu là ước lượng tuyến tính không thiên lệch
tốt nhất.
Chúng
ta sẽ không chứng minh đinh lý này.[You must be registered and logged in to see this link.]
3.6.
Độ thích
hợp của hàm hồi quy – R2
Làm
thế nào chúng ta đo lường mức độ phù hợp của hàm hồi quy tìm được cho dữ liệu
mẫu. Thước đo độ phù hợp của mô hình đối với dữ liệu là R2. Để có
cái nhìn trực quan về R2, chúng ta xem xét đồ thị sau
[You must be registered and logged in to see this link.]
Phần chứng minh các tính chất ở phần này có ở Gujarati, Basic Econometrics-3rd
Edition, trang 97-98.
Hình
3.5. Phân tích độ thích hợp của hồi quy
: biến thiên của biến phụ thuộc Y, đo lường độ lệch của giá
trị Yi so với giá trị trung bình
: biến thiên của Y được giải thích bởi hàm hồi quy
: biến thiên của Y không giải thích được bởi hàm hồi quy hay
sai số hồi quy.
Trên
mỗi Xi chúng ta kỳ vọng ei nhỏ nhất, hay phần lớn biến thiên của
biến phụ thuộc được giải thích bởi biến độc lập. Nhưng một hàm hồi quy tốt phải
có tính chất mang tính tổng quát hơn.
Trong hồi quy tuyến tính cổ điển, người ta chọn tính chất tổng bình phương biến
thiên không giải thích được là nhỏ nhất.
Ta
có
Với
và
Vậy(3.21)
Số
hạng cuối cùng của (3.21) bằng 0.
Vậy
Đặt
, và
TSS(Total
Sum of Squares): Tổng bình phương biến thiên của Y.
ESS(Explained
Sum of Squares): Tổng bình phương phần biến thiên giải thích được bằng hàm hồi
quy của Y.
RSS(Residual
Sum of Squares) : Tổng bình phương phần biến thiên không giải thích được bằng
hàm hồi quy của Y hay tổng bình phương phần dư.Ta có:
TSS = ESS + RSS
Đặt
Mặt
khác ta có Vậy
(3.22)
Vậy
đối với hồi quy hai biến R2 là bình phương của hệ số tương quan.
Tính chất của R2
(1)
0≤ R2 ≤1.
Với R2=0 thể hiện X và Y độc lập thống kê. R2 =1 thể hiện
X và Y phụ thuộc tuyến tính hoàn hảo.
(2)
R2
không xét đến quan hệ nhân quả.
3.5. Dự báo bằng
mô hình hồi quy hai biến
Dựa
trên X0 xác định chúng ta dự báo Y0.
Ước
lượng điểm cho Y0 là : .
Để
ước lượng khoảng chúng ta phải tìm phân phối xác suất của .
Dự báo giá trị trung bình
Từ
Suy
ra
(3.23)
Thay
biểu thức của , và ở mục 3.3.4 vào (3.23) và rút gọn
Dự báo giá trị cụ thể của Y0
Từ
Ta
có
và
(3.25)
Số
hạng cuối cùng . Vậy
(3.26)
Sai số chuẩn của dự báo
Cho
giá trị của Y0
Khoảng tin cậy cho dự báo
Nhận
xét: X0 càng lệch ra khỏi giá trị trung bình thì dự sai số của dự
báo càng lớn. Chúng ta sẽ thấy rõ điều này qua đồ thị sau.
3.8. Ý nghĩa của hồi quy tuyến tính và
một số dạng hàm thường được sử dụng
3.8.1. Tuyến tính trong tham số
Trong
mục 3.2.1 chúng ta đã đặt yêu cầu là để ước lượng theo phương pháp bình phương
tối thiểu thì mô hình hồi quy phải tuyến tính. Sử dụng tính chất hàm tuyến tính
của các phân phối chuẩn cũng là phân phối chuẩn, dựa vào các giả định chặt chẽ
và phương pháp bình phương tối thiểu, người ta rút ra các hàm ước lượng tham số
hiệu quả và các trị thống kê kiểm định.
Hồi
quy tuyến tính chỉ yêu cầu tuyến tính trong các tham số, không yêu cầu tuyến
tính trong biến số.
Mô
hình (3.27)
là
mô hình tuyến tính trong các tham số nhưng phi tuyến theo biến số.
Mô
hình (3.28)
là
mô hình phi tuyến trong các tham số nhưng tuyến tính trong biến số.
Hồi
quy tuyến tính theo OLS chấp nhận dạng mô hình tuyến tính trong tham số như
(3.27) mà không chấp nhận dạng mô hình phi tuyến trong tham số như (3.28).
3.8.2. Một số mô hình thông dụng
Mô hình Logarit kép
Mô hình logarit kép phù hợp với dữ liệu ở nhiều lĩnh
vực khác nhau. Ví dụ đường cầu với độ co dãn không đổi hoặc hàm sản xuất
Cobb-Douglas.
Mô hình đường cầu : (3.29)
Không thể ước lượng mô hình (3.29) theo OLS vì nó phi
tuyến trong tham số. Tuy nhiên nếu chúng ta lấy logarit hai vế thì ta được mô
hình
(3.30)
Đặt và ta được mô hình
(3.31)
Mô hình này tuyến tính theo tham số nên có thể ước
lượng theo OLS.
Chúng ta sẽ chứng minh đặc tính đáng lưu ý của mô hình
này là độ co dãn cầu theo giá không đổi. Định nghĩa độ co dãn:
Lấy vi phân hai vế của (3.30) ta có =>
Vậy độ co dãn của cầu theo giá không đổi.
Tổng quát, đối với mô hình logarit kép, hệ số ứng với
ln của một biến số độc lập là độ co dãn của biến phụ thuộc vào biến độc lập đó.
Mô hình
Logarit-tuyến tính hay mô hình tăng trưởng
Gọi g là tốc độ tăng trưởng, t chỉ thời kỳ. Mô hình
tăng trưởng như sau
(3.32)
Lấy logarit hai vế của (3.32)
(3.33)
Đặt , và ta được mô hình hồi quy
(3.34)
Mô hình tuyến tính-Logarit (Lin-log)
(3.35)
Mô hình này phù hợp với quan hệ
thu nhập và tiêu dùng của một hàng hoá thông thường với Y là chi tiêu cho hàng
hoá đó và X là thu nhập. Quan hệ này cho thấy Y tăng theo X nhưng tốc độ tăng
chậm dần.