Trong bài viết này, Luận Văn 2S sẽ đi sâu vào tìm hiểu vấn đề đa cộng tuyến là gì, làm thế nào để xác định đa cộng tuyến, tại sao đa cộng tuyến chính là một vấn đề và bạn có thể làm gì để khắc phục nó. Cùng bắt đầu nhé!
Đa cộng tuyến là gì?
Đa cộng tuyến (Multicollinearity) là hiện tượng thường xảy ra khi mối tương quan cao giữa hai hay nhiều biến độc lập trong mô hình hồi quy. Nói cách khác, một biến độc lập có thể sử dụng để dự đoán một biến độc lập khác. Khi biến độc lập A tặng thì biến độc lập B tăng và ngược lại A giảm thì B cũng giảm. Điều này sẽ dẫn đến việc tạo ra các thông tin dư thừa, làm sai lệch kết quả của mô hình hồi quy đa biến. Hiện tượng đa cộng tuyến vi phạm giả định của mô hình hồi quy tuyến tính là các biến độc lập không có mối quan hệ tuyến tính với nhau.
Đang xem: Variance inflation factor là gì
Một số ví dụ về cặp biến độc lập có sự tương quan như: Chiều cao và cân nặng của một người, tuổi và giá bán của một chiếc xe, số năm kinh nghiệm và thu nhập hàng năm của người lao động…
Khái niệm về đa cộng tuyến
Nguyên nhân xảy ra hiện tượng đa cộng tuyến?
Đa cộng tuyến xảy ra do dữ liệu: gây ra bởi các thử nghiệm được thiết kế kém, 100% là dữ liệu quan sát hoặc phương pháp thu thập dữ liệu không thể thao tác được. Trong một số trường hợp, các biến có thể có mối tương quan cao (thường là do thu thập dữ liệu từ các nghiên cứu quan sát thuần túy) và không có lỗi về phía nhà nghiên cứu. Vì lý do này, bạn nên tiến hành nghiên cứu thử nghiệm và thiết lập mức độ của các biến độc lập trước.Dữ liệu không đầy đủ.Do cách chọn biến độc lập của nhà nghiên cứu (chọn biến độc lập có độ biến thiên nhỏ, biến độc lập có mối quan hệ nhân quả, các biến độc lập đồng thời phụ thuộc vào một điều kiện khác…).Biến giả có thể được sử dụng không chính xác. Ví dụ, nhà nghiên cứu có thể không loại trừ một danh mục hoặc thêm một biến giả cho mọi danh mục (ví dụ: mùa xuân, mùa hè, mùa thu, mùa đông).Một biến trong mô hình hồi quy thực chất là sự kết hợp của hai biến khác. Ví dụ, biến mang tên “tổng thu nhập đầu tư” nhưng trong đó, tổng thu nhập đầu tư = tổng thu nhập từ cổ phiếu và trái phiếu + thu nhập từ lãi tiết kiệm.Hai biến giống nhau (hoặc gần như giống hệt nhau) . Ví dụ: trọng lượng tính bằng pound và trọng lượng tính bằng kilôgam, thu nhập đầu tư và thu nhập tiết kiệm/trái phiếu…Các yếu tố lạm phát phương sai.
Hậu quả của hiện tượng đa cộng tuyến
Mục đích chính của phân tích hồi quy là xác định mối quan hệ tương quan giữa từng biến độc lập và biến phụ thuộc. Giải thích hệ số hồi quy là đại diện cho sự thay đổi trung bình của biến phụ thuộc cho mỗi một đơn vị thay đổi trong một biến độc lập khi bạn giữ tất cả các biến độc lập khác không đổi. Tuy nhiên, khi các biến độc lập có sự tương tương quan, các biến độc lập có xu hướng thay đổi đồng nhất. Sự thay đổi trong một biến sẽ liên kết làm thay đổi một biến khác. Mối tương quan càng mạnh thì càng khó thay đổi một biến mà không thay đổi một biến khác. Mô hình trở nên khó khăn trong việc ước tính mối quan hệ giữa từng biến độc lập và biến phụ thuộc một cách độc lập: Gia tăng sai số chuẩn của các hệ số, khoảng tin cậy lớn và kiểm định t ít ý nghĩa. Các ước lượng trong phân tích hồi quy không thật chính xác.
Tín hiệu nhận biết hiện tượng đa cộng tuyến
Tín hiệu 1: Kiểm định đa cộng tuyến trong SPSS dựa vào hệ số phóng đại phương sai VIF
Để nhận biết hiện tượng đa cộng tuyến, ta có thể áp dụng một thử nghiệm rất đơn giản đó chính là dựa vào hệ số phóng đại phương sai VIF (Variance inflation factor) để xác định mối tương quan giữa các biến độc lập và sức mạnh của mối tương quan đó.
Giá trị VIF bắt đầu từ 1 và không có giới hạn trên. Giá trị VIF trong khoảng từ 1-2 chỉ ra rằng không có mối tương quan giữa biến độc lập này và bất kỳ biến nào khác. VIF giữa 2 và 5 cho thấy rằng có một mối tương quan vừa phải, nhưng nó không đủ nghiêm trọng để người nghiên cứu phải tìm biện pháp khắc phục. VIF lớn hơn 5 đại diện cho mối tương quan cao, hệ số được ước tính kém và các giá trị p – values là đáng nghi ngờ. VIF > 10 thì chắc chắn có đa cộng tuyến.
Xem thêm: Tiền Gửi Tiết Kiệm Là Gì ? Các Hình Thức Gửi Tiết Kiệm Ngân Hàng?
Hầu hết các phần mềm thống kê có thể hiển thị kết quả kiểm định VIF cho bạn. Đánh giá VIF đặc biệt quan trọng đối với các nghiên cứu quan sát vì những nghiên cứu này dễ bị đa hình. Dưới đây sẽ là các bước thực hiện kiểm định đa cộng tuyến trong SPSS dựa vào hệ số phóng đại phương sai VIF:
Khi thực hiện hồi quy đa biến, ta nhấn chọn nút Statistics > check vào ô Collinearity diagnostics.
Kiểm định hệ số phóng đại phương sai VFI trong SPSS
Sau khi thực hiện xong các thao tác phân tích hồi quy trong SPSS, ta sẽ được bảng Coefficients. Tại bảng này, chúng ta chú ý đến các giá trị trong cột VIF.
Kết quả bảng Coefficients
Tín hiệu 2: Kiểm định đa cộng tuyến trong SPSS dựa vào hệ số tương quan
Trong kết quả phân tích hồi quy, nhìn vào bảng Model Summary, nếu Hệ số tương quan (R2 hay R Square) cao (trên 0.8) và thống kê t trong bảng Coefficients thấp. Tuy nhiên, thông thường phương pháp này ít được sử dụng vì nó mang phán đoán chủ quan hơn là công thức khoa học.
Tín hiệu 3: Sử dụng Heat Maps (Bản đồ nhiệt)
Bạn có thể xây dựng ma trận tương quan với nền màu gradient và xem cách dữ liệu tương quan với nhau. Thang đo này sẽ từ 0-1 và thể hiện sự tương quan hoàn hảo.
Xem thêm: Có Nên Chọn Ô Tô Sử Dụng Hộp Số Cvt Là Gì, Ưu Nhược Điểm Của Hộp Số Cvt
Giải pháp khắc phục hiện tượng đa cộng tuyến
Khi dữ liệu của bạn xảy ra đa cộng tuyến, bạn có thể thử áp dụng một số phương pháp dưới đây. Nhưng hãy lưu ý rằng, mỗi phương pháp đều có một số nhược điểm nhất định. Bạn sẽ cần sử dụng kiến thức và các yếu tố trong mục tiêu của nghiên cứu để phỏng đoán đúng nguyên nhân và chọn giải pháp tốt nhất. Các giải pháp tiềm năng bao gồm:
Loại bỏ một số biến độc lập có tương quan cao.Bổ sung dữ liệu hoặc tìm thêm những dữ liệu mới, tăng cỡ mẫu, tìm mẫu dữ liệu khác. Tuy nhiên nếu mẫu lớn hơn mà vẫn còn đa cộng tuyến thì vẫn có giá trị vì mẫu lớn hơn sẽ làm cho phương sai nhỏ hơn và hệ số ước lượng chính xác hơn so với mẫu nhỏ.Thực hiện thiết kế phân tích các biến có tương quan cao.Thay đổi dạng mô hình. Thay đổi dạng mô hình cũng có nghĩa là tái cấu trúc mô hình. Điều này thật sự là điều không mong muốn, lúc đó bạn phải thay đổi mô hình nghiên cứu.
Trên đây, Luận Văn 2S đã nên ra cho bạn đọc hiểu rõ về khái niệm đa cộng tuyến, nguyên nhân, hậu quả và một số biện pháp phát hiện, khắc phục. Tuy nhiên, không thể phủ nhận rằng, đây là một tình huống này thực sự rất khó để giải quyết. Trong quá trình xử lý, nếu như bạn cần đến sự tư vấn, giúp đỡ hãy liên hệ với dịch vụ phân tích định lượng, hỗ trợ SPSS của chúng tôi nhé!