Đa cộng tuyến là gì? Nguyên nhân, hậu quả và cách phát hiện, khắc phục

Đa cộng tuyến là gì? Nguyên nhân, hậu quả và cách phát hiện, khắc phục

Tài Chính
22/09/2023 by ACRANUP Network
418
Trong bài viết này, chúng ta sẽ cùng tìm hiểu về khái niệm đa cộng tuyến, cách xác định và giải quyết vấn đề này. Hãy bắt đầu ngay! Khái niệm Đa cộng tuyến là gì? Hiện tượng đa cộng tuyến xảy ra khi có mối tương quan cao giữa hai hoặc nhiều biến độc
da-cong-tuyen-la-gi-nguyen-nhan-hau-qua-va-cach-phat-hien-khac-phuc-189234

Trong bài viết này, chúng ta sẽ cùng tìm hiểu về khái niệm đa cộng tuyến, cách xác định và giải quyết vấn đề này. Hãy bắt đầu ngay!

Khái niệm Đa cộng tuyến là gì?

Hiện tượng đa cộng tuyến xảy ra khi có mối tương quan cao giữa hai hoặc nhiều biến độc lập trong mô hình hồi quy. Điều này có nghĩa là một biến độc lập có thể được sử dụng để dự đoán một biến độc lập khác. Khi giá trị của biến độc lập A tăng, giá trị của biến độc lập B cũng tăng và ngược lại, khi giá trị của A giảm, giá trị của B cũng giảm. Tình trạng này tạo ra thông tin dư thừa và gây sai lệch trong kết quả của mô hình hồi quy đa biến. Đa cộng tuyến vi phạm giả định của mô hình hồi quy tuyến tính, trong đó các biến độc lập không có mối quan hệ tuyến tính với nhau.

Tin mới: 🏆  Tổ chức chính trị xã hội là gì? (Cập nhật 2023)

Có một số ví dụ về các cặp biến độc lập có mối quan hệ như: chiều cao và cân nặng của một người, tuổi và giá bán của một chiếc xe, số năm kinh nghiệm và thu nhập hàng năm của người lao động…

Đa cộng tuyến là một phương pháp tính toán trong đại số tuyến tính, được sử dụng để giải quyết các hệ phương trình tuyến tính có nhiều hơn một nghiệm.
Khái niệm về đa cộng tuyến

Lý do gây ra hiện tượng đa tuyến

  • Đa cộng tuyến xảy ra khi dữ liệu được gây ra bởi các thử nghiệm thiết kế kém, 100% là dữ liệu quan sát hoặc phương pháp thu thập dữ liệu không thể thao tác được. Trong một số trường hợp, các biến có thể có mối tương quan cao (thường là do thu thập dữ liệu từ các nghiên cứu quan sát thuần túy) và không có lỗi từ phía nhà nghiên cứu. Vì vậy, nên tiến hành nghiên cứu thử nghiệm và xác định mức độ của các biến độc lập trước.
  • Thông tin không đủ.
  • Nhà nghiên cứu chọn biến độc lập có độ biến thiên nhỏ, biến độc lập có mối quan hệ nhân quả và các biến độc lập đồng thời phụ thuộc vào một điều kiện khác để thực hiện hoạt động.
  • Việc sử dụng biến giả có thể không chính xác. Ví dụ, nhà nghiên cứu có thể không loại trừ hoặc thêm biến giả cho mọi danh mục như mùa xuân, mùa hè, mùa thu, mùa đông.
  • Một biến trong mô hình hồi quy thực chất là sự kết hợp của hai biến khác. Ví dụ, biến “tổng thu nhập đầu tư” được hình thành từ tổng thu nhập từ cổ phiếu và trái phiếu cộng với thu nhập từ lãi tiết kiệm.
  • Hai biến tương tự (hoặc gần như tương tự nhau). Ví dụ: trọng lượng được đo bằng pound và trọng lượng được đo bằng kilogram, thu nhập từ đầu tư và thu nhập từ tiết kiệm/trái phiếu….
  • Các yếu tố biến động của lạm phát.
  • Tin mới: 🏆  Kế Toán Quản Trị Là Gì? Tất Tần Tật Thông Tin Cần Biết

    Tác động của hiện tượng đa cộng tuyến

    Phân tích hồi quy có mục đích chính là xác định mối quan hệ tương quan giữa các biến độc lập và biến phụ thuộc. Hệ số hồi quy giải thích sự thay đổi trung bình của biến phụ thuộc khi có sự thay đổi đơn vị trong biến độc lập, giữ các biến độc lập khác không đổi. Tuy nhiên, khi các biến độc lập có tương quan, chúng có xu hướng thay đổi cùng nhau. Một biến thay đổi sẽ gây ra thay đổi trong biến khác. Mối tương quan càng mạnh, càng khó thay đổi một biến mà không ảnh hưởng đến biến khác. Mô hình trở nên khó khăn trong việc ước tính mối quan hệ giữa các biến độc lập và biến phụ thuộc một cách độc lập: tăng độ lệch chuẩn của hệ số, tăng khoảng tin cậy và giảm tính ý nghĩa của kiểm định. Các ước lượng trong phân tích hồi quy không được chính xác.

    Các chỉ báo nhận diện hiện tượng đa cộng tuyến

    Tín hiệu 1: Xác định đa cộng tuyến trong SPSS sử dụng hệ số biến phân phương VIF

    Để phát hiện hiện tượng đa cộng tuyến, chúng ta có thể sử dụng một phương pháp thử nghiệm đơn giản là sử dụng hệ số phóng đại phương sai VIF (Variance inflation factor) để đánh giá mức độ tương quan giữa các biến độc lập và sức mạnh của tương quan đó.

    Tin mới: 🏆  Trái phiếu chính phủ là gì? Đặc điểm, phân loại và lợi ích khi đầu tư

    Giá trị VIF có thể bắt đầu từ 1 và không có giới hạn trên. Khi giá trị VIF nằm trong khoảng từ 1-2, đó chỉ ra rằng không có mối tương quan giữa biến độc lập này và bất kỳ biến nào khác. Nếu giá trị VIF nằm trong khoảng từ 2-5, điều này cho thấy có một mối tương quan vừa phải, tuy nhiên nó không đủ nghiêm trọng để người nghiên cứu phải tìm biện pháp khắc phục. Khi giá trị VIF lớn hơn 5, đó đại diện cho mối tương quan cao, hệ số được ước tính kém và các giá trị p-values là đáng nghi ngờ. Nếu giá trị VIF lớn hơn 10, thì có chắc chắn có đa cộng tuyến.

    Hầu hết các phần mềm thống kê có thể cung cấp kết quả kiểm định VIF. Việc đánh giá VIF là rất quan trọng trong các nghiên cứu quan sát, vì chúng thường gặp phải hiện tượng đa cộng tuyến. Dưới đây là các bước để thực hiện kiểm định đa cộng tuyến trong SPSS, dựa trên hệ số phóng đại phương sai VIF:

    Khi thực hiện phân tích hồi quy đa biến, chúng ta nhấp chọn vào mục Thống kê > chọn ô Kiểm tra Collinearity diagnostics.

    Tín hiệu 1: Kiểm tra tuyến tính đa trong SPSS bằng cách sử dụng hệ số phóng đại phương sai VIF.
    Kiểm định hệ số phóng đại phương sai VFI trong SPSS

    Sau khi hoàn thành việc thực hiện các thao tác phân tích hồi quy trong SPSS, chúng ta sẽ nhìn vào bảng Coefficients. Trong bảng này, chúng ta quan tâm đến các giá trị trong cột VIF.

    Tin mới: 🏆  Tokutei Ngư nghiệp là gì? Đơn tuyển Tokutei Ngư nghiệp có gì đặc biệt?

    Tín hiệu 1: Kiểm tra tuyến tính đa trong SPSS bằng cách sử dụng hệ số phóng đại phương sai VIF.
    Kết quả bảng Coefficients

    Tín hiệu 2: Xác định đa cộng tuyến trong SPSS dựa vào hệ số tương quan

    Trong phân tích hồi quy, khi xem bảng Tóm tắt Mô hình, nếu Hệ số tương quan (R2 hay R Square) có giá trị cao (trên 0.8) và giá trị thống kê t trong bảng Hệ số có giá trị thấp. Tuy nhiên, phương pháp này thường ít được sử dụng vì nó dựa trên sự đánh giá chủ quan hơn là công thức khoa học.

    Tín hiệu 3: Sử dụng Bản đồ nhiệt (Heat Maps)

    Bạn có thể tạo một ma trận tương quan sử dụng màu gradient làm nền và quan sát sự tương quan giữa các dữ liệu. Thang đo này có giá trị từ 0 đến 1 và đại diện cho một sự tương quan hoàn hảo.

    Phương án giải quyết vấn đề đa cộng tuyến

    Khi dữ liệu xảy ra đa cộng tuyến, bạn có thể thử áp dụng một số phương pháp sau. Tuy nhiên, cần lưu ý rằng mỗi phương pháp đều có nhược điểm riêng. Bạn cần sử dụng kiến thức và các yếu tố trong mục tiêu nghiên cứu để phỏng đoán nguyên nhân và chọn giải pháp tốt nhất. Các giải pháp tiềm năng bao gồm:

  • Loại bỏ một số biến độc lập có mối liên hệ cao.
  • Cải thiện dữ liệu bằng cách bổ sung hoặc tìm kiếm dữ liệu mới, tăng kích thước mẫu hoặc tìm kiếm các mẫu dữ liệu khác. Tuy nhiên, nếu mẫu lớn hơn nhưng vẫn có sự tương quan, thì vẫn có giá trị vì mẫu lớn sẽ giảm phương sai và tăng độ chính xác của hệ số ước lượng so với mẫu nhỏ.
  • Thực hiện thiết kế phân tích các biến có mối quan hệ cao.
  • Thay đổi mô hình có ý nghĩa là tái cấu trúc mô hình, điều này là không mong muốn và đòi hỏi bạn phải thay đổi mô hình nghiên cứu.
  • Tin mới: 🏆  Xã hội tin học hóa là gì? Nền tảng thúc đẩy kinh tế tri thức

    Trên đây, bài viết Luận Văn 2S đã giúp bạn hiểu rõ hơn về khái niệm đa cộng tuyến, nguyên nhân, hậu quả và một số biện pháp phát hiện, khắc phục. Tuy nhiên, không thể phủ nhận rằng, đây là một tình huống rất khó để giải quyết. Trong quá trình xử lý, nếu bạn cần sự tư vấn, hỗ trợ, hãy liên hệ với dịch vụ phân tích định lượng, hỗ trợ SPSS của chúng tôi.

    Add a comment