Kiểm định Chi bình phương được sử dụng khi chúng ta muốn đánh giá xem liệu có mối quan hệ giữa hai biến định tính hay biến phân loại (categorical variables) trong một tập dữ liệu hay không. Ví dụ, chúng ta cần đánh giá xem độ tuổi và thâm niên của nhân viên trong công ty có quan hệ với nhau không, giới tính và tình trạng hôn nhân của khách hàng có sự liên kết nào hay không…
Để cụ thể hơn, chúng ta cùng đi vào một ví dụ thực tế với một tập dữ liệu mẫu gồm 350 quan sát nghiên cứu về sự hài lòng của nhân viên trong một công ty. Chúng ta sẽ đánh giá xem Thâm niên và Thu nhập của các nhân viên có sự liên kết nhau hay không.
Biến Thâm niên được chia làm các mức giá trị:
Dưới 1 năm
Từ 1 – 3 năm
Từ 3 – 5 năm
Trên 5 năm
Biến Thu nhập được chia làm các mức giá trị:
Dưới 10 triệu
Từ 10 – dưới 15 triệu
Từ 15 – dưới 20 triệu
Từ 20 triệu trở lên
Giả thuyết Ho: Thâm niên và Thu nhập không có mối quan hệ với nhau (độc lập nhau)
Thực hiện kiểm định Chi bình phương mối quan hệ giữa Thâm niên và Thu nhập trên SPSS 26. Chúng ta vào Analyze > Descriptives Statistics > Crosstabs.
Tại cửa sổ Crosstabs đưa biến Thâm niên vào ô Row(s) và biến Thu nhập vào ô Column(s), có thể đưa một trong hai biến vào bất kỳ mục Rows hay Column đều được, không ảnh hưởng đến kết quả kiểm định. Bạn có thể chọn vào Display clustered bar charts để hiển thị đồ thị mối quan hệ hai biến.
Nhấp vào tùy chọn Statistics, tích chọn vào Chi-square và Cramer’s V, sau đó nhấp vào Continue.
Nhấp vào tùy chọn Cells, trong mục Percentages tích chọn vào Rows, Columns. Tiếp tục nhấp vào Continue, sau đó chọn OK để tiến hành kiểm định.
Trong kết quả ở Output, bảng Crosstabulation cho chúng ta cái nhìn sơ bộ về mối quan hệ giữa hai biến này về mặt thống kê tần số.
Tiếp đến, chúng ta sẽ đọc bảng quan trọng nhất là Chi-Square Tests. Nếu giá trị Asymptotic Significance (2-sided) hàng Pearson Chi-Square nhỏ hơn 0.05. Chúng ta bác bỏ giả thuyết Ho, nghĩa là 2 biến Thâm niên và Thu nhập có mối quan hệ với nhau. Nếu giá trị Sig này lớn hơn 0.05, chúng ta chấp nhận giả thuyết Ho, tương đương rằng Thâm niên và Thu nhập không có mối quan hệ với nhau.
Cuối bảng Chi-Square Tests luôn có một dòng thông báo dạng: X cells (Z%) have expected count less than 5. The minimum expected count is Y. Khi chạy không ra được kết quả kiểm định, các bạn cần để ý đến dòng này. Kiểm định Chi bình phương chỉ có ý nghĩa khi số quan sát đủ lớn, nếu có quá 20% số ô trong bảng Crosstabulation có tần số nhỏ hơn 5 thì Chi-Square không còn mang ý nghĩa chính xác hoặc có thể kết quả kiểm định không thực hiện được và báo lỗi. Khi xảy ra trường hợp này, các bạn cần tăng số lượng đáp viên ở các nhóm đáp án có dưới 5 người trả lời hoặc mã hóa lại biến để tăng số lượng người ở mỗi đáp án lên đủ lớn. Ví dụ nhóm Thâm niên chỉ có 3 người chọn vào Trên 5 năm, chúng ta phải khảo sát thêm để số lượng trên 5 người.
Nếu bạn đang gặp khó khăn trong tìm kiếm dữ liệu phù hợp cho phân tích SPSS nhằm đảm bảo các tiêu chí kiểm định. Bạn có thể tham khảo việc mua số liệu SPSS của Phạm Lộc Blog để có được kết quả tốt nhất và tối ưu về thời gian nhất.
Kết quả Sig từ Chi-Square Test chỉ nói lên được 2 biến có mối quan hệ hay không. Nếu 2 biến này có sự liên kết với nhau thì chúng ta sẽ cần đánh giá mức độ liên kết giữa 2 biến qua giá trị Value của kiểm định Phi và Cramer’s V. Kiểm định Phi chỉ phù hợp khi xem xét mối quan hệ giữa 2 biến mà mỗi biến chỉ có 2 giá trị, nếu một trong hai biến có từ 3 giá trị trở lên chúng ta sẽ dùng kết quả của Cramer’s V. Cụ thể trong bảng kết quả ở trên, chúng ta đọc chỉ số Value của Cramer’ V, hệ số này là 0.429 = 42.9%, như vậy 2 biến này có sự tương quan khá cao.
Đồ thị cột biểu diễn tần số người trả lời (số đáp viên) của mỗi giá trị của biến này khi so với biến còn lại, đây là đồ thị biểu diễn kết quả bảng Crosstablulation. Ví dụ, thâm niên Dưới 1 năm, thì màu xanh dương và màu hồng có số lượng người trên 20 người, màu xanh lá có số lượng tầm dưới 10 người.
Trong luận văn, kiểm định Chi bình phương hay còn gọi là kiểm định Crosstab thường được ứng dụng nhiều khi chúng ta cần phân tích sâu hơn mối quan hệ giữa các đặc điểm nhân khẩu học của đáp viên hoặc phân tích sự liên kết các yếu tố trong thị trường… Đây là một công cụ mạnh hỗ trợ chúng ta đưa ra giải pháp cho bài nghiên cứu.