Việc xác định đúng dạng biến có vai trò quan trọng trong xử lý dữ liệu bởi nhiều kiểm định yêu cầu dữ liệu đầu vào là biến định lượng, nhưng chúng ta lại mắc lỗi đưa các biến định tính vào thực hiện chạy phân tích. Dù là biến định tính hay biến định lượng, dù là đưa biến vào sai hay đúng chúng ta đều chạy ra các bảng kết quả. Nhưng việc đưa biến vào sai, kết quả chạy ra chỉ đơn thuần là các con số vô nghĩa, nó không phản ánh đặc điểm của dữ liệu. Do vậy, các bạn cần phải hết sức lưu ý, luôn kiểm tra xem một phép kiểm định có yêu cầu đầu vào là gì: biến là loại gì, có được phép có missing value không, có yêu cầu điều kiện cỡ mẫu tối thiểu không,… Nếu dữ liệu thỏa điều kiện đầu vào, chúng ta mới được phép thực hiện kiểm định đó.
Bài viết này không đi vào khái niệm hàn lâm về biến định tính và biến định lượng, các bạn có thể tìm kiếm trên Google sẽ ra rất nhiều bài viết và cả Wikipedia đã đưa thông tin chi tiết về hai loại biến này. Dưới đây, mình sẽ giải thích về khái niệm biến định tính và định lượng trong xử lý dữ liệu một cách đơn giản để các bạn có thể hiểu và sử dụng đúng khi chạy các kiểm định mà loại biến là một điều kiện đầu vào quan trọng.
1. Biến định tính (biến phân loại) là gì?
Biến định tính (qualitative variable) còn gọi là biến phân loại (categorical variable) giúp cho việc phân loại các đối tượng nghiên cứu thành các nhóm khác nhau. Khi xử lý dữ liệu, nhà nghiên cứu sẽ mã hóa các giá trị của biến định tính thành các con số 1, 2, 3,… nhưng các con số này hoàn toàn chỉ mang tính chất quy ước chứ không phải là giá trị thực của biến.
Ví dụ: Biến độ tuổi chúng ta chia thành các nhóm tuổi: (1) dưới 22 tuổi, (2) từ 22 đến 30 tuổi, (3) từ 31 đến 50 tuổi, (4) trên 50 tuổi. Đây là một biến định tính bởi nó phân loại đối tượng thành các nhóm tuổi khác nhau. Bốn nhóm tuổi được quy ước thành các con số 1-2-3-4 trong xử lý dữ liệu, nó đơn thuần là giá trị quy ước chứ không phải là số tuổi chính xác của đáp viên. Đáp viên có tuổi là 25 được mã hóa thành giá trị 2 (từ 22 đến 30 tuổi) của biến độ tuổi thì con số 25 là giá trị thực (giá trị định lượng) còn số 2 trong dữ liệu là số quy ước (giá trị định tính).
2. Biến định lượng là gì?
Biến định lượng (quantiative variable) những biến mà các giá trị của chúng là các con số giá trị thực. Biến định lượng chia làm hai loại là liên tục và rời tạc.
Biến liên tục (continuous variable) là biến số có thể nhận bất kỳ giá trị nào trong một khoảng nhất định, tức biến thiên mà không bị gián đoạn.
Ví dụ 1: Nhiệt độ trong ngày là một biến ngẫu nhiên liên tục, không thể liệt kê hết tất cả các giá trị có thể, và thường nói giá trị nhỏ nhất và giá trị lớn nhất: chẳng hạn như nhiệt độ trong khoảng 20 độ C đến 30 độ C; khi đó X đơn vị là độ C, và X nằm trong khoảng (20; 30).
Ví dụ 2: Cũng là biến độ tuổi nhưng dữ liệu chúng ta thu thập là con số tuổi chính xác của đáp viên thì biến này sẽ là biến định lượng. Chúng ta hỏi đáp viên “Tuổi của anh chị là:…..”, đáp viên điền vào số tuổi của họ, đó là giá trị thực.
Biến rời tạc (discrete variable) là biến số chỉ nhận các giá trị nguyên.
Ví dụ: Số con, số người trong gia đình, số lần xét nghiệm, số công nhân trong một doanh nghiệp, số sản phẩm sản xuất ra trong một ngày của 1 phân xưởng may.
(Tài liệu tham khảo: Nguyễn Văn Ngọc, Từ điển Kinh tế học, Đại học Kinh tế Quốc dân)
Biến được đo bằng thước đo Likert là biến định lượng dạng rời rạc.
3. Các lưu ý quan trọng
Biến có hai giá trị vừa là biến định tính vừa là biến định lượng.
Những biến có hai giá trị như giới tính (nam/nữ), quyết định mua (mua/không mua),… được xếp vào dạng vừa là định tính vừa là định lượng. Chính vì vậy, khi thực hiện các kiểm định yêu cầu loại biến đầu vào thì hầu như đa số các trường hợp, dạng biến hai giá trị đều có thể tham gia.
Ví dụ: Trong mô hình nghiên cứu, chúng ta xem xét sự tác động của biến kiểm soát giới tính gồm hai giá trị nam/nữ lên biến phụ thuộc sự hài lòng. Lúc này, chúng ta có thể:
- Thực hiện phân tích Independent Sample T-test hoặc One-way ANOVA. Đây là hai kiểm định yêu cầu hai biến tham gia: một biến định lượng và một biến định tính. Lúc này biến định lượng là sự hài lòng, biến định tính là giới tính.
- Thực hiện hồi quy tuyến tính hoặc SEM xem xét sự tác động từ giới tính lên sự hài lòng. Đây là kiểm định yêu cầu các biến tham gia đều phải là định lượng. Lúc này biến giới tính cũng là một biến định lượng nên hoàn toàn có thể tham gia vào mô hình hồi quy, mô hình SEM.
Biến định tính/định lượng được quyết định bởi dữ liệu của nó chứ không phải tên biến.
Để xác định một biến là định tính hay định lượng, chúng ta cần dựa vào đặc điểm dữ liệu của biến đó. Như ví dụ về biến độ tuổi đã đề cập ở mục số 1 và số 2 của bài viết, biến này đều có tên là độ tuổi, nhưng dữ liệu một bên là định tính, một bên là định lượng.
Hay một ví dụ khác về biến thu nhập. Nếu thu nhập chúng ta chia thành từng nhóm như dưới 10 triệu, từ 10 đến 20 triệu, trên 20 triệu thì đây là biến định tính. Nếu chúng ta để con số thu nhập chính xác của đáp viên thì đó là biến định lượng.
Chuyển đổi biến định tính về biến định lượng.
Chúng ta đã nói đến việc một biến có hai giá trị thì biến đó sẽ vừa là định tính vừa là định lượng. Cơ chế chuyển đổi biến định tính sang biến định lượng cũng dựa vào điều này. Kỹ thuật chuyển đổi biến định tính sang biến định lượng như vậy gọi là tạo biến giả (dummy variable). Các bạn có thể tìm hiểu về kỹ thuật này tại bài viết Hồi quy với biến độc lập định tính trên SPSS.
Khi bạn cần đánh giá mối quan hệ của biến định tính với các biến khác bằng hồi quy, SEM. Bạn cần chuyển đổi biến định tính về biến giả trước, sau đó mới dùng biến giả để đưa vào hồi quy, SEM.
Biến định tính và định lượng trong hồi quy và SEM.
Hồi quy và SEM là hai loại kiểm định yêu cầu các biến tham gia đều phải là định lượng.
– Nếu bạn đọc một kết quả hồi quy hay SEM có sự xuất hiện của biến giới tính. Bạn sẽ tự ngầm hiểu vì biến này có hai giá trị, nó vừa là biến định tính vừa là biến định lượng nên nó đảm bảo điều kiện đầu vào là biến định lượng.
– Nếu bạn đọc một kết quả hồi quy hay SEM có sự xuất hiện của biến độ tuổi, thu nhập, thâm niên, kinh nghiệm,… Bạn sẽ tự ngầm hiểu các biến này đang để ở dạng giá trị thực chứ không phải giá trị quy ước. Hay nói cách khác, dữ liệu các biến độ tuổi – thu nhập – thâm niên – kinh nghiệm lúc này đang là các con số chính xác chứ không phân ra thành từng nhóm tuổi, nhóm thu nhập, thâm niên, kinh nghiệm.
– Nếu bạn đọc một kết quả hồi quy hay SEM có sự xuất hiện của biến phòng ban, chức danh,… Bạn sẽ tự ngầm hiểu các biến định tính này đã được chuyển đổi sang dạng biến giả.