Trong bài viết Kinh nghiệm trong lựa chọn giữa PLS-SEM và CB-SEM, chúng ta đã biết rằng PLS-SEM nói chung và SMARTPLS nói riêng vẫn xử lý rất tốt với tập dữ liệu mẫu nghiên cứu nhỏ. Vậy nhỏ thì bao nhiêu là tối thiểu?
1. Công thức chọn mẫu mô hình SMARTPLS
Hair và cộng sự (2014) trong cuốn A Primer on Partial Least Squares Structural Equation Modeling đã xuất quy tắc 10 lần (10 times rule) để xác định mẫu tối thiểu trong PLS-SEM. Quy tắc này như sau:
#1. Mẫu tối thiểu sẽ bằng 10 lần số biến quan sát của một cấu trúc thang đo (biến) dạng nguyên nhân có nhiều biến quan sát nhất.
#2. Mẫu tối thiểu sẽ bằng 10 lần số đường dẫn tác động hướng vào một cấu trúc thang đo có nhiều đường dẫn hướng vào nó nhất.
Nếu mô hình không có cấu trúc thang đo nguyên nhân (formative) thì chúng ta sẽ dùng công thức số 2 (xem khái niệm thang đo nguyên nhân tại bài viết này). Nếu mô hình có cấu trúc thang đo nguyên nhân, chúng ta sẽ tính mẫu tối thiểu ở cả hai công thức và chọn cỡ mẫu lớn hơn để làm mẫu tối thiểu.
Để làm rõ hơn về công thức tính, chúng ta sẽ đi qua ví dụ mô hình sau đây:
Theo công thức số 1, chúng ta sẽ xét mô hình có cấu trúc thang đo dạng nguyên nhân hay không. Ở mô hình trên có hai cấu trúc dạng nguyên nhân là TL và CV. TL có bốn biến quan sát còn CV chỉ có hai biến quan sát, do đó chúng ta sẽ áp dụng quy tắc 10 lần dựa vào TL vì có nhiều biến quan sát nhất. Mẫu tối thiểu của mô hình sẽ là: 10*số biến quan sát của TL = 10*4 = 40. Trường hợp nếu mô hình không có thang đo nguyên nhân, chúng ta bỏ qua.
Theo công thức số 2, chúng ta sẽ xét các cấu trúc (biến) có vai trò phụ thuộc trong mô hình (cấu trúc có vai trò phụ thuộc là cấu trúc nhận mũi tên tác động từ cấu trúc khác hướng về nó, không tính cấu trúc bậc hai dạng nguyên nhân). Ở mô hình trên có hai cấu trúc có vai trò phụ thuộc là HL và GB. HL nhận ba mũi tên tác động hướng về nó, còn GB chỉ nhận một mũi tên hướng vào, như vậy chúng ta sẽ áp dụng quy tắc 10 lần dựa vào GB vì có nhiều mũi tên hướng vào nhất. Mẫu tối thiểu của mô hình sẽ là: 10*số mũi tên hướng vào HL = 10*3 = 30.
Do mô hình trên có xuất hiện cả cấu trúc thang đo nguyên nhân. Xét hai cỡ mẫu tối thiểu, cỡ mẫu theo công thức số 1 lớn hơn nên chúng ta chọn mẫu tối thiểu của mô hình là 40.
2. Cỡ mẫu tối thiểu chỉ là “tối thiểu”
Kích thước mẫu tối thiểu sẽ bảo đảm rằng trong trường hợp quá khó để thu thập dữ liệu thì mức tối thiểu này sẽ có thể cho chúng ta một kết quả thống kê đạt điều kiện để đánh giá. Tuy nhiên, cỡ mẫu càng lớn thì nghiên cứu càng có giá trị, các ước lượng thống kê sẽ càng đại diện tốt cho tổng thể.
Như ví dụ mô hình bên trên, về mặt công thức lấy mẫu tối thiểu thì mẫu 40 đạt theo đúng công thức. Nhưng trên thực tế nghiên cứu, với mô hình và lượng biến quan sát như vậy thì mẫu 40 quá nhỏ để bài nghiên cứu có giá trị. Về mặt kinh nghiệm trong quá trình xử lý dữ liệu cũng như tham khảo các nghiên cứu tại Việt Nam và Thế giới, cỡ mẫu tối thiểu khi xử lý SMARTPLS nên tầm hơn 100, khoảng tốt là nên từ 150-250, và càng lớn càng tốt.