Simulacrum, từ simulacrum Latin, là một sự bắt chước, giả mạo hoặc hư cấu. Khái niệm này được liên kết với mô phỏng, đó là hành động mô phỏng .Một...
Xử lí dữ liệu thô với dữ liệu sơ cấp | RCES | Cộng đồng sinh viên kinh tế nghiên cứu khoa học
Đối với các nghiên cứu sử dụng dữ liệu sơ cấp, sau quá trình điều tra khảo sát người nghiên cứu sẽ có được dữ liệu để phục vụ nghiên cứu. Tuy nhiên, vì nhiều nguyên nhân chủ quan và khách quan, các dữ liệu này có thể mắc một số lỗi và cần xử lý trước khi được sử dụng để phân tích trong đề tài nghiên cứu. Hãy cùng Cộng đồng RCES tìm hiểu các cách xử lý dữ liệu thô với số liệu sơ cấp trong bài viết này nhé!
1. Xử lý các câu trả lời giống nhau
Khi tích lũy xong câu hỏi sơ cấp, một trong những trường hợp mà người điều tra và nghiên cứu hoàn toàn có thể gặp phải đó là câu vấn đáp của người được khảo sát có giá trị như nhau so với mọi câu hỏi. Ví dụ như khi khảo sát về chất lượng dịch vụ, người được khảo sát luôn vấn đáp ở mức 5 – trọn vẹn chấp thuận đồng ý. Để phát hiện những trường hợp này, trong excel bạn hoàn toàn có thể dùng một cách đơn thuần đó là dùng hàm AVERAGE tính trung bình những câu vấn đáp, nếu tác dụng ra số chẵn, đó là mãu khảo sát có chứa những câu vấn đáp trùng nhau .
Bạn đang đọc: Xử lí dữ liệu thô với dữ liệu sơ cấp | RCES | Cộng đồng sinh viên kinh tế nghiên cứu khoa học
Mẫu khảo sát với câu vấn đáp có giá trị bằng 4 giống nhau tại mọi câu hỏi .
Về mặt kim chỉ nan, đây là trường hợp trọn vẹn hoàn toàn có thể xảy ra, tuy nhiên thực tiễn rất ít trường hợp như vậy. Nếu người điều tra và nghiên cứu hoài nghi tính chân thực của những dữ liệu này thì cách xử lý đơn thuần đó là xóa chúng khỏi bảng hiệu quả và thực thi những bước tiếp theo của bài điều tra và nghiên cứu .
2. Xử lý giá trị trống (missing values)
2.1. Giá trị trống là gì?
Giá trị trống hoàn toàn có thể hiểu là một số ít dữ liệu nào đó trong bảng số liệu bị lỗi. Lỗi này hoàn toàn có thể là không có thông tin, thông tin sai hoặc thông tin không hợp logic ( trong bài này tất cả chúng ta sẽ chỉ nói đến lỗi không có thông tin và thông tin sai ) .
Nguyên nhân gây ra giá trị trống hoàn toàn có thể do người vấn đáp không muốn vấn đáp, do thiếu cẩn trọng nên bỏ lỡ một số ít câu hỏi hoặc do quy trình nhập liệu có sai sót. Tỷ lệ giá trị trống nhiều khiến cho số liệu giảm đi tính thuyết phục, thế cho nên “ phòng bệnh hơn chữa bệnh ”, người điều tra và nghiên cứu nên tuân thủ và triển khai tốt những quá trình tìm hiểu khảo sát để hạn chế tối đa sự Open của những giá trị trống .
2.2. Phát hiện giá trị trống
Để phát hiện những giá trị trống, sau khi đã mã hóa xong dữ liệu trên SPSS những bạn triển khai theo những bước sau :
- Chọn Analyze → Descriptive Statistics →
- Di chuyển biến cần kiểm tra vào cửa sổ Variable(s).
- Bấm OK.
Kết quả Frequencies Open như sau :
Trong hình là kết quả Frequencies cho biến c11, các bạn có thể thế missing có giá trị bằng 0 nghĩa là biến không có giá trị trống nào. Các giá trị hợp lý của biên tương ứng từ 1 tới 5 với tần số suất hiện như kết quả trong bảng thứ 2.
Nếu đã xác lập được biến có giá trị trống, bạn triển khai theo những bước sau để tìm tới ô có giá trị trống đó :
- Chọn Edit →
- Nhập giá trị cần tìm vào ô Find → Find Next.
2.3. Xử lý giá trị trống
Có 3 cách xử lý khi gặp vấn đề dữ liệu trống như sau:
Cách 1: Xóa những quan sát có chứa giá trị trống
Ví dụ, so với mỗi giá trị trống trong tập dữ liệu, bạn hoàn toàn có thể xóa những quan sát ứng với những giá trị trống. Vì vậy, phần còn lại trong dữ liệu bạn là không thiếu dữ liệu cho tổng thể những quan sát. Điểm bất lợi của cách này là làm giảm kích cỡ mẫu dữ liệu của bạn .
Nếu bạn có một tập dữ liệu lớn, thì đây không phải là một bất lợi lớn do tại bạn có đủ quan sát sau khi vô hiệu những quan sát có chứa giá trị trống. Một bất lợi khác của cách này đó là những quan sát có chứa giá trị trống hoàn toàn có thể khác với những quan sát không chứa giá trị trống ( ví dụ điển hình, giá trị trống không ngẫu nhiên ), cho nên vì thế mẫu sau khi vô hiệu những quan sát chứa giá trị trống sẽ không còn đại diện thay mặt tốt. Ở đây, tất cả chúng ta chỉ sử dụng cách này khi những đối tượng người tiêu dùng nghiên cứu và điều tra đơn cử không vấn đáp trong hàng loạt thang đo hoặc bảng câu hỏi điều tra và nghiên cứu .
(*) Lưu ý: Khi sử dụng cách này, nhóm nghiên cứu nên rà soát các câu trả lời của bảng hỏi thu được trước khi mã hóa vào phần mềm (coding) để kiểm tra xem có sự xuất hiện của giá trị trống không. Nếu có, nhóm nghiên cứu nên loại bỏ ngày và không cần mã hoá nữa để tiết kiệm thời gian cho nghiên cứu của mình.
Cách 2: Không làm gì cả
Cách này giữ nguyên dữ liệu như cũ với những giá trị trống của nó. Đây là cách thường được sử dụng nhất bởi những lí do sau .
- Thứ nhất, số lượng giá trị trống thông thường là ít
- Thứ hai, các giá trị trống thông thường là không ngẫu nhiê
- Thứ ba, thậm chí nếu có một vài giá trị trống ở một số quan sát riêng rẻ, thông thường bạn sẽ tạo một biến mới bằng cách các tổ hợp trung bình các quan sát (biến mới này sẽ không chứa giá trị trống bởi nó là trung bình của các dữ liệu hiện có).
Tuy nhiên, nếu bạn chọn cách này, bạn cần hiểu cách SPSS thực hiện ra sao. SPSS sử dụng “listwise deletion” hoặc là “pairwise deletion” trong phần Analyze → Missing Values Analysis.
- Listwise deletion – SPSS sẽ không bao gồm các quan sát của biến có giá trị trống trong các phân tí Nếu bạn chỉ phân tích trên một biến thì Listwise deletion đơn giản chỉ là phân tích trên dữ liệu hiện có. Nếu bạn thực hiện phân tích trên nhiều biến thì Listwise deletion sẽ loại bỏ những quan sát có giá trị trống của tất cả các biến. Điểm bất lợi ở đây là làm mất dữ liệu bởi vì chúng ta đã loại bỏ tất cả những quan sát của tất cả các biến có chứa giá trị trống (mặc dù ở những quan sát này, các biến không chứa giá trị trống nhưng một biến nào đó có chứa giá trị trống thì tất cả đều bị loại bỏ).
- Pairwise deletion – SPSS sẽ bao gồm tất cả các dữ liệu hiện có. Không giống như Listwise deletion phải loại bỏ tất cả các quan sát của tất cả các biến có chứa giá trị trống, Pairwise deletion chỉ loại bỏ những giá trị trống cụ thể (không phải toàn bộ) trong các phân tích. Mặt khác, nó tính đến tất cả dữ liệu hiện có. Chẳng hạn, nếu bạn muốn thực hiện kiểm tra tương quan giữa các biến thì SPSS sẽ thực hiện sự tương quan từng cặp (bivariate correlation) giữa các điểm dữ liệu, và chỉ bỏ qua những giá trị trống nếu nó tồn tại ở một số biế Trong trường hợp này, kết quả Pairwise deletion sẽ cho thấy các cở mẫu khác nhau cho mỗi sự tương quan. Pairwise deletion sẽ hữu ích khi kích thước mẫu nhỏ hoặc giá trị trống lớn.
Để hiểu rõ hơn về yếu tố này, cách tốt nhất là lần lượt thực thi cả hai trường hợp Listwise deletion và Pairwise deletion và so sánh tác dụng của chúng. LƯU Ý : với mỗi loại kiểm định thực thi, bạn phải chỉ cho SPSS biết là sử dụng Listwise deletion hay Pairwise deletion. Chẳng hạn, tất cả chúng ta sử dụng lệnh Explore. Nếu bạn nghiên cứu và phân tích nhiều hơn một biến bằng lệnh Explore, bảo vệ rằng bạn chọn “ Options ” và “ Exclude cases pairwise ” chính bới tùy chọn mặc định là Listwise deletion. Phần lớn những kiểm định cho bạn bạn chọn Listwise deletion hay Pairwise deletion, nhưng GLM Multivariate chỉ cho phép bạn chọn Listwise deletion. Vì vậy, ghi nhớ luôn kiểm tra số quan sát trong mỗi hiệu quả nghiên cứu và phân tích .
Cách 3: Thay thế các giá trị trống
Có nhiều tranh cãi về việc có nên sửa chữa thay thế giá trị trống hay không. Có một vài sự không đồng thuận, và một số ít người cho rằng nên thay thế sửa chữa giá trị trống. Chẳng hạn, thường thì tất cả chúng ta thực thi thay thế sửa chữa bằng giá trị trung bình ( Mean substitution ) hoặc thay thế sửa chữa bằng giá trị ước đạt ( Regression substitution ) .
- Thay thế bằng giá trị trung bình là việc thay thế các giá trị trống bằng giá trị trung bình của biế
- Thay thế bằng giá trị ước lượng là việc thay thế các giá trị trống bằng giá trị biểu thức ước lượng của biến dự báo dựa vào những biến khá
Cả thay thế bằng giá trị trung bình và thay thế bằng giá trị ước lượng có thể được thực hiện bằng cách sử dụng: Transform → Replace Missing Cases.
(*) Lưu ý: Nếu bạn thực hiện bảng hỏi online thông qua các bảng hỏi online (ví dụ Google form, Jot form, …), bạn nên chú ý đánh dấu trả lời bắt buộc cho các câu hỏi để tránh tình trạng giá trị trống xảy ra.
Tài liệu tham khảo:
[1] Làm sạch dữ liệu trong bảng dữ liệu SPSS (Nguồn: Tại đây)
Xem thêm: Tin học 12 Bài 12: Các loại kiến trúc của hệ cơ sở dữ liệu | Hay nhất Giải bài tập Tin học 12
[ 2 ] Thay thế giá trị trống – missing values ( Nguồn : Tại đây )
>> Xem thêm : Hướng dẫn tạo bảng hỏi khảo sát trực tuyến với Google form
Cộng đồng sinh viên kinh tế nghiên cứu khoa học (RCES)
Source: https://vh2.com.vn
Category : Tin Học