Phân tích thống kê mô tả bằng phần mềm Statgraphics – Hệ thống thông tin Thống kê KH&CN

Phân tích thống kê mô tả bằng phần mềm Statgraphics

Thống kê mô tả là một trong những phương pháp xử lý dữ liệu cung cấp thông tin mô tả một cách chính xác những đặc điểm của mẫu nghiên cứu. Bài viết này sẽ cung cấp cái nhìn tổng quát về thống kê mô tả, cách thực hiện phân tích thống kê mô tả trong Statgraphics để mô tả đặc điểm dữ liệu.

Trong các hoạt động nghiên cứu khoa học, người nghiên cứu sẽ tiến hành phân tích dữ liệu và diễn giải nhằm kiểm chứng hoặc rút ra những kiến thức nào đó. Đây là quá trình ứng dụng logic suy diễn và quy nạp vào nghiên cứu. Đối với biến số định lượng, việc xử lý dữ liệu bằng các phần mềm là cần thiết để đơn giản hóa quá trình xử lý và chạy mô hình để phục vụ diễn giải, đánh giá kết quả. Phần mềm được lựa chọn tùy theo đặc điểm của dữ liệu. Việc lựa chọn các loại test kiểm định thống kê căn cứ theo dạng thống kê (mô tả, tương quan, so sánh) và tính chất của biến số.

Quá trình phân tích dữ liệu gồm nhiều bước: tổ chức dữ liệu, tóm tắt và phân loại dữ liệu, phân tích dữ liệu. Tùy theo thiết kế nghiên cứu mà sử dụng phương pháp phân tích dữ liệu phù hợp: phân tích thống kê để mô tả, phân tích thống kê để tìm tương quan giữa hai biến số và phân tích thống kê để so sánh giữa các biến số.

 

Phân tích thống kê để mô tả

Thống kê mô tả (Descriptive Statistics) là thuật ngữ chỉ các hệ số mô tả ngắn gọn hay tóm tắt một tập dữ liệu nhất định, có thể là đại diện cho toàn bộ hoặc một mẫu của một tổng thể nghiên cứu. Trong đó, tổng thể nghiên cứu (hay tổng thể – N) là toàn bộ các phần tử (hay cá thể) có cùng một (hay một số) đặc trưng định tính (hay định lượng) nào đó của đối tượng nghiên cứu. Mẫu là một bộ phận hữu hạn của tổng thể gồm n cá thể (n<N) được gọi là dung lượng mẫu, dùng để điều tra, khảo sát, đo đếm và thu thập số liệu. Sau đó, người nghiên cứu sẽ sử dụng các thuật toán theo lý thuyết xác suất để suy đoán những hiện tượng, quy luật của tổng thể.

Cụ thể, để có những thông số đặc trưng về một đối tượng nghiên cứu (ví dụ như sinh trưởng của một lô rừng, sự đa dạng loài của lô rừng, sự ảnh hưởng của cháy rừng đến mật độ, chất lượng tái sinh, biến động trữ lượng, mật độ của một lô rừng trồng,…) cần tiến thành thu thập dữ liệu theo một nhân tố chủ đạo (ví dụ như số lượng, chiều cao, khối lượng…) và sau đó ước lượng, tính toán các đặc trưng cơ bản.

Đặc trưng mẫu bao gồm các chỉ tiêu: số trung bình, số trung vị, phương sai, sai tiêu chuẩn, độ lệch, độ nhọn của dãy số liệu quan sát, phạm vi biến động của nó với một mức sai số cho phép cho trước và các biểu đồ phân bố.

 

Cách thực hiện thống kê mô tả bằng phần mềm Statgraphics

Ví dụ: khảo sát trữ lượng của một trạng thái rừng, sử dụng ô mẫu để đo tính trữ lượng m3/ha (M), tính toán các đặc trưng cơ bản về trữ lượng rừng.

Bảng dữ liệu thí nghiệm:

Có thể tính toán các đặc trưng mẫu bằng phần mềm Statgraphics, theo các bước như sau:

Bước 1: Nhập dữ liệu vào “DataBook”

Có 2 cách để nhập dữ liệu:

  • Cách 1: Nhập trực tiếp vào “DataBook”
  • Cách 2: Nhập dữ liệu vào một phần mềm khác như Excel, sau đó copy hay load vào phần mềm Statgraphics.

=> Sau khi nhập vào “DataBook” cho kết quả dữ liệu có trong Statgraphics:

Bước 2: Tính toán các đặc trưng mẫu trong Statgraphics: Chọn Describe/Numeric Data/One-Variable Analysis

Trong hộp thoại chọn biến (đại lượng) tính đặc trưng mẫu (ví dụ là M)

Bước 3: Lựa chọn kết quả mô tả mẫu

Bước 4: Đọc kết quả thống kê

a) Tóm tắt các chỉ tiêu thống kê mẫu (lựa chọn Summary Statistics)

Ý nghĩa của kết quả thống kê:

  • Count (n): Dung lượng mẫu.
  • Average (Xbq): Số trung bình.
  • Standard deviation (S): Sai tiêu chuẩn mẫu.
  • Coeff. of variation: Hệ số biến động CV% = S/X*100
  • Minimum: Trị số quan sát bé nhất.
  • Maximum: Trị số quan sát lớn nhất.
  • Range: Trung vị của dãy quan sát
  • Stnd. skewness: Độ lệch
  • Stnd. kurtosis: Độ nhọn

b) Biến động của giá trị trung bình và ước lượng với độ tin cậy cho trước (lựa chọn Confidence Intervals)

Ý nghĩa của kết quả thống kê:

Giá trị Confidence interval (95%) cho phép ước lượng phạm vi biến động của số trung bình với độ tin cậy 95%. Tùy theo yêu cầu của cuộc điều tra đánh giá, thí nghiệm mà chọn mức độ tin cậy khác nhau: 90%, 95%, 99%. Như vậy với độ tin cậy 95% thì M biến động trong khoảng: M = 51.6 ± 8.5 m3.

c) Các biểu đồ biểu diễn đặc trưng mẫu

Có 3 loại biểu đồ dùng để biểu diễn đặc trưng mẫu:

  • Sơ đồ hộp biến động giá trị bình quân (Box – and Whisker Plot)
  • Frequency Histogram
  • Normal Probability Plot

Lưu ý: thống kê mô tả được sử dụng để mô tả những đặc tính cơ bản của dữ liệu thu thập được từ nghiên cứu thực nghiệm qua các cách thức khác nhau. Tuy nhiên, việc thống kê này chỉ dừng lại ở việc mô tả khái quát mức đánh giá của đối tượng nghiên cứu (mức điểm trên thang đo, các mức nhỏ nhất, lớn nhất và độ lệch chuẩn của mỗi biến quan sát).

Vân Anh

—————————————-

Tài liệu tham khảo:

[1] PGS.TS Bảo Huy. Phân tích thống kê trong nghiên cứu thực nghiệm lâm nghiệp – quản lý tài nguyên rừng – môi trường (2015)
[2] Cơ sở toán học của các phép xử lý thống kê trong nghiên cứu khoa học nông nghiệp, PGS. TS. Phan Thanh Kiếm (2010) https://vi.wikipedia.org/wiki/Th%E1%BB%91ng_k%C3%AA_m%C3%B4_t%E1%BA%A3
[3] Bùi Văn Thế Vinh. Bài giảng Ứng dụng tin học trong công nghệ sinh học (2008)

 

—————————————————————————————————

QUÝ ANH/CHỊ CẦN HỖ TRỢ XỬ LÝ, PHÂN TÍCH DỮ LIỆU VUI LÒNG GỬI THÔNG TIN QUA FORM DƯỚI ĐÂY

CHÚNG TÔI SẼ LIÊN HỆ VÀ PHÚC ĐÁP TRONG THỜI GIAN SỚM NHẤT

Đang tải…

Xổ số miền Bắc