Thống kê ứng dụng Chương 1

  1. CHƯƠNG 1
    THỐNG KÊ

    MÔ TẢ
    THS HUỲNH TỐ UYÊN
    1

  2. • Thống kê

    là một nhánh của toán học
    liên quan đến việc thu thập, trình bày
    và phân tích các dữ liệu.
    1. Khái niệm
    2
    I. KHÁI NIỆM THỐNG KÊ VÀ
    CÁC LOẠI THANG ĐO DỮ LIỆU

  3. • Quá trình

    nghiên cứu thống kê trải qua 3
    giai đoạn có quan hệ chặt chẽ và mật thiết
    với nhau, trong đó giai đoạn trước làm
    tiền đề để thực hiện giai đoạn sau.
    • Giai đoạn điều tra thống kê: bao gồm
    ghi chép, thu thập tài liệu thống kê.
    • Giai đoạn tổng hợp và trình bày kết quả
    điều tra thu thập được.
    • Giai đoạn phân tích và dự báo thống kê.
    2. Chức năng của thống kê
    3

  4. • Như vậy,

    thống kê có hai lĩnh vực:
    • Thống kê mô tả bao gồm các phương
    pháp thu thập, trình bày dữ liệu và tính
    toán các đặc trưng nhằm mô tả đối
    tượng nghiên cứu.
    • Thống kê suy diễn bao gồm các phương
    pháp mô hình hoá trên các dữ liệu quan
    sát để đưa ra các suy diễn về đối tượng
    được nghiên cứu.
    2. Chức năng của thống kê
    4

  5. • 3.1. Tổng

    thể, đơn vị tổng thể, mẫu
    • Tổng thể là tập hợp tất cả các đối
    tượng mà ta nghiên cứu. Các đơn vị
    (hay phần tử) tạo thành tổng thể được
    gọi là đơn vị tổng thể. Mẫu là một bộ
    phận lấy ra từ tổng thể.
    3. Các khái niệm cơ bản.
    5
    Ví dụ 1: Để nghiên cứu điểm trung bình
    môn Toán của sinh viên Trường ĐH, người
    ta đã xét bảng điểm của 250 sinh viên. Hãy
    chỉ ra tổng thể, đơn vị tổng thể và mẫu ?

  6. • 3.2. Đặc

    điểm thống kê
    • Biến là khái niệm dùng để chỉ các đặc
    điểm của đơn vị tổng thể mà ta nghiên
    cứu.
    • Dữ liệu là kết quả, giá trị quan sát được
    của các biến.
    3. Các khái niệm cơ bản.
    6
    Ví dụ 2: Để nghiên cứu sinh viên trường ĐH,
    ta cần nghiên cứu các biến (hay các tiêu thức)
    như: giới tính, tuổi, dân tộc, ngành học, số
    tiền chi tiêu trong 1 tháng…

  7. • 3.2. Đặc

    điểm thống kê
    • Biến định tính (hay tiêu thức thuộc tính)
    phản ánh tính chất, loại hình, không thể
    hiện trực tiếp bằng các con số.
    • Biến định lượng (hay tiêu thức số
    lượng) biểu hiện trực tiếp bằng con số.
    3. Các khái niệm cơ bản.
    7
    Ví dụ 3: Phân loại biến định tính và biến
    định lượng trong ví dụ 2?
    Biến định tính: giới tính, dân tộc, ngành học.
    Biến định lượng: tuổi, số tiền chi tiêu trong 1
    tháng

  8. • 3.2. Đặc

    điểm thống kê
    • Quan sát: tập hợp tất cả các dữ liệu thu
    thập được của một đơn vị tổng thể hay
    mẫu.
    3. Các khái niệm cơ bản.
    8
    Ví dụ 4:
    •Quan sát 1: giới tính: nam ; tuổi:20 ; dân
    tộc:Kinh ; ngành học:401 ; tiền chi tiêu
    trong tháng: 2,5 triệu đồng
    •Quan sát 2: giới tính: nữ ; tuổi:21 ; dân
    tộc:Tày ; ngành học:402 ; tiền chi tiêu
    trong tháng: 2 triệu đồng

  9. • Trong thống

    kê người ta sử dụng bốn cấp
    bậc đo lường theo mức độ thông tin tăng
    dần, đó là thang đo: định danh, thứ bậc,
    khoảng và tỉ lệ.
    4. Các cấp bậc đo lường và thang đo.
    9
    Ví dụ: Giới tính, màu sắc, nhãn hiệu,
    tình trạng hôn nhân,… là thang đo định
    danh.
    4.1. Thang đo định danh:
    Thang đo định danh (hay thang đo phân loại)
    không thể hiện sự hơn kém. Thang đo này
    được sử dụng cho các dữ liệu định tính.

  10. • 4.1. Thang

    đo định danh:
    • Người ta thường sử dụng các số để phân
    loại các đối tượng, đây là các mã số dùng
    để đếm số lần xuất hiện, không phải để so
    sánh hơn kém
    4. Các cấp bậc đo lường và thang đo.
    10
    Ví dụ: Câu hỏi điều tra: bạn hiện đang
    sống ở đâu? ( Chọn từ 1 đến 4 )
    1. Sống cùng gia đình
    2. Ký túc xá
    3. Nhà trọ
    4. Trường hợp khác

  11. • 4.2. Thang

    đo thứ bậc:
    • Là thang đo định danh nhưng thể hiện sự hơn
    kém của dữ liệu, không biết chính xác mức
    độ hơn kém đó.
    • Thang đo này được sử dụng cho các dữ liệu
    định tính và cả định lượng.
    4. Các cấp bậc đo lường và thang đo.
    11
    Ví dụ:
    • Đo thái độ đ/v hành vi nào đó (hoàn toàn
    đồng ý, đồng ý, chưa qđ, ht không đồng ý)
    •Huân chương độc lập hạng Nhất, Nhì, Ba
    •Thu nhập của bạn trong 1 tháng là?
    − dưới 2 triệu
    − từ 2 đến 4 triệu
    − trên 4 triệu

  12. • 4.3. Thang

    đo khoảng:
    • Thang đo khoảng là thang đo thứ bậc có
    khoảng cách đều nhau. Thang đo này đánh
    giá chính xác mức độ hơn kém cụ thể
    • Thang đo này được sử dụng cho các dữ liệu
    định tính và cả định lượng.
    4. Các cấp bậc đo lường và thang đo.
    12
    Ví dụ: Thu nhập bình quân 1 tháng của bạn là:
    1. Từ 1,5 triệu đến 2 triệu
    2. Từ 2 triệu đến 2,5 triệu
    3. Từ 2,5 triệu đến 3 triệu
    Khoảng cách đều nhau bằng 500 ngàn đồng
    Thực hiện được các phép toán cộng trừ.

  13. • 4.3. Thang

    đo khoảng:
    4. Các cấp bậc đo lường và thang đo.
    13
    Ví dụ: Bạn hãy cho biết ý kiến về chất lượng
    phòng trọ ở khu vực làng đại học ? ( Hãy ghi
    vào kế bên theo mức độ 1: rất tệ, 2: tệ, 3: bình
    thường, 4: tốt, 5 : rất tốt)
    − Không gian sinh hoạt …..
    − Ánh sáng …..
    − Vệ sinh …..
    − An ninh…..
    NHƯỢC ĐIỂM:
    Không có điểm gốc 0 trên thực tế mà chỉ có
    điểm các khoảng theo trật tự nào đó, nếu có
    điểm 0 thì đó chỉ là quy ước.

  14. • 4.4. Thang

    đo tỉ lệ:
    • Là thang đo khoảng với điểm gốc 0 tuyệt đối
    (một giá trị thật) -> điểm xuất phát của độ dài
    đo lường trên thang đo => có thể so sánh tỉ lệ
    giữa các trị số đo
    • Là loại thang đo dùng cho các dữ liệu định
    lượng. Đây là thang đo ở bậc cao nhất trong hệ
    thống thang đo.
    4. Các cấp bậc đo lường và thang đo.
    14
    Ví dụ:
    • Bạn nặng 80kg. Anh bạn nặng 40kg =>
    bạn nặng gấp đôi anh bạn (dù đổi ở bất cứ
    đơn vị nào).
    •Kg, tấn, tạ, km, m,… là thang đo tỉ lệ

  15. • Phân biệt

    thang đo khoảng và thang đo tỉ lệ: Trong
    thang đo tỉ lệ, giá trị 0 có nghĩa thật sự, cho phép
    lấy tỉ lệ, so sánh giữa hai giá trị thu thập.
    • Chỉ có thể đưa thang đo cao về thang đo thấp.
    • Tuy nhiên không phải lúc nào cũng sử dụng thang
    đo hoàn hảo=>tùy thuộc vào đặc điểm của hiện
    tượng, tiêu thức NC mà sd thích hợp.
    Chú ý
    15
    Ví dụ: điểm tổng kết của sinh viên:
    Thang đo khoảng:
    • từ 0-2 điểm
    • từ 2-4 điểm
    • từ 4-6 điểm
    • từ 6-8 điểm
    • từ 8-10 điểm
    Thang đo thứ bậc:
    • Kém
    • Yếu
    • Trung Bình
    • Khá
    • Giỏi

  16. Dữ liệu
    Dữ liệu

    định tính
    Thang đo
    định danh
    Thang đo
    thứ bậc
    Dữ liệu định lượng
    Thang đo
    khoảng
    Thang đo
    tỉ lệ
    16

  17. 17
    II. THU THẬP

    DỮ LIỆU
    KN dữ liệu thống kê:
    Là các sự kiện và số liệu được thu thập tổng hợp
    và phân tích để trình bày và giải thích ý nghĩa của
    chúng

  18. • Phải xác

    định rõ những dữ liệu nào cần thu
    thập, thứ tự ưu tiên của các dữ liệu này. Dữ
    liệu cần thu thập phụ thuộc vào vấn đề
    nghiên cứu.
    1. Xác định dữ liệu cần thu thập
    18
    Ví dụ 1. Nghiên cứu ảnh hưởng của điều kiện ăn ở, sinh
    hoạt đến kết quả học tập của sinh viên. Có hai nhóm dữ
    liệu chính cần thu thập là: (1) điều kiện ăn ở sinh hoạt; (2)
    kết quả học tập.
    Nhóm (1) cần thu thập dữ liệu liên quan như: Ở với cha mẹ
    hay ở kí túc xá, ở trọ? Có phòng riêng hay sống chung
    nhiều người? Chỗ ở cách trường bao xa? Chỗ ở có ồn ào
    hay không?…
    Không cần thu thập: bàn học làm bằng sắt hay gỗ? Nhà có
    phòng vệ sinh hiện đại không, có bồn tắm không?…

  19. • Dữ liệu

    định tính phản ánh tính chất, sự
    hơn kém của đối tượng nghiên cứu
    • Dữ liệu định lượng phản ánh mức độ của
    đối tượng
    1.1 Dữ liệu định tính và dữ liệu định lượng
    19
    Ví dụ:
    Trong ví dụ trên,
    Dữ liệu định tính: giới tính của sinh viên.
    Dữ liệu định lượng: điểm trung bình các
    môn học của SV

  20. • Dữ liệu

    thứ cấp: là dữ liệu được lấy từ
    nguồn có sẵn, thường đã được xử lý, tổng
    hợp
    • Dữ liệu sơ cấp: là dữ liệu được thu thập
    trực tiếp từ đối tượng nghiên cứu
    1.2 Dữ liệu thứ cấp và dữ liệu sơ cấp
    20
    Ví dụ:
    Dữ liệu thứ cấp: kết quả học tập của sinh
    viên
    Dữ liệu sơ cấp: điều kiện ăn ở sinh hoạt
    của sinh viên

  21. • Dữ liệu

    thứ cấp: Nội bộ ( của 1 doanh
    nghiệp, đơn vị trường học,…) Cơ quan
    thống kê ( Tổng cục thống kê, …)
    • Dữ liệu sơ cấp: Được thu thập trực tiếp tùy
    theo yêu cầu của nghiên cứu, từ doanh
    nghiệp, hộ gia đình, cá nhân, xã hội,…
    2. Nguồn thu thập dữ liệu
    21

  22. • Thực nghiệm

    Khảo sát qua điện thoại
    • Thư hỏi
    • Quan sát trực tiếp
    • Phỏng vấn cá nhân
    3. Các phương pháp thu thập dữ liệu sơ cấp
    22

  23. • 3.1. Các

    nội dung chính cần thực hiện
    trong thu thập dữ liệu
    • Xác định vấn đề, đối tượng, mục đích
    nghiên cứu.
    • Nghĩ ra câu hỏi và thiết kế bản câu hỏi
    hoàn chỉnh
    • Quyết định điều tra trên toàn bộ tổng thể
    hay trên mẫu.
    • Thực hiện thu thập dữ liệu
    3. Các phương pháp thu thập dữ liệu sơ cấp
    23

  24. • Ví dụ:

    Một nhóm sinh viên trường ĐH
    Kinh Tế Luật muốn điều tra về sự ảnh
    hưởng của điều kiện sinh hoạt đến độ cận
    thị của sinh viên trường ĐH Kinh Tế Luật.
    • Đối tượng điều tra: Toàn bộ sinh viên
    trường ĐH Kinh Tế Luật.
    • Bảng câu hỏi được điều tra như sau:
    3. Các phương pháp thu thập dữ liệu sơ cấp
    24

  25. • 1. Giới

    tính của bạn là: Nam/Nữ
    • 2. Bạn đang sống ở:
    • a. Gia đình, nhà người thân
    • b. Ký túc xá
    • c. Nhà trọ
    • 3. Một ngày bạn giành bao nhiêu thời gian cho việc
    tự học?
    • a. Dưới 3 giờ
    • b. Khoảng 3-5 giờ
    • c. Trên 5 giờ
    • 4. Một ngày bạn sử dụng máy vi tính bao lâu?
    • a. Dưới 1 giờ
    • b. 1-3 giờ
    • c. 3-5 giờ
    • d. Trên 5 giờ
    • 5. Hiện nay mắt của bạn bao nhiêu độ?
    3. Các phương pháp thu thập dữ liệu sơ cấp
    25

  26. • 3.2 .

    Kỹ thuật thiết kế bảng câu hỏi
    • Cần xác định rõ các vấn đề sau: dữ liệu
    cần thu thập, nội dung bảng câu hỏi; hình
    thức,trình tự bảng câu hỏi; hình thức trả
    lời
    • Các dạng câu hỏi trong bảng câu hỏi:
    Câu hỏi mở (bạn có suy nghĩ gì về?…),
    Câu hỏi đóng (đúng/sai, có/không), Câu
    hỏi phân mức, Câu hỏi chấm điểm,…
    • Chú ý: các câu hỏi cần đơn giản, không
    dài dòng, tránh câu hỏi đa nghĩa, câu hỏi
    gợi ý, tránh câu hỏi không công bằng
    3. Các phương pháp thu thập dữ liệu sơ cấp
    26

  27. 4. Các kỹ

    thuật chọn mẫu
    27
    Mục đích của việc chọn mẫu là bảo
    đảm cho mẫu được chọn thực sự phản ánh
    trung thực, đại diện cho toàn bộ tổng thể.
    Sau khi thu thập dữ liệu, ta lập được 1
    danh sách, từ danh sách này ta tiến hành
    chọn mẫu.
    Có hai nhóm kĩ thuật chọn mẫu là lấy
    mẫu ngẫu nhiên (lấy mẫu xác suất) và mẫu
    không ngẫu nhiên (lấy mẫu phi xác suất ).

  28. 4. Các kỹ

    thuật chọn mẫu
    28
    Ví dụ: điều tra chi tiêu của người dân
    sống ở Tp Hồ Chí Minh.
    Ví dụ: điều tra chi tiêu của những
    người có thu nhập cao sống ở Tp Hồ Chí
    Minh.

  29. 29
    Kỹ thuật chọn

    mẫu
    xác suất
    Lấy mẫu ngẫu
    nhiên đơn giản
    Lấy mẫu hệ
    thống
    Lấy mẫu cả
    khối/cụm
    Lấy mẫu phân
    tầng
    Kỹ thuật chọn mẫu
    phi xác suất
    Lấy mẫu
    thuận tiện
    Lấy mẫu
    định mức
    Lấy mẫu
    phán đoán

  30. • Là loại

    mẫu được chọn trực tiếp và ngẫu
    nhiên từ tổng thể.
    • Tổng thể nhỏ: Mẫu được chọn bằng cách
    bốc thăm, quay số,…Ví dụ: Chọn ngẫu
    nhiên 10 bạn trong lớp bằng cách bốc thăm
    • Tổng thể lớn: Mẫu được chọn bằng hàm
    random trong Excel hoặc SPSS.
    • Phương pháp này có thể cho 1 kết quả tốt và
    đảm bảo tính ngẫu nhiên.
    4.1. Kỹ thuật chọn mẫu ngẫu nhiên đơn giản
    30

  31. 4.2. Kỹ thuật

    chọn mẫu hệ thống (máy móc)
    31
    Mỗi đơn vị được chọn vào mẫu căn cứ vào
    từng khoảng cách nhất định (khoảng thời
    gian,không gian,thứ tự bằng nhau).
    Phương pháp:
    – Đánh số thứ tự cho danh sách chọn mẫu.
    Tổng số lượng N
    – Xác định cỡ mẫu muốn lấy. Số lượng n
    – Chia danh sách thành k nhóm k=N/n, k
    gọi là khoảng cách chọn mẫu

  32. 4.2. Kỹ thuật

    chọn mẫu hệ thống
    32
    – Nếu N chia hết cho n (k nguyên): Chọn
    mẫu hệ thống theo đường thẳng: Trong
    nhóm đầu tiên lấy ra ngẫu nhiên 1 phần tử,
    các phần tử tiếp theo được lấy cách phần
    tử này 1 khoảng là k, 2k, 3k,…
    Ví dụ 1: Chọn 10 số từ 60 số tự nhiên đầu tiên theo pp
    chọn mẫu hệ thống.
    N=60, n=10, k=N/n=6 (số đầu được chọn từ 6 số đt)
    + Nếu phần tử được chọn đầu tiên là 4 thì ta được
    mẫu là: 4, 10, 16, 22, 28, 34, 40, 46, 52, 58
    + Nếu phần tử được chọn đầu tiên là 6 thì ta được
    mẫu là: 6, 12, 18, 24, 30, 36, 42, 48, 54, 60

  33. 4.2. Kỹ thuật

    chọn mẫu hệ thống
    33
    – Nếu N không chia hết cho n (k thập phân):
    Chọn mẫu hệ thống quay vòng: Chọn ngẫu
    nhiên 1 phần tử bất kì trong danh sách từ 1
    đến N. Các phần tử tiếp theo được lấy cách
    phần tử này 1 khoảng là k, 2k, 3k,…

  34. 4.2. Kỹ thuật

    chọn mẫu hệ thống
    34
    Ví dụ 2: Chọn 10 số từ 56 số tự nhiên đầu tiên theo
    pp chọn mẫu hệ thống.
    N=56
    n=10
    k=N/n=5,6 , chọn k=6
    Nếu phần tử được chọn đầu tiên là 6 thì ta được
    mẫu là:
    6, 12, 18, 24, 30, 36, 42, 48, 54, 4
    Nếu phần tử được chọn đầu tiên là 13 thì ta được
    mẫu là:
    13, 19, 25, 31, 37, 43, 49, 55, 5, 11

  35. 4.3. Kỹ thuật

    chọn mẫu khối /cụm và chọn
    mẫu nhiều giai đoạn
    35
    Ví dụ 1: Quận Thủ Đức có khoảng 800 khu
    phố, điều tra mức sống của dân cư ở đây, ta có
    thể chọn ra ngẫu nhiên 10 khu phố, sau đó khảo
    sát toàn bộ hộ dân của 10 khu phố này. Chọn
    mẫu khối
    Ví dụ 2: chọn ra ngẫu nhiên 10 khu phố, trong
    mỗi khu phố chọn ra khoảng 10 hộ gia đình
    Chọn mẫu nhiều giai đoạn
    Chú ý : kỹ thuật này áp dụng khi ta không có
    sẵn một danh sách quan sát để chọn ra mẫu

  36. • Ví dụ:

    Điều tra sự yêu thích tham gia hoạt động
    Đoàn của sinh viên ĐHQG Tp HCM. ⇒
    Điều tra 6 trường, mỗi trường điều tra
    với số lượng SV khác nhau… chọn
    mẫu phân tầng
    • Đọc thêm trong sách
    4.4. Kỹ thuật chọn mẫu phân tầng
    36

  37. • Ví dụ:

    Để mở spa thì điều tra đối tượng nào? Điều tra
    ngẫu nhiên ? Hay tập trung vào 1 nhóm đối tượng
    nào đó?
    4.5. Kỹ thuật chọn mẫu thuận tiện
    • Ví dụ:
    • Điều tra sự yêu thích hoạt động Đoàn của SV ĐH
    KTL, ta quyết định điều tra cỡ mẫu 200, yêu cầu về
    giới tính: ½ là nữ, trong đó về nơi ở: ½ ở KTX,…
    4.6. Kỹ thuật chọn mẫu định mức
    • Chủ yếu dựa vào kinh nghiệm phỏng vấn
    4.7. Kỹ thuật chọn mẫu phán đoán
    37

  38. III. TRÌNH BÀY

    DỮ LIỆU
    38
    1. Đối với dữ liệu định tính
    2. Đối với dữ liệu định lượng
    + Bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy.
    + Đồ thị hình cột, thanh, hình tròn.
    + Bảng tần số, tần suất, tần số tích lũy, tần
    suất tích lũy.
    + Phân tổ dữ liệu.
    + Biểu đồ thân và lá.
    + Đồ thị hình cột, thanh, hình tròn.


  39. 1. Bảng tần

    số
    39
    Ví dụ 1: năm 2006, Tuổi trẻ Online có làm
    cuộc khảo sát về bình chọn Quốc hoa Việt
    Nam, kết quả thu được như sau:
    Quốc hoa được chọn
    Số lượt
    bình chọn
    Tỉ lệ
    Hoa sen 67008 49,6%
    Cây tre 47288 35%
    Hoa mai 15850 11,73%
    Đề xuất khác 4951 3,66%
    Tổng 135097 100%

  40. • Bảng tần

    số là một bảng tổng hợp, trình
    bày dữ liệu, thường bao gồm ba cột:
    1. Bảng tần số
    40
    Cột 1 Cột 2 Cột 3
    biểu hiện hoặc
    các giá trị
    (khoảng giá trị)
    của dữ liệu.
    tần số tương
    ứng (số lần
    từng biểu hiện
    đó xuất hiện
    trong tập dữ
    liệu).
    tần suất (tỉ
    lệ %).

  41. • Đối với

    các dữ liệu định tính như giới tính,
    ngành học, …, bảng tần số :
    1. 1. Bảng tần số cho dữ liệu định tính
    41
    1
    k
    i
    i
    f n
    =
    =∑
    100%i
    i
    f
    d
    n
    =
    1
    100%
    k
    i
    i
    d
    =
    =∑
    Biểu hiện Tần số
    fi
    Tần suất(%)
    biểu hiện 1 f1 d1
    biểu hiện 2 f2 d2
    … … …
    biểu hiện k fk dk
    Tổng

  42. 1. 1. Bảng

    tần số cho dữ liệu định tính
    42
    Ví dụ 2: Bảng tần số ngành học của sinh viên
    một trường đại học như sau.
    Ngành học Tần số
    (sinh viên)
    Tần suất (%)
    Quản trị kinh doanh 500 50
    Điện tử viễn thông 300 30
    Công nghệ thông tin 200 20
    Tổng 1000 100

  43. • Có hai

    trường hợp: dữ liệu có ít giá trị và dữ
    liệu có nhiều giá trị.
    • a) Trường hợp dữ liệu có ít giá trị: Bảng
    tần số cũng có ba cột tương tự trường hợp
    dữ liệu định tính, nhưng cột thứ nhất ghi
    các giá trị của dữ liệu.
    • Ví dụ 3: Khảo sát điểm thi môn Toán của
    một số sinh viên, ta được bảng dữ liệu sau.
    1. 2. Bảng tần số cho dữ liệu định lượng
    43

  44. 1. 2. Bảng

    tần số cho dữ liệu định lượng
    44
    Điểm thi Tần số
    (số sinh viên)
    Tần suất (%)
    3 3 3,75
    4 12 15
    5 15 18,75
    6 20 25
    7 16 20
    8 8 10
    9 4 5
    10 2 2,5
    Tổng 80 100

  45. • b) Trường

    hợp dữ liệu có nhiều giá trị: Trước
    hết ta phân nhóm (phân tổ) cho các giá trị rồi
    mới lập bảng tần số trên cơ sở dữ liệu đã phân
    nhóm
    1. 2. Bảng tần số cho dữ liệu định lượng
    45
    Ví dụ: Khảo sát 1200 người trong độ tuổi lao
    động (từ 18 đến 60 tuổi), nếu lập bảng như ở
    ví dụ 2 thì sẽ rất dài, làm mất đi tác dụng tóm
    lược thông tin. Do đó ta sẽ phân thành các
    nhóm, chẳng hạn: Từ 18 đến 20, từ 21 đến
    30, từ 31 đến 40, từ 40 đến 50, từ 51 đến 60.
    Đây là kiểu phân nhóm theo kinh nghiệm.
    Trên thực tế người ta thường phân nhóm với
    khoảng cách đều nhau.

  46. • Phương pháp

    phân nhóm dữ liệu với
    khoảng cách đều nhau.
    • Giả sử mẫu dữ liệu có n phần tử, giá trị lớn
    nhất, nhỏ nhất của dữ liệu lần lượt là Xmax ,
    Xmin .
    • Gọi k là số nhóm cần chia và h là khoảng
    cách giữa các nhóm.
    • Khi đó, người ta thường xác định k và h
    bởi công thức
    1. 2. Bảng tần số cho dữ liệu định lượng
    46
    3
    2k n= max minX X
    h
    k

    =

  47. 1. 2. Bảng

    tần số cho dữ liệu định lượng
    47
    3 3
    2 2.40 4,3 4k n= = = ≈
    max min 179 153
    6,5
    4
    X X
    h
    k
    − −
    = = =
    Ví dụ 4. Năng suất (tạ/ha) của một loại cây thu hoạch được tại
    40 vùng như sau:
    153 154 156 157 158 159 159 160 160 160
    161 161 161 162 162 162 163 163 163 164
    164 164 165 165 166 166 167 167 168 168
    170 171 172 173 174 175 176 177 178 179
    Hãy tính số nhóm, khoảng cách nhóm và lập bảng tần số?
    Với n=40, Xmax = 179, Xmin =153.
    ta có số nhóm
    khoảng cách giữa các nhóm
    Chọn h=7 .Vậy ta cần chia 4 nhóm , với khoảng cách giữa
    các nhóm là 7

  48. 1. 2. Bảng

    tần số cho dữ liệu định lượng
    48
    Bảng tần số
    Năng suất Tần số Tần suất (%)
    152 – 159 7 17,5
    159 – 166 19 47,5
    166 – 173 8 20
    173 – 180 6 15
    Tổng 40 100

  49. 1. 2. Bảng

    tần số cho dữ liệu định lượng
    49
    Chú ý: Một số điều kiện phải tuân thủ khi
    phân nhóm
    • Các nhóm không được trùng nhau, mỗi giá trị
    chỉ thuộc về một nhóm.
    • Tất cả các nhóm phải bảo đảm bao quát hết
    tất cả các giá trị của mẫu số liệu.
    • Không có nhóm rỗng.

  50. 1. 2. Bảng

    tần số cho dữ liệu định lượng
    50
    Trong bảng tần số người ta còn thêm vào cột
    tần số tích luỹ (hoặc tần suất tích luỹ)
    Giá
    trị
    của
    biến
    Tần
    số
    fi
    Tần suất(%) Tần số
    tích lũy
    Tần suất
    tích lũy
    x1 f1 d1 f1 d1
    x2 f2 d2 f1+f2 d1+d2
    … … … … …
    xk fk dk f1+f2+…+fk d1+d2+…+dk
    Tổng n 100%
    100%i
    i
    f
    d
    n
    =

  51. 1. 2. Bảng

    tần số cho dữ liệu định lượng
    51
    c) Phân nhóm mở:
    + Nhóm đầu tiên không có giới hạn dưới.
    + Nhóm cuối không có giới hạn trên.
    +Các nhám còn lại có khoảng các đều hoặc không đều.
    Quy ước: K/c của nhóm mở bằng k/c của nhóm gần nó
    nhất
    Năng suất lúa
    (tạ/ha)
    Tần số
    <35 5
    35 – 40 10
    40 – 45 20
    45 – 50 12
    ≥50 3
    Tổng 50

  52. 1. 3. Bảng

    tần số kết hợp hai biến
    52
    Ví dụ: Điều tra chi tiêu của 200 sinh viên tại 3 vùng
    Bắc, Trung, Nam được kết quả như sau
    <1,5 1,5 – 2 >2
    Bắc 30 40 20
    Trung 30 20 10
    Nam 10 25 15
    Tổng 70 85 45
    Vùng
    Chi tiêu
    Bảng tần số kết hợp 2 biến “chi tiêu” và “vùng” được
    lập như sau

  53. 1. 3. Bảng

    tần số kết hợp hai biến
    53
    Vùng
    Bắc
    Trung
    Nam
    <1,5 1,5 – 2 >2
    30 40 20
    30 20 10
    10 25 15
    42,86
    42,86
    14,28
    Chi tiêu
    Tần số Tần số Tần số
    Tần Tần Tần
    suất(%) suất(%) suất (%)
    Tổng 70 85 45100 100 100

  54. 2. Đồ thị

    thống kê các loại
    2.1 Biểu đồ tần số, tần suất
    54
    Số lượt bình chọn

  55. 55
    Tỉ lệ bình

    chọn
    49%
    35%
    12%
    4%
    0%
    10%
    20%
    30%
    40%
    50%
    60%
    Hoa sen Cây tre Hoa mai đề xuất khác

  56. 56
    Sốlượtbìnhchọn
    0
    10000
    20000
    30000
    40000
    50000
    60000
    70000
    80000
    1
    Hoa sen Cây

    tre Hoa mai Đề xuất khác
    Biểu đồ dạng thanh

  57. 57
    49%
    35%
    12%
    4%
    0
    0,1
    0,2
    0,3
    0,4
    0,5
    0,6
    Hoa sen Cây

    tre Hoa mai đề xuất
    khác
    Tần suất bình chọn
    Biểu đồ đa giác tần số

  58. 58
    Tỉ lệ bình

    chọn quốc hoa Việt Nam
    Biểu đồ hình tròn

  59. 2.2 Biểu đồ

    tần số, tần suất tích lũy
    59
    49%
    84%
    96%
    100%
    0%
    20%
    40%
    60%
    80%
    100%
    120%
    Hoa sen Cây tre Hoa mai Đề xuất khác
    Tần suat tích lũy

  60. 60
    2.3. Biểu đồ

    nhánh lá (Stem-and-Leaf Plot)
    Can nang (Kg)
    Frequency Stem & Leaf
    1.00 4 . 4
    5.00 4 . 56899
    10.00 5 . 0011223444
    7.00 5 . 5557889
    5.00 6 . 01223
    4.00 6 . 5555
    2.00 7 . 02
    2.00 7 . 55
    Là công cụ hữu hiệu để tóm lược và trình bày tập dữ
    liệu mà vẫn giúp người xem thấy được cách thức phân
    tán của dữ liệu gốc 1 cách chi tiết.
    Ví dụ: Có kết quả thống kê về trọng lượng của một
    nhóm sinh viên.

  61. Bài tập về

    nhà (làm nhóm)
    • Lam bai tap chuong 3, sach bai tap TKUD
    Bai tap ca nhan
    61
    1. Lập phiếu điều tra (chủ đề tùy chọn), thu thập thông tin
    của ít nhất 5 biến, số lượng quan sát ít nhất 30
    2. Lập bảng tần số cho từng biến (bảng tần số có tần số
    tích lũy và tần suất tích lũy)
    3. Vẽ biểu đồ tần số, tần suất, tần số tích lũy và tần suất
    tích lũy
    4. Nhận xét về kết quả thu được ( theo ly thuyet phan IV
    sau day )

  62. 62
    IV. TÓM TẮT

    DỮ LIỆU
    BẰNG CÁC ĐẠI LƯỢNG
    THỐNG KÊ MÔ TẢ

  63. Nội dung
    1. Các

    đại lượng đo lường độ
    tập trung
    2. Các đại lượng đo lường độ
    phân tán
    63

  64. 64
    • 1.1 Trung

    bình cộng.
    • 1.2 Trung vị (Median).
    • 1.3 Các tứ phân vị – phân vị.
    • 1.4 Số yếu vị (Mode).
    1. Các đặc trưng đo lường khuynh hướng tập trung
    • 2.1 Khoảng biến thiên.
    • 2.2 Độ trãi giữa.
    • 2.3 Phương sai và Độ lệch chuẩn.
    • 2.4 Độ lệch trung bình
    • 2.5 Hệ số biến thiên.
    2. Các đặc trưng đo lường khuynh hướng phân tán
    • 3.1 Phân phối cân đối.
    • 3.2 Phân phối lệch trái và lệch phải.
    3. Khảo sát hình dạng phân phối của các tập dữ liệu

  65. • a) Trung

    bình cộng đơn giản
    • Trung bình tổng thể:
    • Trung bình mẫu:
    • b) Trung bình cộng có trọng số
    1. Trung bình cộng
    65
    A. CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ TẬP TRUNG
    1
    : soá phaàn töû cuûa toång theå1
    vôùi
    : giaù trò phaàn töû thöù i
    N
    i
    i i
    N
    X
    N X
    µ
    =

    = 


    1
    : soá phaàn töû cuûa maãu1
    vôùi
    : giaù trò phaàn töû thöù i
    n
    i
    i i
    n
    X X
    n X=

    = 


    1
    1
    1
    : giaù trò phaàn töû thöù i
    vôùi : taàn soá cuûa giaù trò
    : soá phaàn töû cuûa maãu
    k
    ii i
    i
    i ik
    k
    i
    i i
    i
    XX f
    X f X
    f
    f n
    =
    =
    =


    
    = 

     =
    


  66. 66
    • Ví dụ

    1. Điểm thi môn Toán của 16 sinh viên là: 2,
    4, 5, 8, 9, 3, 6, ,6, 8, 10, 2, 3, 6, 4, 7, 8. Ta có trung
    bình mẫu (điểm thi trung bình của 16 sinh viên
    này) là:
    1. Trung bình cộng
    2 4 … 8
    5,6875
    16
    X
    + + +
    = =
    Điểm 0 1 2 3 4 5 6 7 8 9 10
    Số SV 0 3 5 4 12 18 29 16 10 2 1
    Ví dụ 2. Điểm thi Toán của một số sinh viên cho
    trong bảng sau đây. Hãy tính điểm thi trung bình của
    nhóm sinh viên này.
    0.0 1.3 … 9.2 10.1
    5,57
    0 3 … 2 1
    X
    + + + +
    = =
    + + + +

  67. 67
    • Ví dụ

    3.Trong một đợt sản suất người ta chọn 50
    sản phẩm và ghi nhận khối lượng. Sản phẩm được
    phân nhóm theo khối lượng như sau:
    1. Trung bình cộng
    Tính khối lượng trung bình của sản phẩm trong mẫu?
    Khối lượng (gam) Số sản phẩm (fi )
    484 – 490 5
    490 – 496 10
    496 – 502 15
    502 – 508 13
    508 – 514 7
    Cộng 50

  68. 68
    • Chú ý.

    Trường hợp dữ liệu phân nhóm có khoảng
    cách thì trung bình mẫu được tính gần đúng bởi
    công thức
    1. Trung bình cộng
    =
    =
    +
    = =


    1
    1
    minmax
    vôùi
    2
    i
    i
    k
    i i
    ik
    i
    ii
    x f X X
    X x
    f

  69. 69
    • c) Đặc

    điểm của trung bình cộng
    1. Trung bình cộng
    – Trung bình cộng thường rất nhạy cảm với các đột
    biến (giá trị quá lớn hoặc quá nhỏ).
    1 2 3 4 5
    1 2 3 4 155
    – Không tính trung bình cộng cho dữ liệu định danh.
    Ví dụ: 1= màu đen, 2= màu trắng, 3= màu khác
    – Nên cân nhắc việc tính trung bình cho dữ liệu định
    lượng đo lường bằng thang đo khoảng
    Ví dụ: 1= không đồng ý, 2= bình thường, 3= đồng ý,
    4= rất đồng ý

  70. 70
    • Trong một

    tập dữ liệu đã được sắp xếp theo thứ
    tự tăng dần thì trung vị (Me) là giá trị đứng giữa
    của tập dữ liệu.
    • Trung vị chia dãy số làm hai phần, mỗi phần có số
    lượng bằng nhau = 50%
    2. Trung vị (Median)
    1 3 4 5 6
    4Me =
    ( ) ++
    = = 150% 1
    2
    nn
    Me X X
    Cách xác định trung vị:
    (a) Xác định trung vị cho dữ liệu không phân nhóm
    Trường hợp số phần tử của mẫu n là số lẻ:

  71. 71
    2. Trung vị

    (Median)
    1 3 4 5 6 9 10
    4 5Me X= =
    Trường hợp n là số chẵn:
    1
    2 2
    2
    n nX X
    Me
    +
    +
    =
    1 3 4 5 6 9
    3 4 4 5
    4,5
    2 2
    X X
    Me
    + +
    = = =

  72. 72
    2. Trung vị

    (Median)
    (b) Xác định trung vị cho dữ liệu có phân nhóm
    B1. Tính tần số tích luỹ.
    B2. Nhóm chứa trung vị là nhóm có tần số tích luỹ
    B3. Áp dụng công thức
    1
    2
    n +

    1
    ( )
    2
    Me
    Me Min Me
    Me
    n
    S
    Me X h
    f
    −−
    = +
    trong đó
    XMe(Min) là giới hạn dưới của nhóm chứa Me
    hMe là khoảng cách của nhóm chứa Me
    SMe-1 là tần số tích luỹ của nhóm đứng trước nhóm chứa Me
    fMe là tần số của nhóm chứa Me.

  73. 73
    2. Trung vị

    (Median)
    Ví dụ: Tính trung vị của mẫu dữ liệu sau
    Khối lượng
    (gam)
    Số sản phẩm (fi )
    484 – 490 5
    490 – 496 10
    496 – 502 15
    502 – 508 13
    508 – 514 7
    Cộng 50

  74. 74
    2. Trung vị

    (Median)
    Khối lượng (gam) Số sản phẩm (fi ) Tần số tích luỹ (Si )
    484 – 490 5 5
    490 – 496 10 15
    496 – 502 15 30
    502 – 508 13 43
    508 – 514 7 50
    Cộng 50
    B2 ⇒nhóm chứa trung vị là nhóm 3
    50 1
    30
    2
    +
    >
    B3
    B1
    50
    15
    2496 6 500
    15
    Me

    = + =
    Vậy có 25 sản phẩm có khối lượng lớn hơn 500g, và 25 sản
    phẩm có khối lượng nhỏ hơn 500g

  75. 75
    3. Yếu vị

    ( Mode)
    Mode là giá trị xuất hiện nhiều nhất trong một dãy số
    Điểm 0 1 2 3 4 5 6 7 8 9 10
    Số SV 0 3 5 4 12 18 29 16 10 2 1
    ⇒ Mode = 6
    Cách xác định mode:
    (a) Trường hợp dữ liệu không phân nhóm: Mode là
    giá trị có tần số lớn nhất.

  76. 76
    3. Yếu vị

    ( Mode)
    (b) Trường hợp dữ liệu phân nhóm có khoảng cách
    đều nhau: nhóm chứa Mode là nhóm có tần số lớn
    nhất. Giá trị của Mode đươc tính bởi công thức:
    ( ) ( )
    1
    ( )
    1 1
    Mo Mo
    Mo Min Mo
    Mo Mo Mo Mo
    f f
    Mo X h
    f f f f

    − +

    = +
    − + −
    trong đó
    XMo(Min) là giới hạn dưới của nhóm chứa Mo
    hMo là khoảng cách của nhóm chứa Mo
    fMo-1 là tần số của nhóm đứng trước nhóm chứa Mo
    fMo là tần số của nhóm chứa Mo.
    fMo+1 là tần số của nhóm đứng sau nhóm chứa Mo

  77. 77
    3. Yếu vị

    ( Mode)
    Ví dụ: Tính mode của mẫu dữ liệu về doanh số bán hàng
    của trạm xăng trong 1 tháng
    Doanh số bán (triệu đồng) Số trạm
    200 – 300 8
    300 – 400 10
    400 – 500 20
    500 – 600 7
    600 – 700 5
    Tổng 50
    ( ) ( )
    20 10
    400 100 443,48
    20 10 20 7
    Mo

    = + =
    − + −
    Vậy trong tháng này, đa số trạm xăng có doanh số bán
    hàng khoảng 443,48 triệu đồng

  78. 78
    3. Yếu vị

    ( Mode)
    (c) Trường hợp dữ liệu phân nhóm có khoảng cách
    không đều nhau: việc xác định nhóm chứa Mode không
    căn cứ vào tần số mà căn cứ vào mật độ phân phối.
    (Mật độ phân phối = Tần số : khoảng cách nhóm).
    ( ) ( )
    1
    ( )
    1 1
    Mo Mo
    Mo Min Mo
    Mo Mo Mo Mo
    g g
    Mo X h
    g g g g

    − +

    = +
    − + −
    trong đó
    gMo-1 là mật độ phân phối của nhóm trước nhóm chứa Mo
    gMo là mật độ phân phối của nhóm chứa Mo.
    gMo+1 là mật độ phân phối của nhóm đứng sau nhóm chứa Mo

  79. 79
    3. Yếu vị

    ( Mode)
    Ví dụ: Tính mode của mẫu dữ liệu về doanh thu của 79
    cửa hàng trong 1 tháng
    Doanh thu
    (triệu đồng)
    Cửa hàng
    (fi )
    200 – 400 8
    400 – 500 12
    500 – 600 25
    600 – 800 25
    800 – 1000 9
    Tổng 79
    ( ) ( )
    0,25 0,12
    500 100 550,9
    0,25 0,12 0,25 0,125
    Mo

    = + =
    − + −
    Vậy đa số cửa hàng có doanh thu khoảng 550,9 triệu đồng
    Khoảng cách
    nhóm (hi )
    Mật độ
    phân phối
    200 0,04
    100 0,12
    100 0,25
    200 0,125
    200 0,045
    i
    i
    i
    f
    g
    h
    =

  80. 80
    3. Yếu vị

    ( Mode)
    Chú ý:
    Mode là đại lượng thống kê mô tả duy nhất có thể vận
    dụng cho dữ liệu định tính.
    Mode không bị ảnh hưởng bởi các giá trị đột biến
    Một tập dữ liệu có thể có nhiều mode hoặc không có
    mode

  81. 81
    4. Tứ phân

    vị
    Tứ phân vị chia tập dữ liệu đã được sắp thứ tự thành
    bốn phần, mỗi phần có số đơn vị bằng nhau = 25%
    Cách xác định tứ phân vị:
    • Nếu n+1 chia hết cho 4:
    ( )
    ( ) ( )
    ( ) ( )
    ++
    + +
    + +
    = =
    = =
    = =
    1 125% 1
    4
    2 50% 1 2 1
    4
    3 75% 1 3 1
    4
    nn
    n n
    n n
    Q X X
    Q X X
    Q X X
    5 6 7 8 91 43
    1 2 3
    vò trí 3 vò trí 6 vò trí 9
    4 7 10Q Q Q= = =
    131210
    Trung vị

  82. 82
    4. Tứ phân

    vị
    • Nếu n+1 không chia hết cho 4:
    ( ) ( )2 1 3 11 1 1 3
    2 , 4 , 6
    4 4 4 2 4 4
    n nn + ++
    = = =
    Ví dụ: Cho dãy số:
    1800, 1900, 2000, 2100, 2200, 2500, 2700, 2800
    có số phần tử là n = 8 nên
    ( )
    ( )
    ( )
    1
    2
    3
    1
    1900 2000 1900 1925
    4
    1
    2100 2200 2100 2150
    2
    3
    2500 2700 2500 2650
    4
    Q
    Q
    Q
    = + − =
    = + − =
    = + − =

  83. 83
    5. Theo tứ

    tự cân nặng, 9 bạn đầu tiên sẽ có
    cân nặng trong khoảng nào?
    6. Theo tứ tự cân nặng, 27 bạn đầu tiên sẽ có
    cân nặng trong khoảng nào?
    7. Theo thứ tự cân nặng, 10% đầu tiên của bộ
    dữ liệu có cân nặng trong khoảng nào?
    8. Theo tứ tự cân nặng, 10 bạn đầu tiên sẽ có
    cân nặng trong khoảng nào?

  84. 84
    5. Thập phân

    vị
    Thập phân vị chia bộ dữ liệu ra làm 10 phần bằng nhau
    ( )
    ( ) ( )
    ( ) ( )
    ++
    + +
    + +
    = =
    = =
    = =
    1 110% 1
    10
    2 20% 1 2 1
    10
    9 90% 1 9 1
    10
    …..
    nn
    n n
    n n
    Q X X
    Q X X
    Q X X

  85. 85
    6. Phân vị
    Trong

    một dãy số đã sắp thứ tự, Phân vị thứ p
    Qp% (0 ≤ p ≤100) là giá trị chia bộ dữ liệu ra làm 2
    phần: một phần gồm p% số quan sát ≤ Qp%,
    một phần gồm (100-p)% số quan sát ≥ Qp%
    ( )+
    =% % 1p p n
    Q X
    Ví dụ: Danh sách tiền lương tháng của 8 công nhân đã
    được xếp từ thấp đến cao như sau:
    1800, 1900, 2000, 2100, 2200, 2500, 2700, 2800
    60% số công nhân đầu tiên có tiền lương khoảng bao
    nhiêu?
    ( ) ( )+
    = = = + − =260% 60% 8 1 5
    5
    2
    2200 2500 2200 2320
    5
    Q X X

  86. 86
    2. CÁC ĐẠI

    LƯỢNG ĐO LƯỜNG ĐỘ PHÂN TÁN
    1 5 10 15 20 25 30 40 45 50

  87. 87
    1. Khoảng biến

    thiên
    2. Độ trải giữa (khoảng tứ phân vị)
    R= Xmax – Xmin
    Ví dụ:
    1,1,1,1,1,1,1,2,2,3,3,3,4,4,4,5,5,5,5 ⇒ R= 5-1=4
    1,1,1,1,1,1,1,2,2,3,3,3,4,4,4,5,5,5,121 ⇒ R= 121-1=120
    RQ= Q3 – Q1
    Ví dụ: Tiền lương của 2 tổ công nhân
    Tổ I: 0,9 1,2 1,5 1,8 2,1 2,4 2,7 3,0 3,3 3,6 3,9
    RQ= 3,3 – 1,5 = 1,8 triệu
    Tổ II: 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9
    RQ= 2,7 – 2,1 = 0,6 triệu
    Độ trải giữa của tổ I lớn hơn của tổ II nên các mức lương
    trong tổ I biến thiên nhiều hơn trong tổ II.

  88. 88
    3. Phương sai
    Phương

    sai tổng thể:
    ( )
    2
    2 1
    1
    1
    : giaù trò phaàn töû thöù i.
    vôùi : taàn soá cuûa
    : soá phaàn töû cuûa toång theå
    k
    ii i
    i
    i ik
    k
    i
    i i
    i
    XX f
    f X
    f
    f N
    µ
    σ =
    =
    =


    − 
    = 

     =
    



    Phương sai mẫu:
    ( )
    2
    2 1
    1
    1
    .
    ˆ
    i
    :giaùtrò phaàn töû thöùi
    vôùi : taàn soá cuûa X
    :soá phaàn töû cuûa maãu
    =
    =
    =


    − 
    = 

     =
    



    k
    ii i
    i
    ik
    k
    i
    i i
    i
    XX X f
    S f
    f
    f n
    Phương sai mẫu hiệu chỉnh: 2 2ˆ
    1
    =

    n
    S S
    n

  89. 89
    4. Độ lệch

    tiêu chuẩn
    2
    σ σ= 2
    =S S
    Độ lệch chuẩn cho biết sự phân phối của các giá trị trong một
    tổng thể, thể hiện trên hai quy tắc sau đây:
    Quy tắc Tchebychev: Bất kì một tổng thể nào với trung bình
    là µ và độ lệch tiêu chuẩn là σ đều có ít nhất
    giá trị rơi vào khoảng (µ – mσ, µ + mσ) với m > 1.
    Vậy với 1 phân phối bất kì thì
    ít nhất 55,6% giá trị rơi vào (µ – 1.5σ, µ + 1.5σ)
    ít nhất 75% giá trị rơi vào (µ – 2σ, µ + 2σ)
    ít nhât 84% giá trị rơi vào (µ – 2.5σ, µ + 2.5σ)
    ít nhất 88,9% giá trị rơi vào (µ – 3σ, µ + 3σ)
    Độ lệch chuẩn được sử dụng để so sánh độ phân tán của
    hai hay nhiều tổng thể (khi đơn vị tính giống nhau hoặc
    giá trị trung bình bằng nhau).
    2
    1
    1 .100%
     
    − 
     m

  90. 90
    4. Độ lệch

    tiêu chuẩn
    Ví dụ: Tiền lương hàng năm của 7 công nhân một xí
    nghiệp là: 34,5 ; 30,7 ; 32,9 ; 36,0 ; 34,1 ; 33,8 ; 32,5 (triệu
    đồng).
    Khi đó:
    Tiền lương trung bình = 33,5
    Độ lệch tiêu chuẩn = 1,678
    Theo quy tắc Tchebychev, có ít nhất 55,6% mức lương rơi
    vào khoảng 33,5±1,5.1,678 , nghĩa là từ 30,983 đến 36,017
    (triệu đồng/năm).

  91. 91
    4. Độ lệch

    tiêu chuẩn
    Quy tắc Thực nghiệm: Khi X có phân phối chuẩn thì
    Khoảng 68% giá trị rơi vào (µ – σ, µ + σ)
    Khoảng 95% giá trị rơi vào (µ – 2σ, µ + 2σ)
    Khoảng 99,7% giá trị rơi vào (µ – 3σ, µ + 3σ)
    Vậy hầu như toàn bộ giá trị đều nằm trong khoảng ±3σ
    Quy tắc thực nghiệm giúp ta có cơ sở nhận diện những giá
    trị bất thường trong một tập dữ liệu. Chẳng hạn, khi tập dữ
    liệu có phân phối cân đối, ta thấy có 5% giá trị rơi ra ngoài
    khoảng ±2σ so với trung bình, vậy ta xem những giá trị
    này là các quan sát ngoại lệ.

  92. 92
    4. Độ lệch

    tiêu chuẩn
    68%
    95%
    99,7%
    Ví dụ: (Giáo trình- trang 97)
    Điểm thi môn Toán của một lớp
    học có dạng phân phối chuẩn. µ
    = 5,6; σ =1,41.
    Giảng viên quyết định áp dụng
    quy tắc để xét sinh viên xuất
    sắc là sinh viên có điểm thi trên
    trung bình và nằm ngoài phạm
    vi ±2σ so với trung bình.
    Sinh viên được bao nhiêu điểm
    thì được xếp loại xuất sắc?
    Những sinh viên có điểm từ
    µ + 2σ = 5,6 + 2.1,41 = 8,42
    trở lên được xếp loại sinh viên
    xuất sắc.

  93. 93
    4. Độ lệch

    tiêu chuẩn
    Bài tập:
    1) Trong ví dụ trên, 68% sinh viên sẽ có điểm thi nằm trong
    khoảng nào?
    2) Có bao nhiêu % sinh viên có điểm thi dưới 2,78 điểm?
    3) Nếu không có giả thiết điểm của lớp học trên có phân phối
    chuẩn, có ít nhất bao nhiêu % sinh viên có điểm trong khoảng
    (2.78 ; 8.42) ?
    4) Nếu không có giả thiết điểm của lớp học trên có phân phối
    chuẩn, ít nhất 50% sinh viên sẽ có điểm trong khoảng nào?
    Tr l i: 1) ( 4.19 ; 7.01 )
    2) 2.5%
    3) 75%
    4) m= 1.4142 (3.606;7.594)

  94. 94
    5. Hệ số

    biến thiên
    Hệ số biến thiên được sử dụng để đo lường mức độ biến
    động tương đối của những tập dữ liệu có giá trị trung bình
    khác nhau hoặc đơn vị đo khác nhau
    Công thức tính hệ số biến thiên tổng thể:
    Công thức tính hệ số biên thiên mẫu:
    Khi hệ số biến thiên của hai tập dữ liệu được so sánh với
    nhau, hệ số biến thiên của tập nào lớn hơn thì tập đó biến
    động nhiều hơn.
    .100%
    σ
    µ
    =CV
    .100%=
    S
    CV
    X

  95. 95
    5. Hệ số

    biến thiên
    Ví dụ:
    So sánh 2 tập dữ liệu có trung bình khác nhau: sách
    giáo trình trang 95.
    So sánh 2 tập dữ liệu có đơn vị đo khác nhau: sách
    giáo trình trang 96.

  96. 96
    6. Chuẩn hóa

    dữ liệu
    Công thức tính giá trị chuẩn hoá z cho dữ liệu tổng thể:
    Công thức tính giá trị chuẩn hoá z cho dữ liệu mẫu:
    z là điểm số chuẩn hóa cho biết x cách xa trung bình một
    khoảng bằng mấy lần độ lệch tiêu chuẩn.
    z ≈ 0 : quan sát ở vị trí rất gần trung bình.
    z = -1 : quan sát ở vị trí lệch 1 độ lệch tiêu chuẩn so với
    trung bình về phía trái;
    z = 1: quan sát ở vị trí lệch 1 độ lệch tiêu chuẩn so với
    trung bình về phía phải.
    Ví dụ: Giáo trình trang 99
    µ
    σ

    =
    x
    Z

    =
    x x
    Z
    S

  97. 97
    3. KHẢO SÁT

    HÌNH DÁNG CỦA PHÂN PHỐI

  98. 98
    1. Hình dáng

    của phân phối
    Mo Mo = Me= Mean Mo MeMe
    Skewness <0 Skewness =0 Skewness >0
    Lệch phảiLệch trái
    Mean Mean
    Cân đối

  99. 99
    1. Hình dáng

    của phân phối
    Kurtosis =3
    Kurtosis >3
    Kurtosis <3

  100. 100
    2. Biểu đồ

    hộp và râu (Box Plot)
    Ví dụ: ( Giáo trình – trang 92 ) Vẽ biểu đồ hộp và râu mô tả
    dữ liệu về tuổi của 30 sinh viên.
    Bước 1: sắp xếp dữ liệu theo thứ tự tăng dần
    Bước 2: Tính giá trị tứ phân vị: Q1= 22, Q2= 27, Q3=30
    ⇒ độ trải giữa = Q3 – Q1= 8
    Bước 3: vẽ hộp có bề rộng bằng độ trải giữa
    Dulieu.xls
    22 26 30

  101. 101
    2. Biểu đồ

    hộp và râu (Box Plot)
    Bước 4: vẽ đường thẳng nằm trong hộp đi qua giá trị trung vị
    Me = Q2 =27
    Bước 5: tính giá trị cực đại và cực tiểu của biểu đồ
    cực đại = Q3+1,5. (Q3 – Q1) = 42
    cực tiểu = Q1 – 1,5. (Q3 – Q1) = 10
    Bước 6: Vẽ 2 râu dựa trên cực đại và cực tiểu của bộ dữ liệu
    cực đại = 39 cực tiểu = 19
    10 14 18 22 26 30 34 3822 26 30 42

  102. 102
    2. Biểu đồ

    hộp và râu (Box Plot)
    10 14 18 22 26 30 34 38
    0
    2
    4
    6
    8
    10
    12
    14
    19 – 24 24 – 29 29 – 34 34 -39 More
    Frequency
    do tuoi
    Histogram

  103. 103
    2. Biểu đồ

    hộp và râu (Box Plot)
    Cực
    tiểu
    Q1 Me Q3 Cực
    đại
    Tổng quát
    Cực
    tiểu
    Q1 Me Q3 Cực
    đại
    Quan sát
    ngoại lệ

  104. 104
    V. PHÂN PHỐI

    XÁC SUẤT CỦA CÁC ĐẠI
    LƯỢNG THỐNG KÊ TRÊN KHÔNG GIAN MẪU
    1. PHÂN PHỐI XÁC SUẤT CỦA CÁC ĐẠI LƯỢNG THỐNG KÊ
    CÓ PHÂN PHỐI CHUẨN
    2. PHÂN PHỐI TIỆM CẬN CHUẨN CỦA CÁC ĐẠI LƯỢNG
    THỐNG KÊ
    3. SUY DIỄN THỐNG KÊ