Các đại lượng số để đo độ tập trung và độ phân tán của dữ liệu
2017-08-11Introduction
Xác định các đại lượng số (đại lượng thống kê mô tả) để đo độ tập trung (central tendency) và độ phân tán (dispersion) của dữ liệu.
Các đại lượng này kết hợp với đồ thị phân phối tần số sẽ cho một bức tranh rõ nét chi tiết về tập dữ liệu cần xử lý.
Các đại lượng đo độ tập trung
Trung bình cộng đơn giản (Mean)
trong đó:
- n là cỡ mẫu.
- xi là giá trị quan sát thứ i.
Trung bình cộng có trọng số (Weighted mean)
trong đó:
- {x1, x2,..,xn}: tập dữ liệu mẫu.
- {w1, w2,..,wn}: tập trọng số tương ứng với tập dữ liệu mẫu.
Trung vị (Meadian)
với tập dữ liệu mẫu {x1, x2,..,xn} đã được sắp xếp.
Yếu vị (Mode)
Là giá trị được gặp nhiều lần trong tập dữ liệu mẫu.
Trung bình nhân (Geometri mean)
Giá trị trung bình của giá trị lớn nhất và nhỏ nhất trong tập dữ liệu (Midrange)
Các đại lượng đo độ phân tán
Phân vị (Percentiles)
Công thức xác định phân vị thứ p:
Phân vị thứ p (0 < p < 100) trong một dãy tăng dần gồm n phần tử là một giá trị chia dãy số thành 2 phần, một phần gồm p% số quan sát có giá trị nhỏ hơn hoặc bằng giá trị phân vị thứ p.
Khoảng biến thiên (Range)
Độ trãi giữa (Interquartile Range)
trong đó:
- Q1 là phần vị thứ 25
- Q3 là phần vị thứ 75
Phương sai (Variance)
trong đó:
- x̄ là trung bình cộng đơn giản.
Độ lệch chuẩn (Standard deviation)
trong đó:
- x̄ là trung bình cộng đơn giản.
Quan sát ngoại lệ (Outliers)
Các giá trị thường nằm cách trên Q3 hay dưới Q1 một khoảng 1.5IRQ.