Các loại dữ liệu trong khai phá dữ liệu

2017-08-11

Dữ liệu được phân làm hai loại: phân loại và liên tục.

Kiểu phân loại

Định danh (Nominal data): là tập các nhãn dùng để mô tả, phân loại các đối tượng.

Ví dụ: tên màu, mãu nhân viên.

Nhị phân (Binary data): là một trường hợp đặc biệt của kiểu định danh, các dữ liệu thuộc kiểu này chỉ mang một trong hai giá trị.

Ví dụ: kiểu boolean (true, false), giới tính (nam, nữ).

Thứ tự (Ordinary data): là tập các phần tử chỉ định một thứ tự được sắp.

Ví dụ: xếp loại (kém, trung bình, khá, giỏi).

Kiểu liên tục

Số nguyên (Integer): là tập các số nguyên, các phẩn tử thuộc kiểu này chỉ có thể chịu tác động của các phép toán số học để kết xuất phần tử mới.

Khoảng (Interval data): dữ liệu khoảng, là một tập các giá trị mà các phần tử cách đều nhau (thường dùng để làm các thang đo).

Ví dụ: nhiệt độ được đo theo độ C.

Tỷ lệ-khoảng (Ratio-scaled data): tương tự kiểu dữ liệu khoảng, điểm khác biệt là các phần tử thuộc kiểu dữ liệu này có thể so sánh như là bội số với nhau. Dữ liệu kiểu tỷ lệ có thể thực hiện các phép nhân, chia.

Ví dụ: Trọng lượng: 10kg là hai lần của 5kg. Sự khác biệt giữa 1 và 2 tương tự như khác biệt giữa 3 và 4.