Bài tập tiền xử lý dữ liệu
2017-08-11Bài toán
Tiền xử lý tập dữ liệu sau sử dụng kỹ thuật binning:
[16 17 20 21 22 23 23 25 28 28 33 34 36 37]
Lời giải
Tạo Bin dữ liệu:
Quan sát rằng tập dữ liệu thuộc đoạn [16, 37]; 37 - 16 = 21. Nếu dựa vào tiêu chí độ rộng bằng nhau (binning by equal width), có thể chia làm 7 bin với độ rộng mỗi bin là 3:
- Bin 1 [16, 19): gồm 2 phần tử {16, 17}.
- Bin 2: [19, 22): gồm 2 phần tử {20, 21}.
- Bin 3: [22, 25): gồm 3 phần tử {22, 23, 23}.
- Bin 4: [25, 28): gồm 1 phần tử {25}.
- Bin 5: [28, 31): gồm 2 phần tử {28, 28}.
- Bin 6: [31, 34): gồm 1 phần tử {33}.
- Bin 7: [34, 37]: gồm 2 phần tử {34, 36, 37}.
Làm trơn các bin:
Làm trơn theo giá trị trung bình: giá trị trung bình các phần tử trong bin 1 là 16.5, như vậy bin 1 có 2 phần tử {16.5, 16.5}, tương tự:
- Bin 2: [19, 22): gồm 2 phần tử {20.5, 20.5}.
- Bin 3: [22, 25): gồm 3 phần tử {22.6, 22.6, 22.6}.
- Bin 4: [25, 28): gồm 1 phần tử {25}.
- Bin 5: [28, 31): gồm 2 phần tử {28, 28}.
- Bin 6: [31, 34): gồm 1 phần tử {33}.
- Bin 7: [34, 37]: gồm 2 phần tử {35.6, 35.6, 35.6}.
Làm trơn theo trung vị: có thể xem cách tính trung vị tại đây:
- Bin 1 [16, 19): gồm 2 phần tử {16.5, 16.5}.
- Bin 2: [19, 22): gồm 2 phần tử {20.5, 20.5}.
- Bin 3: [22, 25): gồm 3 phần tử {23, 23, 23}.
- Bin 4: [25, 28): gồm 1 phần tử {25}.
- Bin 5: [28, 31): gồm 2 phần tử {28, 28}.
- Bin 6: [31, 34): gồm 1 phần tử {33}.
- Bin 7: [34, 37]: gồm 2 phần tử {36, 36, 36}.
Làm trơn theo giá trị biên: thay đổi giá trị hiện tại của phần tử đến biên gần nhất, bin 1 có biên là 16 và 17, như vậy bin 1 có 2 phần tử là {16, 17}, tương tự:
- Bin 1 [16, 19): gồm 2 phần tử {16, 17}.
- Bin 2: [19, 22): gồm 2 phần tử {20, 21}.
- Bin 3: [22, 25): gồm 3 phần tử {22, 23, 23}.
- Bin 4: [25, 28): gồm 1 phần tử {25}.
- Bin 5: [28, 31): gồm 2 phần tử {28, 28}.
- Bin 6: [31, 34): gồm 1 phần tử {33}.
- Bin 7: [34, 37]: gồm 2 phần tử {34, 37, 37}.