Quy trình khai phá dữ liệu thông thường gồm 10 bước:(theo tiến trình KDD (Knowledge Discovery in Databases) )
1) Nghiên cứu lĩnh vực
Ta cần nghiên cứu lĩnh vực cần sử dụng Data mining để xác định được những tri thức ta cần chắt lọc, từ đó định hướng để tránh tốn thời gian cho những tri thức không cần thiết.
2) Tạo tập tin dữ liệu đầu vào
Ta xây dựng tập tin để lưu trữ các dữ liệu đầu vào để máy tính có thể lưu trữ và xử lý.
3) Tiền xử lý, làm sạch, mã hóa
Ở bước này ta tiến hành bỏ bớt những dữ liệu rườm rà, không cần thiết, tinh chỉnh lại cấu trúc của dữ liệu và mã hóa chúng để tiện cho quá trình xử lý.
4) Rút gọn chiều
Thông thường một tập dữ liệu có chiều khá lớn sẽ sinh ra một lượng dữ liệu khổng lồ, ví dụ với n chiều ta sẽ có 2^n tổ hợp. Do đó, đây là một bước quan trọng giúp giảm đáng kể hao tổn về tài nguyên trong quá trình xử lý tri thức. Thông thường ta sẽ dùng Rough set(http://en.wikipedia.org/wiki/Rough_set) để giảm số chiều.
5) Chọn tác vụ khai thác dữ liệu
Để đạt được mục đích ta cần, ta cần chọn được tác vụ khai thác dữ liệu sao cho phù hợp. Thông thường có các tác vụ sau:
* Đặc trưng (feature)
* Phân biệt (discrimination)
* Kết hợp (association)
* Phân lớp (classification)
* Gom cụm (clusterity)
* Xu thế (trend analysis)
* Phân tích độ lệch
* Phân tích hiếm
6) Chọn các thuật giải Khai thác dữ liệu
7) Khai thác dữ liệu: Tìm kiếm tri thức
Sau khi tiến hành các bước trên thì đây là bước chính của cả quá trình, ta sẽ tiến hành khai thác và tìm kiếm tri thức.
8) Đánh giá mẫu tìm được
Ta cần đánh giá lại xem trong các tri thức tìm được, ta sẽ sử đụng được những tri thức nào, những tri thức nào dư thừa, không cần thiết
9) Biểu diễn tri thức
Ta biểu diễn tri thức vừa thu thập được dưới dạng ngôn ngữ tự nhiên và hình thức sao cho người dùng có thể hiểu được những tri thức đó.
10) Sử dụng các tri thức vừa khám phá
sưu tầm Internet
No Comment to " Quy trình Khai phá dữ liệu (Process of Data mining) "