Tiền xử lý dữ liệu, xử lý sơ bộ văn bản: xóa bỏ những kí tự, những mã điều khiển, những vùng không cần thiết cho hệ thống gồm: tách đoạn/câu/từ (paragraph/sentence/word segmentation), làm sạch (cleaning), tích hợp (integreation), chuyển đổi (transformation), giảm số chiều (reduction).
Identifier (URI) | Rank |
---|---|
dbkwik:resource/5R-eG8lXS3LxoE6ed5ZMSg== | 5.88129e-14 |