Như đã đề cập ở bài viết trước, bộ đánh chỉ mục (indexer) là một thành phần quan trọng, chuyện trách nhiệm phân tích và xử lý dữ liệu trong máy tìm kiếm. Công việc chính của nó là cắt một bài viết dài thành nhiều từ (word) sau đó xác định trọng số của các từ này trong bài viết.
Tại sao phải xác định trọng số? Nói một cách đơn giản, trọng số là thứ để xác định xem một bài viết có được xếp hạng cao hay thấp khi người dùng tìm kiếm nó…
Tuy nhiên, trước khi tìm hiểu về cách đánh trọng số hiệu quả, chúng ta sẽ đề cập đến một vấn đề cơ bản: Làm sao để cắt một bài viết thành các từ?