Thursday, October 22, 2009

Tìm kiếm “biết suy nghĩ” cổ điển

Có một vài trường hợp xảy ra là người dùng tìm kiếm một từ mà lại gõ sai chính tả. Theo cách truyền thống, sẽ không có kết quả trả về (hoặc trả về kết quả sai). Tuy nhiên, những công cụ tìm kiếm hiện tại không thể để điều này xảy ra. Họ cung cấp một thứ gọi là “Did you mean?”

Để làm được điều này, một số máy tìm kiếm như Google thường phải làm 2 việc:
-       Tạo một bộ từ điển bao gồm các từ đúng chính tả, và cả những từ viết tắt. Khi người dùng gõ một từ không có trong từ điển, máy tìm kiếm sẽ tìm một từ gần đúng.
-       Trong bảng chỉ mục, các từ khóa gần giống nhau sẽ được đặt gần nhau (ví dụ: chỉ số chỉ mục gần bằng nhau hoặc được đặt trong cùng một máy chủ để dễ tìm thấy). Cách này giống như bạn chấm nhiều chấm nhỏ lên một tờ giấy, sau đó nhỏ một giọt mực xuống, và vết mực loang đến chấm nào đầu tiên thì chấm đó là gần nhất.
Cách này được giới nhà báo gọi là “học thông qua thống kê” (statistical learning – xem thêm Blog Google Officer http://googlesystem.blogspot.com/2007/12/google-is-all-about-large-amounts-of.html). Và một hệ thống tưởng chừng như biết suy nghĩ này, thực ra vẫn hoạt động dựa trên một kho dữ liệu khổng lồ, bằng một giải thuật hoàn toàn “ngây thơ” (brute-force). Tuy nhiên, vấn đề là làm sao để có được kho dữ liệu khổng lồ và một giải thuật để tìm kiếm tương tự để hệ thống có thể làm việc hiệu quả.
Một ví dụ cho thấy cách làm việc này cũng khá hiệu quả trong một số trường hợp. Bạn hãy gõ từ “GM” vào Google, kết quả sẽ là “General Motors”, tuy nhiên từ “GM foods” sẽ cho kết quả liên quan đến “Genetically modified food”. Đó là với những từ viết tắt thông dụng, còn những từ viết tắt hiếm hoi hơn, kết quả sẽ làm người dùng mệt mỏi hơn nhiều vì tìm hoài mà không thấy thứ mình cần ở đâu.
Một cách hoàn toàn tương tự cho trường hợp “các đề xuất” (Google gọi là “related searches”). Với hệ thống máy chủ hùng mạnh của mình, Google dư sức lưu lại lịch sử tìm kiếm của mọi người, và “nó” biết được những từ nào liên quan đến những từ nào khác. Và cuối cùng là việc xây dựng một đồ thị liên kết các từ khóa. Quá dễ dàng để “nghĩ ra” các đề xuất.
Đây cũng là lý do mà hiện nay những công cụ tìm kiếm như Powerset, Hakia, Cuil,… vốn có số máy chủ ít hơn, vẫn chưa vượt qua được “cái bóng” của Google. Muốn vượt được “gã khổng lồ” này, hoặc là họ phải xây dựng một hệ thống máy chủ mạnh hơn, hoặc là họ phải có một hướng tiếp cận đi sâu vào ngữ nghĩa câu truy vấn để cho ra những kết quả tìm kiếm tốt hơn hẳn, lôi kéo người dùng về phía họ. Đôi khi họ phải nghĩ tới semantic search…

No comments:

Post a Comment

Biểu mẫu liên hệ

Name

Email *

Message *