KimKha's Weblog: Tập trung vào ngữ cảnh của nội dung trong web ngữ nghĩa

Một trong các khó khăn của phân tích ngữ nghĩa mà ai cũng thấy đó là việc chuyển đổi các đại từ trong câu nói sang subject trong triple. Lấy một ví dụ, nếu như gặp chữ “tôi” trong blog của Kim Kha thì có thể subject là “Kim Kha”. Tuy nhiên, vì blog của Kim Kha cho phép bình luận nên Viết Nghi vào bình luận và thêm đại từ “tôi” vào trong đó, do đó, trong phần bình luận của Viết Nghi, chữ “tôi” được hiểu là “Viết Nghi”. Bây giờ, Viết Nghi có trích dẫn một câu nói của một người nào đó, rủi thay có đại từ “tôi”, và chúng tôi đoan chắc rằng máy không thể hiểu được subject là cái gì, bởi vì không có một mối liên hệ nào giữa từ “tôi” ở đây với một người đích danh nào đó (có một URI thích hợp).

Muốn giải quyết được vấn đề trên, cần phải tập trung vào ngữ cảnh của câu nói. Theo cách hiểu của con người, trong ngữ cảnh của câu trích dẫn, đại từ “tôi” được hiểu là “một ai đó mà người đó là tác giả của câu trích dẫn này”. Và vì tất cả các tài nguyên trên internet được xây dựng theo cách hiểu của con người, nên máy phải tìm cách hiểu những lối viết của con người, tức là phải hiểu dựa trên ngữ cảnh.

Quay trở lại vấn đề tìm kiếm, tương tự như phần phân tích ngữ nghĩa mà chúng ta vừa mới đề cập, một kết quả tốt là kết quả của sự “so trùng” ngữ nghĩa của câu truy vấn và dữ liệu, góc nhìn của ngữ cảnh cũng vậy. Máy tìm kiếm cần phải hiểu ngữ nghĩa trong ngữ cảnh truy vấn của người dùng, đồng thời phải hiểu ngữ nghĩa trong ngữ cảnh của các tài nguyên trong cơ sở dữ liệu tìm kiếm.

Trường hợp lý tưởng nhất là người dùng đọc một đoạn nội dung nào đó, chọn một đoạn trong nội dung và tìm kiếm những nội dung liên quan. Một máy tìm kiếm tốt phải đọc và phân tích ngữ nghĩa của đoạn nội dung đó, liên hệ với các đoạn nội dung khác ở xung quanh và toàn bài, từ đó rút ra ý nghĩa của nội dung một cách chính xác, sau đó mới đem đi tìm kiếm.

Thực tế khó khăn hơn, vì có nhiều lúc người dùng gõ một câu truy vấn như “tôi muốn tìm thông tin về các bệnh”, việc hiểu nội dung bằng ngữ cảnh còn phức tạp hơn vì không có một manh mối nào để liên hệ. Còn một trường hợp khó khăn nữa là thỉnh thoảng người dùng chọn một đoạn nội dung ít liên quan đến những đoạn lân cận khác. Và với cách hiểu hiện tại thì máy tìm kiếm sẽ kết hợp với những đoạn lân cận này và đưa ra một ngữ nghĩa còn tối nghĩa hơn…

Một ngữ cảnh nữa cần phân tích ngữ nghĩa là ngữ cảnh của các tài nguyên trong cơ sở dữ liệu. Ở đây, các tài nguyên được đưa vào kho tri thức, phân loại dựa trên ngữ nghĩa của toàn nội dung, gom nhóm các từ nếu nó là tên gọi khác nhau của cùng một thứ,… Việc xác định ngữ nghĩa trong trường hợp này thuận lợi hơn so với ngữ cảnh của người dùng, bởi dữ liệu của chúng tương đối đầy đủ. Các tài nguyên sẽ được đọc, phân tích ngữ nghĩa để có được những từ khóa quan trọng (từ khóa dựa trên ngữ nghĩa), và bộ lập chỉ mục (indexer) sẽ làm việc trên nhưng từ khóa ngữ nghĩa này.

Tuy nhiên, để việc quản lý và gom nhóm được tốt hơn, người ta thường cố gắng xây dựng một đồ thị ý niệm, ở đó các khái niệm có quan hệ với nhau hoặc cùng một chủ đề sẽ liên thông với nhau trên đồ thị. Việc này sẽ giúp cho máy hiểu tốt hơn một khái niệm nào đó. TAP (http://tap.stanford.edu/) được kỳ vọng là một framework thông minh để tạo các đồ thị ý niệm này.

Ngoài việc xác định ý nghĩa của nội dung, phương pháp áp dụng ngữ cảnh còn được dùng để xác định đâu là chủ thể (subject) trong bộ ba (triple). Như chúng ta đã thấy ở phần đầu của mục này, chữ “tôi” có thể xem như là một subject trong câu trích dẫn, nhưng không thể xem như một subject trong triple, vì chữ “tôi’ quá rộng. Muốn biết nó đại diện cho cái gì, cần phải đặt nó trong ngữ cảnh mà nó đang nói tới, xem xét nó có liên quan đến những đoạn văn nào, sau đó mới áp nó vào một subject chính xác nhất. Ví dụ, có vị trị chữ “tôi” được xem là “Kim Kha”, có lúc là “Viết Nghi”, có lúc là “một người nào đó”. Máy tìm kiếm phải đọc từng câu, và xác định đâu là subject, và các subject trong các câu khác nhau có liên quan gì đến nhau không.

Cùng một chủ thể trong 2 CSDL khác nhau

Một điều đáng lưu ý là có thể có hai nội dung nằm trên hai cơ sở dữ liệu khác nhau nói về cùng một đối tượng. Máy tìm kiếm thông minh sẽ phải hợp nhất chúng lại để có được thông tin tốt nhất. Ví dụ trong hình 11, trong hai cơ sở dữ liệu khác nhau có hai người có cùng số điện thoại và nơi ở nhưng khác một chút về tên. Một hệ thống thông minh có thể rút ra kết luận hai người này thực ra là một người, và William còn có tên khác là Billtrong ngữ nghĩa của mọi người.

—————

Đây là một phần trong bài báo cáo Đồ án môn học 1, viết chung với Nguyễn Viết Nghi

KimKha's Weblog

Labels

Monday, November 16, 2009

Tập trung vào ngữ cảnh của nội dung trong web ngữ nghĩa

No comments:

Post a Comment

Labels

Biểu mẫu liên hệ