Một điều thú vị về cổ máy tìm kiếm mang tên Google

Trong đầu nghĩ là do mới ngủ dậy nên đầu óc còn mơ hồ, thử lại viết có dấu "Bích Phương" rồi tới "Bích Phương idol", rất may mắn là kết quả trả về...vẫn vậy 😁😁😁. Tính tò mỏ trỗi dậy, liền phóng xuống giường, chạy ra mở lap lên liền để tìm hiểu uẩn khúc gì đang diễn ra mà mình không biết.
Bật máy lên, lướt chín ngon tay lên bàn phím một lúc thì biết được người sinh năm 1964 có Đức Luân không phải là Bích Phương idol mà là Bích Phượng con gái của Út Trà Ôn, cô cũng là một nghệ sĩ, do đều là ca sĩ nên thuật toán của Google đã bị nhầm lẫn. Có thể thấy kết quả Google trả về không dựa trên wikipedia mà bằng cách khai thác dữ liệu riêng của mình, cái này mình không rõ. Hình ảnh trả về có nguồn từ zing, nếu đoán không lầm thì do pagerank của Google đánh giá cao nên được chọn làm nguồn thông tin tin cậy.
Về vợ/chồng, có thể Google đã chọn cách thà giết lầm còn hơn bỏ sót, so thông tin của Bích Phương không đầy đủ, nên những dữ liệu thu thập khác đã được thêm vào, ở đây là tên người chồng. Có thể cách thu thập này của Google đã bỏ qua dấu tiếng Việt (có lẽ là do độ phức tạp khi xử lý tiếng Việt).
Còn về thông tin ngày sinh, có lẽ Google đã chơi trò greedy, 1989 và 1964 đều là ngày sinh của "bich phuong", nên lựa chọn đơn giản nhất là cái nào "xuất hiện trước thì cho nó vào".
Theo cách nghĩ của mình, có thể do sĩ diện, không muốn xài đồ người khác hay không tin tưởng nên Google đã không dùng wikipedia như là một nguồn tham khảo, mà tự phát triển một cái gì đó tương tự, có thể đã sử dụng các kĩ máy học để thu thập và tổ chức thông tin thay cho việc con người làm như ở wikipedia. Hôm nào đủ rãnh rỗi, mình sẽ viết một chuỗi bài về wikipedia, cách sử dụng và ứng dụng của nó, đặc biệt là trong lĩnh vực xử lý ngôn ngữ tự nhiên.
Bài học tự rút ra cho mình:
Update 31/12018: Knowledge Graph Box về Bích Phương đã được cập nhật, và có dẫn link đến wikipedia. Thông tin bài hát cũng cập nhật thành tiếng Việt có dấu.
Bài học tự rút ra cho mình:
- Nếu có nhiều kết quả, mà ta chỉ có quyền lựa chọn duy nhất thì có thể chơi greedy, chọn cái nào có khả năng nhất. Còn cách khác là lấy top-n kết quả và vote.
- Vấn đề ngữ nghĩa của ngôn ngữ tự nhiên rất hấp dẫn. Việc trộn lẫn thông tin của hai nghệ sĩ là khó tránh khỏi với công nghệ hiện nay, có thể xem đây như là một loại nhập nhằng trong ngữ nghĩa. Nếu dùng những thuật toán như hiện nay thì khó mà có kết quả tuyệt đối.
Update 31/12018: Knowledge Graph Box về Bích Phương đã được cập nhật, và có dẫn link đến wikipedia. Thông tin bài hát cũng cập nhật thành tiếng Việt có dấu.
Comments
Post a Comment