Một điều thú vị về cổ máy tìm kiếm mang tên Google

Hồi trưa nằm ngủ, tự nhiên mơ thấy bồ mình là Bích Phương Idol 💗💗💗Đang vui thì thức tĩnh vì cái nắng buổi trưa gay gắt quá, dù có máy quạt cũng chẳng ích gì. Do thói quen nên cầm điện thoại ra bấm bấm, luôn tiện coi thông tin Bích Phương, mình tìm không dấu "bich phuong", (coi có hợp tuổi không đó mà 😜😜😜) thì mới giật mình, thấy trang trả về thì hình Bích Phương mà năm sinh thì 1964, chồng là Đức Luân (wtf chuyện gì đang xảy ra, Bích Phương còn trẻ lắm mà, hôm bữa nghe phỏng vẫn là vẫn còn ế chổng mông, vậy mà có chồng khi nào hay quá).
Trong đầu nghĩ là do mới ngủ dậy nên đầu óc còn mơ hồ, thử lại viết có dấu "Bích Phương" rồi tới "Bích Phương idol", rất may mắn là kết quả trả về...vẫn vậy 😁😁😁. Tính tò mỏ trỗi dậy, liền phóng xuống giường, chạy ra mở lap lên liền để tìm hiểu uẩn khúc gì đang diễn ra mà mình không biết.
Bật máy lên, lướt chín ngon tay lên bàn phím một lúc thì biết được người sinh năm 1964 có Đức Luân không phải là Bích Phương idol mà là Bích Phượng con gái của Út Trà Ôn, cô cũng là một nghệ sĩ, do đều là ca sĩ nên thuật toán của Google đã bị nhầm lẫn. Có thể thấy kết quả Google trả về không dựa trên wikipedia mà bằng cách khai thác dữ liệu riêng của mình, cái này mình không rõ. Hình ảnh trả về có nguồn từ zing, nếu đoán không lầm thì do pagerank của Google đánh giá cao nên được chọn làm nguồn thông tin tin cậy.
Về vợ/chồng, có thể Google đã chọn cách thà giết lầm còn hơn bỏ sót, so thông tin của Bích Phương không đầy đủ, nên những dữ liệu thu thập khác đã được thêm vào, ở đây là tên người chồng. Có thể cách thu thập này của Google đã bỏ qua dấu tiếng Việt (có lẽ là do độ phức tạp khi xử lý tiếng Việt).
Còn về thông tin ngày sinh, có lẽ Google đã chơi trò greedy, 1989 và 1964 đều là ngày sinh của "bich phuong", nên lựa chọn đơn giản nhất là cái nào "xuất hiện trước thì cho nó vào".
Theo cách nghĩ của mình, có thể do sĩ diện, không muốn xài đồ người khác hay không tin tưởng nên Google đã không dùng wikipedia như là một nguồn tham khảo, mà tự phát triển một cái gì đó tương tự, có thể đã sử dụng các kĩ máy học để thu thập và tổ chức thông tin thay cho việc con người làm như ở wikipedia. Hôm nào đủ rãnh rỗi, mình sẽ viết một chuỗi bài về wikipedia, cách sử dụng và ứng dụng của nó, đặc biệt là trong lĩnh vực xử lý ngôn ngữ tự nhiên.
Bài học tự rút ra cho mình:
  1. Nếu có nhiều kết quả, mà ta chỉ có quyền lựa chọn duy nhất thì có thể chơi greedy, chọn cái nào có khả năng nhất. Còn cách khác là lấy top-n kết quả và vote.
  2. Vấn đề ngữ nghĩa của ngôn ngữ tự nhiên rất hấp dẫn. Việc trộn lẫn thông tin của hai nghệ sĩ là khó tránh khỏi với công nghệ hiện nay, có thể xem đây như là một loại nhập nhằng trong ngữ nghĩa. Nếu dùng những thuật toán như hiện nay thì khó mà có kết quả tuyệt đối.
Update 31/12/2017: Những thông tin này nằm trong Knowledge Graph Box, được thêm vào kết quả tìm kiếm của Google kể từ tháng 5, 2012. Thông tin của Knowledge Graph được thu thập từ nhiều nguồn khác nhau như: CIA World Factbook, Wikidata, Wikipedia. Vậy là suy đoán của mình ở trên đã sai, thực tế là Google đã dùng wikipedia trong trường hợp này. Tuy nhiên, có lẽ do Google không xử lý tiếng Việt nên mới có sự nhầm lẫn giữa Bích Phương và Bích Phượng.
Update 31/12018: Knowledge Graph Box về Bích Phương đã được cập nhật, và có dẫn link đến wikipedia. Thông tin bài hát cũng cập nhật thành tiếng Việt có dấu.

Comments

Popular Posts