Giới thiệu thư viện BeautifulSoup
Mới nhìn BeautifulSoup chắc bạn tưởng món soup nào đó ngon lắm. Nhưng không ngon như bạn nghĩ, BeautifulSoup là thư viện python để rút thông tin từ tập tin HTML, XML, chắc tác giả có tâm hồn ăn uống lắm mới đặt tên như vậy.
Muốn xài cái gì thì trước tiên phải có nó đã, cài đặt BeautifulSoup rất đơn giản, chỉ bằng 1 câu lệnh trên commandline (trên Windows) hay terminal (trên Linux)
Bước tiếp theo là cài đặt parser, môn na là thứ để xử lý tập tin xml. Mình dùng html5lib, nên chỉ hướng dẫn cú pháp cài html5lib thôi, bạn nào muốn xài cái khác thì lên trang chủ của nó (để ở cuối bài viết) mà tìm hiểu.
pip install html5lib
Cách sử dụng khá đơn giản, bằng một cách thần thánh nào đó bạn có một biến chứa nội dung html (một tập tin, một string hay dùng gói requests, ...). Lưu ý trước khi xài phải import thư viện:
from bs4 import BeautifulSoup
Bắt đầu món soup thôi nào, để đưa một biến chứa html text vào bs ta đơn giản dùng hàm sau:
xyz = BeautifulSoup(htmlText)
Hàm này sẽ trả về một cấu trúc dữ liệu cây. Nếu chưa biết cây là gì thì về ở với thú đi nha!
Tới đây rồi thì tham khảo thêm, rồi tự làm ha, lười viết chi tiết lắm, trải nghiệm mới biết nó dùng cho cái gì.
Nguồn: Crummy
Muốn xài cái gì thì trước tiên phải có nó đã, cài đặt BeautifulSoup rất đơn giản, chỉ bằng 1 câu lệnh trên commandline (trên Windows) hay terminal (trên Linux)
pip install beautifulsoup4
Nếu chưa có pip thì vui lòng search google để cài pip rồi thực hiện lại nha =))Bước tiếp theo là cài đặt parser, môn na là thứ để xử lý tập tin xml. Mình dùng html5lib, nên chỉ hướng dẫn cú pháp cài html5lib thôi, bạn nào muốn xài cái khác thì lên trang chủ của nó (để ở cuối bài viết) mà tìm hiểu.
pip install html5lib
Cách sử dụng khá đơn giản, bằng một cách thần thánh nào đó bạn có một biến chứa nội dung html (một tập tin, một string hay dùng gói requests, ...). Lưu ý trước khi xài phải import thư viện:
from bs4 import BeautifulSoup
Bắt đầu món soup thôi nào, để đưa một biến chứa html text vào bs ta đơn giản dùng hàm sau:
xyz = BeautifulSoup(htmlText)
Hàm này sẽ trả về một cấu trúc dữ liệu cây. Nếu chưa biết cây là gì thì về ở với thú đi nha!
Tới đây rồi thì tham khảo thêm, rồi tự làm ha, lười viết chi tiết lắm, trải nghiệm mới biết nó dùng cho cái gì.
Nguồn: Crummy
Comments
Post a Comment