Trần Ngọc Minh

Machine Learning: Trích xuất dữ liệu từ các trang web dùng thư viện BeautifulSoup

23/08/2019

Một trong những nguồn dữ liệu vô tận có thể khai thác cho các dự án machine learning là từ các trang web và chúng ta có thể trích xuất các thông tin từ đó bằng cách sử dụng thư viện BeautifulSoup. Ngoài ra, để sử dụng hiệu quả thư viện này, chúng ta cũng cần cài đặt thêm các thư viện requests và html5lib. Nếu chúng ta đã từng cài Anaconda ( có thể xem lại tại https://ngocminhtran.com/2018/03/31/cai-dat-python-cho-machine-learning-va-tensorflow-trong-windows-10/ ) thì các thư viện này mặc nhiên đã được cài đặt. Trích xuất dữ liệu từ tài liệu HTML…

Machine Learning: Trích xuất dữ liệu từ các trang web dùng thư viện BeautifulSoup