Thành viên | Phân công công việc | Mức độ hoàn thành |
---|---|---|
A42718 - Lê Thảo Quyên | Thực hiện Bản dịch Tiếng Việt | 100% |
A41316 - Nguyễn Hữu Khoa | Thực hiện ghi chép và chuyển đổi mã nguồn | 100% |
-
File mã nguồn được lưu trong thư mục src gồm:
- python2: là file mã nguồn gốc được lấy từ sách
- python3: là file mã nguồn đã được chuyển đổi cú pháp sang python3
- Data_Collection.ipynb: Thu thập dữ liệu từ Reddit thông qua API của Reddit, sử dung thư viện PRAW và lưu trữ dữ liệu vào cơ sở dữ liệu bằng SQLite3.
- Data_Preparation_n_Analysis.ipynb: Dữ liệu được chuẩn bị và đưa vào phân tích.
- graph: là thư mục chứa các đồ thị được tạo ra từ dữ liệu thu thập được
-
Các thư viện Python sử dụng trong chương này:
- NLTK: Xử lí ngôn ngữ tự nhiên
- PRAW: Cho phép tải bài viết xuống từ Reddit
- SQLite3: Cho phép tạo và lưu trữ data trong cơ sở dữ liệu
- Matplotlib: Đồ thị hóa dữ liệu
-
Lưu ý: Trong phần chuẩn bị dữ liệu, để có thể lấy được dữ liệu từ Reddit bạn cần sử dụng API của Reddit. Tuy nhiên bạn sẽ bị giới hạn 60 request/phút cho mỗi máy khách. Nếu muốn tăng giới hạn lên 600 request/phút bạn cần đăng kí token sử dụng OAuth2, gửi submit cũng như đợi xét duyệt.
- Tạo môi trường ảo bằng lệnh
python3 -m venv venv
- Kích hoạt môi trường ảo bằng lệnh
source venv/bin/activate
- Tải và cài đặt các thư viện cần thiết bằng lệnh
pip install -r requirements.txt
- Tải và cài đặt MySQL
- Tạo database
reddit
trong MySQL - Chạy mã nguồn theo thứ tự:
Data_Collection.ipynb
Data_Preparation_n_Analysis.ipynb
Theo dõi Repo trên Github tại đây
Chương 8: Text mining and text analytics được lấy từ cuốn sách Introducing Data Science: Big Data, Machine Learning, and more, using Python tools của Davy Cielen, Arno D. B. Meysman, Mohamed Ali.