Bài tập lớn số 3 - Nhập môn khoa học dữ liệu - Nhóm 2 - Lớp NMKHDL.1_K3N2_2223

Thành viên

Thành viên	Phân công công việc	Mức độ hoàn thành
A42718 - Lê Thảo Quyên	Thực hiện Bản dịch Tiếng Việt	100%
A41316 - Nguyễn Hữu Khoa	Thực hiện ghi chép và chuyển đổi mã nguồn	100%

Các file báo cáo

Bản dịch Tiếng Việt
File mã nguồn được lưu trong thư mục src gồm:
- python2: là file mã nguồn gốc được lấy từ sách
- python3: là file mã nguồn đã được chuyển đổi cú pháp sang python3
  - Data_Collection.ipynb: Thu thập dữ liệu từ Reddit thông qua API của Reddit, sử dung thư viện PRAW và lưu trữ dữ liệu vào cơ sở dữ liệu bằng SQLite3.
  - Data_Preparation_n_Analysis.ipynb: Dữ liệu được chuẩn bị và đưa vào phân tích.
- graph: là thư mục chứa các đồ thị được tạo ra từ dữ liệu thu thập được
Các thư viện Python sử dụng trong chương này:
- NLTK: Xử lí ngôn ngữ tự nhiên
- PRAW: Cho phép tải bài viết xuống từ Reddit
- SQLite3: Cho phép tạo và lưu trữ data trong cơ sở dữ liệu
- Matplotlib: Đồ thị hóa dữ liệu
Lưu ý: Trong phần chuẩn bị dữ liệu, để có thể lấy được dữ liệu từ Reddit bạn cần sử dụng API của Reddit. Tuy nhiên bạn sẽ bị giới hạn 60 request/phút cho mỗi máy khách. Nếu muốn tăng giới hạn lên 600 request/phút bạn cần đăng kí token sử dụng OAuth2, gửi submit cũng như đợi xét duyệt.

Hướng dẫn chạy chương trình

Tạo môi trường ảo bằng lệnh python3 -m venv venv
Kích hoạt môi trường ảo bằng lệnh source venv/bin/activate
Tải và cài đặt các thư viện cần thiết bằng lệnh pip install -r requirements.txt
Tải và cài đặt MySQL
Tạo database reddit trong MySQL
Chạy mã nguồn theo thứ tự:
- Data_Collection.ipynb
- Data_Preparation_n_Analysis.ipynb

Cập nhật

Theo dõi Repo trên Github tại đây

Chương 8: Text mining and text analytics được lấy từ cuốn sách Introducing Data Science: Big Data, Machine Learning, and more, using Python tools của Davy Cielen, Arno D. B. Meysman, Mohamed Ali.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
src		src
.gitignore		.gitignore
README.md		README.md
chapter8_en.pdf		chapter8_en.pdf
chapter8_vi.pdf		chapter8_vi.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Bài tập lớn số 3 - Nhập môn khoa học dữ liệu - Nhóm 2 - Lớp NMKHDL.1_K3N2_2223

Thành viên

Các file báo cáo

Hướng dẫn chạy chương trình

Cập nhật

About

Languages

kztera/BTL-3-NMKHDL

Folders and files

Latest commit

History

Repository files navigation

Bài tập lớn số 3 - Nhập môn khoa học dữ liệu - Nhóm 2 - Lớp NMKHDL.1_K3N2_2223

Thành viên

Các file báo cáo

Hướng dẫn chạy chương trình

Cập nhật

About

Topics

Resources

Stars

Watchers

Forks

Languages