Nhảy đến nội dung
Sử dụng pivot_table() hoặc groupby() với unstack()

Khi cần nhóm hai cột của một df hiện thị giá trị của cột thứ 3 với kiểu dữ liệu category.

df2= df.groupby(['cot_1', 'cot_2']).cot_3.mean()

Sau đó unstack()

df2.unstack() 

Thì kết quả tương tự như 

df.pivot_table(index='cot_1', columns='cot_2, values='cot_3)

 

PMFs, CDFs và PDFs trong Python

Bài viết giới thiệu cách thể hiện các sự phân bổ của số liệu sử Probability Mass Functions (PMFs) and Cumulative Distribution Functions (CDFs). Đây là một trong số cách trực quan hóa dữ liệu bạn hay dùng để "khám" bộ dữ liệu. Có 3 cách để trực quan hóa dữ liệu đó là sử dụng PMF, CDF và KDE.

Sử dụng matplotlib vẽ đồ thị cùng trục x, trục y khác nhau

Trong quá trình trực quan hóa dữ liệu, bạn gặp khá nhiều trường hợp khi vẽ đồ thị trên cùng một trục x nhưng trục y lại có mức chia khác nhau ví dụ một đồ thì là giá thành, còn một đồ thị là khối lượng (kg). 

Mẹo ở đây là bạn sử dụng 2 trục y khác nhau chia sẻ cùng một trục x. Bạn có thể sử dụng các định dạng và định vị matplotlib.ticker vì là 2 trục y độc lập với nhau.  

Cách nhập csv file vào Python sử dụng Pandas

Khi phân tích dữ liệu bạn sẽ làm việc rất nhiều với csv file, csv còn gọi là Comma Separated Values nghĩa là các giá trị được phân tách ra bằng dấu phẩy. 

# Nhập gói pandas
import pandas as pd

# Nhập file csv, duong_dan_toi_file là đường dẫn tới file trong lưu trong máy tính của bạn ví dụ mình lưu trong C:\Users\DELL\Downloads\1.300 Doanh Nhân Nữ Hàng Đầu Tại Tphcm - Sheet1.csv
df = pd.read_csv(r'duong_dan_toi_file')

df giờ là một dataframe của csv file. 

Python args và kwargs
Thi thoảng bạn nhìn và một hàm trong Python, bạn có thể nhận thấy có 2 arg (thường gọi là đối số, là giá trị đưa vào hàm) khá lạ lẫm, là *args và **kwargs. Nếu bạn còn chưa hiểu rõ và tại sao IDE như Spyder đã định nghĩa sẵn các biến này thì bài viết này sẽ chỉ ra cách sử dụng args và kwagrs trong Python làm cho hàm bạn viết trở lên linh hoạt hơn.

Ghi chú:

5 Lựa Chọn IDEs Python Để Phân Tích Dữ Liệu Khoa Học
IDE là viết tắt của Integrated Development Environment nghĩa là môi trường phát triển tích hợp, đó vừa là text editor và vừa có thể thực hiện các lệnh, hiện thị biểu đồ...IDE là công cụ lập trình để bạn viết, thử, sửa lỗi một cách dễ dàng - là môi trường để hoàn thiện/gợi ý các dòng lệnh, quản lý nguồn tài nguyên..

Sau khi đã làm quen với Python sử dụng các dòng lệnh ngắn cơ bản, giờ bạn có những dự án lớn với các hàm chứa nhiều code thì việc sử dụng Python shell sẽ rất bất tiện, và bạn sẽ nghĩ tới sử dụng một IDE.