Nhảy đến nội dung

Supervised Learning - Python

Bài viết liên quan tới bộ scikit-learn - bộ ML được biết tới với 

  • Những công cụ đơn giản mà hiệu quả cho phân tích dự liệu dự đoán 
  • Ai cũng có thể truy cập và sử dụng lại trong nhiều bối cảnh của công việc, cá nhân...
  • Xây dựng trên nền NumPy, SciPy, và matplotlib
  • Mã nguồn mở, sử dụng thương mại được - giấy phép BSD

ML (Machine Learing) là sự kết hợp của nghệ thuật và khoa học, là khả năng máy tính có thể học và đưa ra những quyết định từ dữ liệu mà không được lập trình cụ thể. Ví dụ, dự đoán email tới hộp tư là thư rác hay không, hay một bài viết mới trên Wikepedia xếp vào mục nào. 

ML có 3 kiểu:

  • Labeled data -> supervised learning
  • Unlabeled data -> unsupervised learning: khám phá những cấu trúc và các hình mẫu từ unlabeled data.
  • Reinforcement learning: cách phần mềm tương tác với môi trường như chatbot, học cách tối iu hóa hành vi của bot. 

Bài viết này tập trung vào Supervised learning 

Một số từ chuyên ngành - với mình tự hiểu ML hay gì khác thì đều cần dữ liệu và trong supervised learning dữ liệu vào gọi là predictor variables (biến dự đoán) nó cũng có tên gọi khác là features - thể hiện bằng cột, biến ra còn gọi là target variable (dependent variables)