Nhảy đến nội dung

Stochastic Gradient Boosting (SGB)

Stochastic Gradient Boosting (SGB) khắc phục một số nhược điểm của Gradient Boosting. Vì Gradient Boosting liên quan vào thủ tục tìm kiếm toàn diện (exhaustive search procedure). Mỗi cây ở trong nhóm (ensemble) được dạy để tìm điểm chia và các tính năng tốt nhất (best features). Thủ tục này có thể dẫn tới CARTs (Classification AND Regression Trees) sử dụng các điểm chia chung và có khả năng cùng các tính năng. 

Stochastic Gradient Boosting (SGB) dùng thuật toán để khắc phục nhược điểm trên, mỗi CART được dạy bằng một tập hợp con của bộ dữ liệu dạy (training data). Tập hợp con được thử mà không bị thay thế. Thêm nữa, ở mức đổ của mỗi node, các tính năng được thử mà không bị thay thê khi lựa chọn điểm chia tốt nhất. Kế quả là, điều này tạo sự đa dạng hơn trong nhóm và ảnh hưởng chuẩn chỉ thêm nhiều hơn variance vào nhóm cây (khóm cây - ensemble trees)

Thay vì lấy toán bộ bộ training set đệ tạo cây, thì SGB chỉ lấy một phần qua quá trình lấy mẫu mà không bị thay thế và ở các điểm chia không phải toàn bộ tính năng được đưa vào để thiết lập mà chỉ có một phần. Sau khi cây được dạy, hoàn thành dự đoán, và lỗi được tính toán. Lỗi dư sẽ đươc nhân với tốc độ học và đưa vào cây tiếp theo của nhóm cây. Quá trình này được lặp lại theo chuổi cho tới khi toàn bộ cây được dạy. Thủ tục dự đoán ở SBF tương tự như ở GB (gradient boosting)

Định nghĩa:

Tập hợp con được thử mà không bị thay thế: Bộ tập con lấy ra từ bộ chính chỉ được lấy một lần (không lặp lại).

Bài tiếp: Chỉnh CART's Hyperparameters