Ensemble Là Gì

I. Khái niệm

"Đoàn kết là mức độ mạnh". Tôi băn khoăn câu này lộ diện ở chỗ nào khi nào nhưng nó lại bao quát ý tưởng của cách làm Ensemble trong Machine Learning.

Bạn đang xem: Ensemble là gì

Lấy ví dụ thay này, chúng ta có một Mã Sản Phẩm cơ mà đầu ra của model đó ko tốt cần các bạn thử những model khác. Sau lúc tìm kiếm được mã sản phẩm vừa lòng và "chắc rằng chủ yếu xác", các bạn lại đề nghị chỉnh sửa đổi sửa từ bỏ thuật toán đến hyperparameter nhằm mô hình đạt độ đúng chuẩn cao nhất. Tất cả những câu hỏi kể trên sẽ ngốn của công ty một lô thời gian vày các bạn phải chạy từng Mã Sản Phẩm một, thế cho nên nhằm nkhô cứng hơn các bạn phối kết hợp đa số Mã Sản Phẩm "học tập yếu" đó lại để tạo ra một Mã Sản Phẩm "học mạnh" rộng, ngoài ra hiệu quả thu được cũng giỏi rộng đối với từng Mã Sản Phẩm một.

Để gọi sâu thêm, họ sẽ hiểu rõ quan niệm mô hình "yếu" cùng "mạnh".

Khi làm cho những bài bác toán về phân nhiều loại (classification) xuất xắc hồi quy (regression), cứng cáp ai cũng biết phần đặc trưng nhất là tuyển lựa Model. Việc chọn này nhờ vào nhiều yếu tố: số lượng data, Điểm sáng data (số chiều, phân phối), v.v...Từ kia ta sẽ sở hữu đối sánh giữa data cùng model (bias-variance tradeoff) aka (mối quan hệ tấn công thay đổi giữa bias với variance). Ok, tôi sẽ không còn đi chi tiết quan niệm này bởi nó cũng ngốn tương đối thời hạn, các chúng ta có thể tham khảo tại chỗ này (https://diễn đàn.machinelearningcoban.com/t/moi-quan-he-danh-doi-giua-bias-va-variance/4173).

Nói tầm thường là không tồn tại một mã sản phẩm như thế nào hoàn hảo nhất lúc đi lẻ tẻ do phép tắc tradeoff bên trên, các Model này còn có điểm yếu rõ nét nhỏng tất cả chiếc bị high bias (Mã Sản Phẩm dự đân oán không đúng so với cái giá trị thực tiễn vô cùng nhiều) xuất xắc gồm mẫu bị high variance (đân oán đúng bên trên cỗ dữ liệu train dẫu vậy tạch cùng với bộ dữ liệu chưa gặp gỡ bao giờ), cần chúng hồ hết bị Call là "yếu". Vậy vì sao ta ko phối hợp các Model "yếu" để tạo ra một Mã Sản Phẩm "mạnh" đúng cùng với câu " 3 cây chụm lại đề xuất hòn núi cao" để sút bias / variance.

II. Kết đúng theo các model "yếu" như thế lào ???

Ok, kết luận là tôi gồm một đống mã sản phẩm "yếu" với tôi ý muốn kết hợp thành một Model "mạnh", công dụng hơn. Vậy tôi yêu cầu follow công việc sau:

First, lựa chọn Mã Sản Phẩm sẽ làm base Mã Sản Phẩm cho tất cả thuật toán. Thông thường một Mã Sản Phẩm sẽ tiến hành chọn ra (ví dụ là Decision Tree), ta lại nên nhiều quy mô "yếu" buộc phải ta cần tăng số lượng mã sản phẩm phải dùng lên => ta tất cả n Mã Sản Phẩm Decision Tree Bagging: Xây dựng một lượng béo những Mã Sản Phẩm (hay là thuộc loại) trên phần nhiều subsamples không giống nhau tự tập training datamix (random sample trong một dataset nhằm chế tạo 1 dataset mới). Những Model này sẽ tiến hành train chủ quyền với song tuy vậy cùng nhau tuy vậy áp ra output của bọn chúng sẽ được vừa đủ cùng để cho ra hiệu quả cuối cùng.Boosting: Xây dựng một lượng Khủng các Model (thường là thuộc loại). Mỗi Mã Sản Phẩm sau vẫn học bí quyết sửa phần lớn errors của Mã Sản Phẩm trước (tài liệu cơ mà Mã Sản Phẩm trước dự đân oán sai) -> chế tạo ra thành một chuỗi các Mã Sản Phẩm mà lại Model sau sẽ tốt hơn model trước vị trọng số được update qua từng model (rõ ràng nghỉ ngơi đây là trọng số của không ít tài liệu dự đoán đúng sẽ không còn thay đổi, còn trọng số của rất nhiều dữ liệu dự đân oán không đúng sẽ tiến hành tăng thêm) . Chúng ta sẽ rước kết quả của Mã Sản Phẩm cuối cùng trong chuỗi Mã Sản Phẩm này làm công dụng trả về (bởi model sau sẽ giỏi rộng Model trước bắt buộc giống như công dụng sau cũng trở nên tốt rộng công dụng trước).

Xem thêm: Trường Nhật Ngữ Tốt Ở Tphcm, #1 Top 5 Trung Tâm Nhật Ngữ Uy Tín Nhất Tại Tp

Stacking: Xây dựng một số Mã Sản Phẩm (thường là khác loại) và một meta Mã Sản Phẩm (supervisor model), train phần đa model này chủ quyền, tiếp đến meta model đang học biện pháp phối kết hợp hiệu quả đoán trước của một trong những mô hình một giải pháp tốt nhất.

Trong 3 biến đổi thể bên trên thì Bagging giúp ensemble Mã Sản Phẩm giảm variance. Còn Boosting cùng Stacking triệu tập vào vấn đề sút bias (cũng bớt cả variance).

Tiếp theo đó, tôi vẫn reviews chi tiết rộng về Bagging, còn Boosting cùng Stacking thì trong phần tiếp theo sau

*

Tương ứng cùng với L cỗ dữ liệu là L mã sản phẩm "yếu".

w1(.),w2(.),...,wL(.)eginalignedw_1(.), w_2(.), ..., w_L(.)endalignedw1​(.),w2​(.),...,wL​(.)​

Kết vừa lòng những model đó lại, ta được một model new dũng mạnh hơn. Với các sự việc khác biệt, nlỗi regression, Áp sạc ra của các model "yếu" sẽ tiến hành vừa phải cộng, tác dụng này đã là áp ra output của mã sản phẩm "mạnh". Còn với classification, class cổng output của mỗi một Model "yếu" sẽ tiến hành xem là 1 vote cùng class nhưng nhận được số vote các độc nhất vẫn là áp ra output của Model "mạnh" (bí quyết này Call là hard-voting). Trong ngôi trường thích hợp Mã Sản Phẩm "yếu" dự đoán thù Tỷ Lệ của toàn bộ class thì ta và tính vừa phải cộng của Xác Suất của từng class rồi rước xác suất có giá trị lớn nhất (phương pháp này Hotline là soft-voting).

*

Cuối thuộc, nhằm chốt phần lý thuyết với sang phần code, tôi vẫn chỉ ra rằng một giữa những lợi ích mà lại bagging đem đến, sẽ là tính song song. Như hình dưới, bạn sẽ thấy phần core của bagging hầu hết là các bước song tuy nhiên nên nếu bạn bao gồm bé đồ vật khỏe, bạn cũng có thể train từng Mã Sản Phẩm song tuy vậy với nhau với sau cùng tổng thích hợp cổng output của các mã sản phẩm đó lại.

*

Code of Bagging

Thật may cho bọn họ, thư viện sklearn vẫn cung ứng hầu hết đồ vật mang đến tận răng

*

III. End

Tôi đang hoàn thành phần 1 nội dung bài viết ở đây, phần 2 đã tập trung vào boosting và stacking. Nếu bao gồm gì không nên sót thì nên góp ý nhé. Bài viết trên dựa vào ý gọi của mình và có một phần dịch lại sau khi tham khảo một cơ số nội dung bài viết trên medium, blog, v.v... Nếu bạn có nhu cầu bao gồm cái nhìn tổng quan lại hơn thế thì phải bài viết liên quan những links tiếp sau đây.

Source

https://towardsdatascience.com/ensemble-methods-bagging-boosting-and-stacking-c9214a10a205