Ở Phần 1, chúng ta đã xem xét một ví dụ đơn giản của suy diễn biến phân. Trong bài viết ngày hôm nay, chúng ta sẽ xem xét một ví dụ phức tạp hơn, đòi hỏi các giả định mạnh hơn để giải quyết.
Một bóng đèn có tuổi thọ thực tế
Mô hình sinh của tuổi thọ thực nghiệm là một mô hình phân tầng (hierarchical model) được mô tả như sau
Dựa trên mô hình này, phân phối kết hợp (joint distribution) của tuổi thọ thực nghiệm và tuổi thọ thực tế là
trong đó
Tương tự như ví dụ trước, ta mong muốn tính được phân phối hậu nghiệm kết hợp (joint posterior distribution) của cả tham số tỉ lệ
Việc phải ước lượng cả hai tham số
Suy diễn biến phân với trường trung bình (mean-field variational inference) là một trong những cách tiếp cận phổ biến trong các trường hợp như vậy.
Ý tưởng chính của phương pháp này là giả định họ phân phối biến phân (variational distribution family) là họ trường trung bình (mean-field family). Đây là họ các phân bố phân rã được (factorizable). Nói cách khác, các biến ngẫu nhiên được giả định là độc lập với nhau, mỗi biến tuân theo một phân phối phần tử (factor) riêng. Cụ thể, các phân phối trong thuộc họ trường trung bình trên không gian vector ngẫu nhiên
Hãy nhớ lại về định nghĩa ELBO:
Trong đó, phân phối kết hợp có thể được phân tách như sau
và do đó
Với việc sử dụng họ phân phối trường trung bình,
Kết hợp 2 điều trên, ELBO trở thành
Một điểm đáng lưu ý ở đây là với việc sử dụng họ phân phối trường trung bình, tại một tọa độ
Như vậy, tại một tọa độ bất kì, ELBO có thể được tách được thành
Việc có thể viết được ELBO dưới dạng trên cho thấy rằng việc tìm
Xét tọa độ
ELBO khi chỉ xét các thành phần liên quan đến
Đạo hàm theo
Đặt đạo hàm bằng không, ta có
hay
Ở đây, ta tiếp cận nó theo một hướng khác, sử dụng việc
với
Trong một số trường hợp, ta có thể tính được kỳ vọng này một cách dễ dàng.
Tóm lại, thuật toán gia tăng từng tọa độ để tối ưu ELBO khi sử dụng họ phân phối trường trung bình, gọi tên là CAVI (Coordinate Ascent Variational Inference), có thể được mô tả như sau:
Lặp lại cho đến khi hội tụ:
Với mỗi
Chuẩn hóa
Trong trường hợp này, ta giả định họ phân phối trường trung bình cho cả hai biến ngẫu nhiên
Một điều đặc biệt là ta không hề giả định gì về từng thành phần
Theo như thuật toán trên, các cập nhật sẽ là
Phân phối kết hợp Để tính được bước cập nhật cho từng tọa độ, ta cần biến đổi phân phối kết hợp
Từ đó, ta có thể tính được
Cập nhật của
Như vậy, cập nhật cho
Nếu để ý, ta sẽ nhận ra rằng
Ở đây,
Cập nhật của
Như vậy, cập nhật cho
Nếu để ý, ta sẽ lại nhận ra rằng
Lại một lần nữa,
Tóm lại, thuật toán để giải quyết bài toán đầu đề có thể được mô tả như sau:
Với mỗi
Cập nhật
và theo đó
Cập nhật
và theo đó
Nếu quan tâm, mọi người có thể thử tại đây để so sánh giữa phân phối hậu nghiệm chính xác và phân phối biến phân tại các bước của thuật toán.
Hình trên vẽ mặt cắt
Có thể thấy giả định trường trung bình đã giới hạn khả năng xấp xỉ của phân phối biến phân. Bên cạnh đó, do ta đang tối ưu phân kỳ KL
Trong bài viết này, chúng ta đã thảo luận về một ví dụ phức tạp hơn của suy diễn biến phân, và cách tiếp cận nó thông qua phương pháp suy diễn biến phân với trường trung bình. Bài viết này có thể sẽ được cập nhật để thêm phần cài đặt và mô phỏng kết quả.
Trong các phần tiếp theo (nếu có), chúng ta sẽ xem xét một số ví dụ khác, đôi chút phức tạp hơn, nhưng vẫn có thể giải quyết được bằng phương pháp này. Hy vọng được gặp lại!