Checklist: 8 bước chuẩn bị cho một dự án Machine Learning

Checklist: 8 Bước Chuẩn Bị Cho Một Dự án Machine Learning 605d6901af2cb.jpeg

Bài viết này sẽ trình bày tổng quan về checklist 8 bước trong triển khai các dự án học máy (Machine Learning) của Aurélien Géron, như thể hiện trong cuốn sách best-seller của ông, “Machine Learning. Practice with Scikit-Learn & TensorFlow”. Nó cũng tương tự như quy trình bảy bước của Guo, nhưng ở mức độ tinh tế hơn; Nó được trình bày dưới dạng một danh sách checklist để tiếp cận các dự án, và do đó giúp cho cảm thấy ít tính thủ tục và nội dung hơn, như một sự nhắc nhớ về những gì bạn nên làm.

Dưới đây các bước tổng quan ngắn gọn về danh sách checklist của Géron. Chúng tôi gợi ý những ai chưa đọc cuốn sách của Géron nên đọc qua nó để biết thêm thông tin hữu ích nhắm vào những người mới bắt đầu và đang triển khai thực hành các mô hình Machine Learning.

1. Xác định vấn đề

Bước đầu tiên này là nơi mục tiêu được xác định. Géron đề cập đến các mục tiêu về mặt kinh doanh, nhưng điều này không thực sự cần thiết. Tuy nhiên, sự hiểu biết về cách giải pháp cuối cùng của hệ thống Machine Learning sẽ được sử dụng là rất quan trọng. Bước này cũng là nơi các kịch bản và các phương pháp giải quyết vấn đề có thể được so sánh và cần phải được thảo luận kỹ, cũng như các giả định được dự tính và mức độ cần thiết về chuyên môn của con người. Các mục kỹ thuật quan trọng khác xác định trong bước này bao gồm xác định loại vấn đề Machine Learning nào (được giám sát, không giám sát, v.v.) được áp dụng và các chỉ tiêu về hiệu suất nào có thể được chấp nhận.

2. Thu thập dữ liệu

Ở bước này dữ liệu sẽ là trọng tâm: xác định số lượng dữ liệu cần thiết, loại dữ liệu nào là cần thiết, lấy dữ liệu ở đâu, đánh giá các vấn đề pháp lý xung quanh việc thu thập dữ liệu … và tiến hành lấy dữ liệu. Một khi bạn có dữ liệu, hãy đảm bảo dữ liệu được ẩn danh một cách thích hợp, đảm bảo bạn biết loại dữ liệu đó thực sự là gì (chuỗi thời gian, quan sát, hình ảnh, v.v.), chuyển đổi dữ liệu sang định dạng bạn yêu cầu và tạo ra các tập dự liệu đào tạo, xác nhận và test.

3. Khám phá dữ liệu

Bước này trong checklist gần giống với những gì thường được gọi là Phân tích dữ liệu khám phá (Exploratory Data Analysis – EDA). Mục tiêu là để thử và đạt được những hiểu biết sâu sắc từ dữ liệu trước khi lập mô hình. Hãy nhớ lại rằng trong các giả định bước đầu tiên về dữ liệu đã được xác định và khám phá; đây là thời điểm tốt để nghiên cứu sâu hơn những giả định này. Các chuyên gia có thể được cần đến trong bước này nhằm trả lời các câu hỏi về những sự tương quan, có thể không rõ ràng đối với người mới thực hành về Machine Learning. Việc nghiên cứu các tính năng và đặc điểm của chúng được thực hiện ở đây, cũng như trực quan hóa một cách tổng quan các tính năng và giá trị của chúng (suy nghĩ về việc nó có thể đơn giản hơn đến đâu, ví dụ, xác định vấn đề bằng cách vẽ một chiếc hộp hơn là các tính toán số học). Lưu thành tài liệu những phát hiện của bạn để sử dụng sau này là việc cần làm ở bước này.

4. Chuẩn bị dữ liệu

Đây là lúc để áp dụng việc chuyển đổi dữ liệu mà bạn đã xác định là có giá trị trong bước trước. Bước này cũng bao gồm các thao tác làm sạch dữ liệu, cũng như lựa chọn ra đặc tính và phương pháp kỹ thuật. Việc chuẩn hóa dữ lliệu cũng sẽ được thực hiện ở bước này.

5. Mô hình hóa dữ liệu

Bước này là lúc để mô hình hóa dữ liệu và thu nhỏ bộ mô hình ban đầu xuống thành một phiên bản có tiềm năng nhất. (Điều này tương tự như bước lập mô hình đầu tiên trong quy trình của Chollet: mô hình tốt → mô hình “quá tốt”, bạn có thể đọc thêm về đây) Những nỗ lực như vậy có thể liên quan đến việc sử dụng các mẫu của bộ dữ liệu đầy đủ để tạo điều kiện cho thời gian đào tạo cho các mô hình sơ bộ, mô hình nên cắt ngang một phạm vi rộng của các loại (cây, mạng lưới thần kinh, tuyến tính, v.v.). Các mô hình nên được xây dựng, đo lường và so sánh với nhau và các loại lỗi gây ra cho mỗi mô hình nên được nghiên cứu, cũng như các tính năng quan trọng nhất cho mỗi thuật toán được sử dụng. Các mô hình hoạt động tốt nhất nên được đưa vào danh sách rút gọn, sau đó có thể được tinh chỉnh sau đó.

6. Tinh chỉnh các mô hình

Các mô hình được liệt kê trong danh sách ngắn bây giờ sẽ được tinh chỉnh các siêu đường kính của chúng và các phương pháp tập hợp nên được nghiên cứu ở giai đoạn này. Bộ dữ liệu đầy đủ nên được sử dụng trong bước này, nên lấy mẫu dữ liệu đã được sử dụng trong giai đoạn lập mô hình trước đó; không nên chọn mô hình tinh chỉnh nào là “người chiến thắng” mà không phải tiếp xúc với tất cả dữ liệu đào tạo hoặc so sánh với các mô hình khác cũng đã được tiếp xúc với tất cả dữ liệu đào tạo. Ngoài ra, bạn đã không phù hợp, phải không?

7. Trình bày giải pháp

Đã đến lúc trình bày, vì vậy, hy vọng các kỹ năng hình dung của bạn (hoặc của một người nào đó trong nhóm thực hiện) sẽ ngang bằng! Đây là một bước kỹ thuật ít hơn nhiều, mặc dù việc đảm bảo tài liệu phù hợp về các khía cạnh kỹ thuật của hệ thống tại thời điểm này cũng rất quan trọng. Trả lời câu hỏi cho các bên quan tâm: Các bên quan tâm có hiểu bức tranh lớn không? Liệu giải pháp có đạt được mục tiêu? Bạn đã truyền đạt các giả định và hạn chế? Đây thực chất là một chiêu trò bán hàng, vì vậy hãy đảm bảo sự tự tin trong hệ thống. Tại sao tất cả công việc này nếu kết quả không được hiểu và chấp nhận?

8. Khởi chạy hệ thống ML

Chuẩn bị cho hệ thống Machine Learning sẵn sàng cho môi trường production; Nó sẽ cần phải cắm được vào một số hệ thống production hoặc chiến lược rộng hơn. Là một giải pháp phần mềm, nó sẽ được thực hiện unit test trước và cần được theo dõi đầy đủ sau khi chạy thực tế. Đào tạo lại các mô hình trên dữ liệu mới hoặc dữ liệu thay thế là một phần của bước này và nên được tính đến ở đây, ngay cả khi việc này đã được đưa ra trong các bước trước.