paint-brush
Tại sao và làm thế nào để xây dựng một công cụ đề xuất tùy chỉnhtừ tác giả@itrex
1,344 lượt đọc
1,344 lượt đọc

Tại sao và làm thế nào để xây dựng một công cụ đề xuất tùy chỉnh

từ tác giả ITRex17m2023/06/13
Read on Terminal Reader

dài quá đọc không nổi

Hơn 80% chương trình mọi người xem trên [Netflix](https://hackernoon.com/company/Netflix/) được khám phá thông qua công cụ đề xuất của nền tảng. Trong bài đăng trên blog này, chúng tôi hướng dẫn bạn quy trình xây dựng công cụ đề xuất và làm sáng tỏ mọi thứ bạn cần biết trước khi chuyển sang nhà cung cấp dịch vụ AI.
featured image - Tại sao và làm thế nào để xây dựng một công cụ đề xuất tùy chỉnh
ITRex HackerNoon profile picture
0-item
1-item


Hơn 80% chương trình mọi người xem trên Netflix được khám phá thông qua công cụ đề xuất của nền tảng . Điều đó có nghĩa là phần lớn những gì mắt bạn nhìn thấy là kết quả của các quyết định do một cỗ máy tinh vi đưa ra.


Dịch vụ phát trực tuyến dựa vào trí thông minh nhân tạo để xem xét các chuỗi sắc thái trong nội dung và đi sâu vào sở thích của người xem. Và thật an toàn khi nói rằng: nỗ lực đã được đền đáp!

Nếu bạn vẫn còn ở phía sau nhưng muốn cải thiện trải nghiệm của khách hàng với doanh nghiệp của bạn, hãy tiếp tục đọc. Trong bài đăng trên blog này, chúng tôi hướng dẫn bạn quy trình xây dựng công cụ đề xuất và làm sáng tỏ mọi thứ bạn cần biết trước khi chuyển sang nhà cung cấp dịch vụ AI.


Công cụ khuyến nghị 101: những điều cần biết trước khi mạo hiểm phát triển

Trước khi tìm hiểu cách xây dựng công cụ đề xuất, hãy xem xét các loại, trường hợp sử dụng và tùy chọn triển khai của một công cụ.


Các loại công cụ khuyến nghị

Theo truyền thống, các hệ thống đề xuất được chia thành hai loại lớn: hệ thống lọc dựa trên nội dung và hệ thống lọc cộng tác.

Lọc dựa trên nội dung

Các hệ thống lọc dựa trên nội dung tạo ra các đề xuất dựa trên các đặc điểm hoặc tính năng của nội dung. Nói cách khác, họ đề xuất các sản phẩm hoặc nội dung tương tự với những sản phẩm hoặc nội dung mà người dùng đã thích hoặc tương tác trước đó. Bằng cách này, một công cụ đề xuất có thể gợi ý “Giã từ vũ khí” cho một độc giả thích “Tất cả yên tĩnh ở mặt trận phía Tây” và “Catch-22”.


Nhưng làm thế nào để động cơ biết mặt hàng nào tương tự nhau? Hãy xem cách tiếp cận của Netflix trong việc xây dựng công cụ đề xuất để hiểu điều đó. Mặc dù hệ thống đề xuất của Netflix có tính chất kết hợp, nhưng nó phụ thuộc rất nhiều vào sự tương đồng về nội dung.


Dịch vụ phát trực tuyến có một nhóm người gắn thẻ, họ xem mọi phần nội dung mới và gắn nhãn cho nội dung đó. Các thẻ bao gồm rất nhiều từ mức độ hành động của tác phẩm cho đến việc nó được đặt trong không gian hay có sự tham gia của một diễn viên cụ thể. Phân tích dữ liệu thẻ theo hành vi của người xem bằng thuật toán máy học cho phép nền tảng phát trực tuyến tìm ra điều gì thực sự phù hợp với từng người dùng.


Lọc cộng tác

Hệ thống lọc cộng tác đưa ra đề xuất dựa trên phản hồi của người dùng . Các hệ thống như vậy giả định rằng những người dùng thích các mặt hàng tương tự có khả năng phản ứng tương tự với các sản phẩm và nội dung mới.


Có hai cách tiếp cận để xây dựng công cụ đề xuất dựa trên lọc cộng tác: dựa trên người dùng và dựa trên mục.


Với tính năng lọc dựa trên người dùng, bạn tạo các phân đoạn gồm những người dùng tương tự với các sở thích được chia sẻ. Vì vậy, một người dùng có khả năng được đề xuất một mặt hàng mà những người dùng khác trong phân khúc thích. Các tính năng của nội dung không được xem xét.


Với tính năng lọc dựa trên mục, công cụ tạo các đề xuất dựa trên mức độ giống nhau của các mục mà người dùng thích với các mục được đề xuất. Nghe có vẻ giống với lọc dựa trên nội dung phải không? Mặc dù cả hệ thống lọc cộng tác dựa trên nội dung và lọc dựa trên mục đều sử dụng tính tương tự của mục để đưa ra đề xuất, nhưng chúng khác nhau về cách xác định những gì tương tự.


Các hệ thống lọc dựa trên nội dung chỉ đề xuất các mặt hàng tương tự như những mặt hàng mà người dùng đã thích. Với tính năng lọc cộng tác dựa trên mặt hàng, bạn sẽ được đề xuất một mặt hàng tương tự như mặt hàng bạn thích và mặt hàng đó cũng được người dùng trong phân khúc của bạn yêu thích.




Các trường hợp sử dụng của công cụ đề xuất

Mức độ cá nhân hóa cao đã trở thành một điều cần thiết mà người dùng mong đợi, thúc đẩy các doanh nghiệp làm phong phú thêm trải nghiệm trực tuyến của họ bằng các công cụ đề xuất. Các lĩnh vực mà các công cụ đề xuất đã trở nên khá phổ biến:


  • Bán lẻ và thương mại điện tử : Các công cụ đề xuất trong thương mại điện tử có thể làm bất cứ điều gì, từ phân loại sản phẩm đến gợi ý các mặt hàng mới cho khách hàng mua. Tác động do triển khai công cụ đề xuất trong thương mại điện tử và dịch vụ khách hàng nâng cao, hoạt động tiếp thị được cải thiện và khả năng bán thêm rộng hơn đi kèm với công cụ này rất khó để đánh giá quá cao tác động do việc triển khai công cụ đề xuất. Ví dụ: ông trùm thương mại điện tử nổi tiếng Amazon tạo ra 35% doanh thu nhờ sự trợ giúp của hệ thống khuyến nghị.


  • Phương tiện và giải trí : Từ quản lý danh sách phát đến cung cấp các đề xuất được cá nhân hóa dựa trên các tương tác trong quá khứ, các công cụ đề xuất giúp nền tảng phương tiện và giải trí thu hút người dùng lâu hơn bằng cách hiển thị cho họ nội dung mà nếu không thì họ sẽ không khám phá được. Các nền tảng giải trí và truyền thông lớn nhất, chẳng hạn như YouTube , NetflixSpotify , đang phụ thuộc rất nhiều vào các đề xuất được cá nhân hóa do AI tạo ra để thu hút và giữ chân người dùng mới.


  • Phương tiện truyền thông xã hội : Lĩnh vực truyền thông xã hội cũng đang tận dụng công nghệ để cung cấp các đề xuất được cá nhân hóa. Giúp người dùng khám phá các trang và tài khoản tương tự, các nền tảng truyền thông xã hội khuyến khích người dùng của họ dành nhiều thời gian hơn để tương tác với nội dung, giúp tăng tỷ lệ nhấp và tăng doanh thu.


  • Tài chính ngân hàng : Các hệ thống đề xuất dựa trên AI cho phép các ngân hàng phân tích các giao dịch của người dùng và bán thêm để tăng doanh thu. Ví dụ: khi người dùng mua vé máy bay trị giá 500 đô la, công cụ đề xuất sẽ tự động cho rằng họ đang bay ra nước ngoài và đề xuất họ mua gói bảo hiểm du lịch.



Tùy chọn triển khai để lựa chọn

Khi bắt tay vào hành trình xây dựng công cụ đề xuất, bạn sẽ gặp một số tùy chọn triển khai với những ưu điểm và cân nhắc riêng, cụ thể là:

Công cụ đề xuất plug-and-play

Các công cụ đề xuất plug-and-play cung cấp một cách thuận tiện và không rắc rối để kết hợp các đề xuất được cá nhân hóa vào sản phẩm hoặc nền tảng của bạn. Chúng được xây dựng sẵn và được thiết kế để tích hợp liền mạch vào cơ sở hạ tầng hiện có của bạn.


Ưu điểm chính của các công cụ đề xuất plug-and-play nằm ở tính đơn giản và dễ sử dụng của chúng. Chúng thường được thiết kế để thân thiện với người dùng, cho phép ngay cả những khán giả không có kỹ thuật cũng có thể thiết lập chúng với nỗ lực tối thiểu. Ví dụ về công cụ đề xuất plug-and-play mở rộng trên các nền tảng như Recombee, Seldon và LiftIgniter.


Nhược điểm của các công cụ đề xuất plug-and-play đi kèm là khả năng tùy chỉnh và khả năng thích ứng hạn chế. Mặc dù chúng mang lại sự tiện lợi và tốc độ, nhưng chúng có thể không cung cấp mức độ linh hoạt và tinh chỉnh mà các giải pháp tùy chỉnh mang lại.

Dịch vụ đề xuất dựa trên đám mây được đào tạo trước

Các công cụ đề xuất dựa trên đám mây cho phép tận dụng nguồn tài nguyên điện toán khổng lồ và kiến thức chuyên môn của các nhà cung cấp dịch vụ đám mây. Các dịch vụ đề xuất này thường cung cấp API dễ sử dụng cho phép nhà phát triển dễ dàng tích hợp chức năng đề xuất vào ứng dụng của họ.


Các công cụ đề xuất dựa trên đám mây cũng có khả năng mở rộng cao, điều này cho phép chúng xử lý cơ sở người dùng lớn và tải lưu lượng truy cập cao. Một ưu điểm khác là cải tiến liên tục khi các mô hình cơ bản được cập nhật và tinh chỉnh bởi các nhà cung cấp dịch vụ.


Các nhà cung cấp dịch vụ đám mây hàng đầu, chẳng hạn như Amazon Web Services, Google Cloud Platform và Microsoft Azure, cung cấp các dịch vụ đề xuất được đào tạo trước.


Các yếu tố cần xem xét khi chọn các dịch vụ đề xuất dựa trên đám mây được đào tạo trước bao gồm các yêu cầu về quyền riêng tư dữ liệu, khóa nhà cung cấp và tùy chỉnh. Mặc dù các dịch vụ này mang lại sự thuận tiện và khả năng mở rộng, nhưng chúng có thể có những hạn chế về việc tùy chỉnh các thuật toán đề xuất để phù hợp với nhu cầu kinh doanh cụ thể của bạn.

Công cụ đề xuất tùy chỉnh

Công cụ đề xuất tùy chỉnh cung cấp mức độ linh hoạt và kiểm soát cao nhất, cho phép bạn kết hợp các thuật toán độc quyền, tận dụng kiến thức dành riêng cho miền và xem xét các sắc thái của dữ liệu của bạn. Đi theo cách tùy chỉnh cho phép bạn nắm bắt được những điểm phức tạp trong sở thích của người dùng, đặc điểm của mặt hàng và các yếu tố theo ngữ cảnh, thường dẫn đến các đề xuất phù hợp và chính xác hơn.


Tuy nhiên, mặc dù các công cụ đề xuất tùy chỉnh mang lại sự linh hoạt nhất, nhưng chúng cũng yêu cầu nguồn lực phát triển đáng kể, kiến thức chuyên môn về máy học và các nỗ lực bảo trì liên tục. Vì vậy, trước khi xây dựng công cụ đề xuất tùy chỉnh, hãy đánh giá cẩn thận nhu cầu kinh doanh, nguồn lực sẵn có và mục tiêu dài hạn của bạn.


Nguyên tắc chung là đi theo lộ trình tùy chỉnh trong các trường hợp sau:


  • Bạn có nhu cầu kinh doanh riêng : Nếu doanh nghiệp của bạn có những yêu cầu riêng mà các giải pháp có sẵn không thể đáp ứng được, hãy tùy chỉnh. Nó sẽ cho phép bạn điều chỉnh thuật toán cho nhiệm vụ cụ thể của mình. Giả sử bạn là một nền tảng thương mại điện tử thích hợp bán các sản phẩm thủ công. Bạn có thể có các yêu cầu riêng biệt khi đề xuất sản phẩm: công cụ đề xuất phải xem xét các yếu tố như độ hiếm của sản phẩm, tay nghề thủ công và sở thích của người dùng đối với các kiểu dáng hoặc chất liệu cụ thể. Xây dựng công cụ đề xuất từ đầu sẽ có nhiều khả năng cho phép bạn tạo các đề xuất phù hợp với sở thích của người dùng.


  • Bạn muốn toàn quyền kiểm soát và quyền sở hữu : Xây dựng công cụ đề xuất tùy chỉnh cho phép bạn kiểm soát hoàn toàn toàn bộ quá trình tạo đề xuất: từ tiền xử lý dữ liệu thông qua lựa chọn thuật toán đến tinh chỉnh. Nó cho phép bạn có toàn quyền sở hữu hệ thống và điều chỉnh nó khi doanh nghiệp của bạn phát triển mà không cần dựa vào các giải pháp của bên thứ ba.


  • Bạn có kiến thức về miền cụ thể : Nếu bạn có kiến thức chuyên môn về miền cụ thể hoặc quyền truy cập vào dữ liệu chuyên biệt có thể nâng cao đáng kể độ chính xác của đề xuất, thì việc xây dựng giải pháp tùy chỉnh sẽ cho phép bạn tận dụng kiến thức đó một cách hiệu quả. Bằng cách phát triển một công cụ đề xuất phù hợp, bạn có thể kết hợp các tính năng hoặc ràng buộc dành riêng cho miền có thể không có sẵn trong các giải pháp được đào tạo trước.


  • Ứng dụng của bạn yêu cầu khả năng mở rộng và hiệu suất cao : Nếu bạn dự đoán một lượng lớn người dùng hoặc mặt hàng, có các ràng buộc nghiêm ngặt về độ trễ hoặc cần xử lý các bộ dữ liệu lớn và phức tạp, thì việc xây dựng một công cụ đề xuất tùy chỉnh sẽ mang lại cho bạn sự linh hoạt để thiết kế và tối ưu hóa hệ thống ở mức tối đa khả năng mở rộng và hiệu suất. Điều tương tự cũng áp dụng nếu bạn muốn tạo đề xuất theo thời gian thực hoặc gần thời gian thực.


  • Bạn muốn đạt được lợi thế cạnh tranh : Nếu đề xuất chính xác là yếu tố khác biệt cốt lõi cho sản phẩm hoặc dịch vụ của bạn, thì việc xây dựng công cụ đề xuất tùy chỉnh có thể mang lại cho bạn lợi thế cạnh tranh. Đầu tư vào một giải pháp phù hợp trong trường hợp này có thể mang đến cơ hội mang lại trải nghiệm độc đáo và được cá nhân hóa, nâng cao mức độ tương tác, lòng trung thành và sự hài lòng của khách hàng.

Xây dựng công cụ đề xuất tùy chỉnh, từng bước

Cung cấp các đề xuất được cá nhân hóa là một nhiệm vụ thường được giải quyết bằng máy học. Mạng lưới thần kinh cũng có thể được sử dụng. Tuy nhiên, vai trò của họ chủ yếu giới hạn trong dữ liệu đào tạo tiền xử lý. Dưới đây là các bước chính trong quá trình xây dựng công cụ đề xuất được chia sẻ bởi các nhà phát triển máy học của ITRex.

Bước 1. Đặt hướng

Phát triển khởi động bằng cách thiết lập hướng cho phần còn lại của dự án. Những điều cần thiết phải làm trong giai đoạn này bao gồm:


  • Đặt mục tiêu và xác định phạm vi dự án

Phác thảo rõ ràng những gì bạn dự định đạt được với một hệ thống đề xuất và cân nhắc mục tiêu đã đề ra với các giới hạn về nguồn lực và ngân sách. Ví dụ: nếu bạn muốn cải thiện mức độ tương tác của khách hàng và tăng doanh số bán hàng trong cửa hàng trực tuyến của mình, bạn có thể giới hạn phạm vi dự án trong việc giới thiệu sản phẩm cho những khách hàng đã mua hàng. Giữ phạm vi khá hẹp đòi hỏi ít nỗ lực hơn so với việc xây dựng một công cụ đề xuất nhắm mục tiêu đến tất cả khách hàng, trong khi tiềm năng tạo ROI vẫn khá cao.


  • Đánh giá các nguồn dữ liệu có sẵn

Hiệu suất của một hệ thống khuyến nghị phụ thuộc rất nhiều vào khối lượng và chất lượng của dữ liệu đào tạo. Trước khi mạo hiểm tham gia đào tạo, hãy đánh giá cẩn thận xem bạn có đủ điểm dữ liệu để tạo đề xuất hay không.


  • Xác định số liệu hiệu suất

Một trong những thách thức chính của việc xây dựng một công cụ đề xuất cần được tính đến ngay từ đầu là xác định các chỉ số thành công. Tìm ra cách để biết liệu người dùng có thực sự thích các đề xuất mới được tạo hay không trước khi bạn bắt đầu đào tạo các thuật toán ML.


Bước 2. Thu thập dữ liệu huấn luyện

Bước tiếp theo trong quy trình xây dựng hệ thống đề xuất tùy chỉnh là thu thập và chuẩn bị dữ liệu để huấn luyện các thuật toán học máy . Để xây dựng một hệ thống đề xuất đáng tin cậy, bạn cần có đủ dữ liệu về sở thích của người dùng.


Tùy thuộc vào cách tiếp cận để xây dựng công cụ đề xuất, trọng tâm của bạn sẽ thay đổi. Khi tạo một hệ thống lọc cộng tác, dữ liệu bạn thu thập tập trung vào hành vi của người dùng . Với các hệ thống lọc dựa trên nội dung, bạn tập trung vào các tính năng của nội dung mà người dùng thích.


Lọc cộng tác

Dữ liệu về hành vi của người dùng có thể ở các dạng khác nhau:


  • Phản hồi rõ ràng của người dùng là bất kỳ điều gì đòi hỏi người dùng phải nỗ lực, chẳng hạn như viết bài đánh giá, thích một phần nội dung hoặc sản phẩm, khiếu nại hoặc bắt đầu trả lại.
  • Phản hồi ngầm định của người dùng , như lịch sử mua hàng trước đây, thời gian người dùng dành để xem một ưu đãi nhất định, thói quen xem/nghe, phản hồi để lại trên mạng xã hội, v.v.


Khi xây dựng một công cụ đề xuất, chúng tôi khuyên bạn nên kết hợp cả phản hồi rõ ràng và ẩn ý, vì phản hồi sau cho phép đào sâu vào sở thích của người dùng mà họ có thể miễn cưỡng thừa nhận, giúp hệ thống chính xác hơn.



Lọc dựa trên nội dung

Khi thu thập dữ liệu cho các hệ thống lọc dựa trên nội dung, điều quan trọng là phải hiểu bạn nên dựa vào những tính năng nào của sản phẩm/nội dung khi tìm hiểu xem người dùng thích gì.


Giả sử bạn đang xây dựng một công cụ đề xuất cho những người yêu âm nhạc. Bạn có thể dựa vào phân tích biểu đồ phổ để hiểu loại nhạc mà một người dùng cụ thể yêu thích và đề xuất các giai điệu có biểu đồ phổ tương tự.


Ngoài ra, bạn có thể chọn lời bài hát làm cơ sở cho các đề xuất của mình và tư vấn các bài hát có chủ đề tương tự.


Điều quan trọng là kiểm tra và điều chỉnh để hiểu điều gì phù hợp nhất với bạn và sẵn sàng liên tục cải tiến mô hình ban đầu.


Bước 3. Làm sạch và xử lý dữ liệu

Để xây dựng một công cụ đề xuất có hiệu suất cao, bạn phải tính đến việc thay đổi thị hiếu của người dùng. Tùy thuộc vào những gì bạn đề xuất, các bài đánh giá hoặc xếp hạng cũ hơn có thể không còn phù hợp nữa.

Để ngăn chặn sự không chính xác, hãy xem xét chỉ xem xét các tính năng có nhiều khả năng đại diện cho sở thích của người dùng hiện tại, xóa dữ liệu không còn phù hợp và tăng thêm trọng số cho các hành động gần đây của người dùng thay vì các hành động cũ hơn.


Bước 4. Chọn thuật toán tối ưu

Bước tiếp theo trong quá trình xây dựng công cụ đề xuất là chọn thuật toán máy học phù hợp với nhiệm vụ của bạn. Các nhà khoa học dữ liệu của ITRex khuyên bạn nên xem xét những điều sau:


  • Matrix Factorization chia nhỏ tập dữ liệu lớn thành các phần nhỏ hơn để khám phá các mẫu ẩn và điểm tương đồng giữa người dùng và vật phẩm.


  • Tensor Factorization là một phần mở rộng của matrix factorization có thể xử lý các cấu trúc dữ liệu chiều cao hơn được gọi là tensors. Nó nắm bắt các mẫu phức tạp hơn bằng cách phân tách các tenxơ thành các yếu tố tiềm ẩn, cung cấp hiểu biết chi tiết hơn về các tương tác giữa người dùng và mục.


  • Máy nhân tố hóa là những mô hình mạnh mẽ có thể xử lý dữ liệu nhiều chiều và thưa thớt. Chúng nắm bắt các tương tác giữa các tính năng và có thể được áp dụng cho các tác vụ đề xuất. Bằng cách xem xét các tương tác của tính năng, họ có thể đưa ra đề xuất chính xác ngay cả khi dữ liệu không đầy đủ.


  • Các mô hình vùng lân cận tìm thấy sự tương đồng giữa người dùng hoặc vật phẩm dựa trên thuộc tính hoặc hành vi. Đặc biệt hiệu quả đối với lọc cộng tác, chúng tạo kết nối giữa những người dùng hoặc các mục trong mạng và đưa ra đề xuất dựa trên sở thích của những người dùng hoặc mục tương tự.


  • Random Walk là một thuật toán dựa trên đồ thị khám phá các kết nối giữa các mục hoặc người dùng trong mạng. Bằng cách điều hướng mạng, nó ghi lại những điểm tương đồng giữa các mục hoặc người dùng, đưa ra đề xuất dựa trên các kết nối đã chụp.


  • SLIM là một kỹ thuật được sử dụng trong các hệ thống đề xuất để hiểu các mục có liên quan với nhau như thế nào. Nó tập trung vào việc tìm kiếm các mẫu trong mối quan hệ giữa các mục và sử dụng các mẫu đó để đưa ra đề xuất.


  • Mô hình tuyến tính dự đoán tùy chọn mục của người dùng dựa trên mối quan hệ tuyến tính giữa các tính năng. Mặc dù chúng dễ hiểu và huấn luyện nhanh, nhưng chúng có thể không nắm bắt được các mẫu phức tạp một cách hiệu quả như các phương pháp khác.


Ngoài ra, bạn có thể chọn từ các mô hình học sâu sau:


  • DSSM (Mô hình ngữ nghĩa có cấu trúc sâu) tìm hiểu các biểu diễn của văn bản hoặc tài liệu. Họ tập trung vào việc nắm bắt ngữ nghĩa của các từ và các mối quan hệ của chúng trong một khuôn khổ có cấu trúc.


  • Mạng kết hợp đồ thị được thiết kế cho dữ liệu có cấu trúc đồ thị. Chúng hoạt động trên biểu đồ, nắm bắt các mối quan hệ và tương tác giữa các nút trong biểu đồ.


  • Bộ mã hóa tự động biến đổi là một mô hình tổng quát học cách biểu diễn dữ liệu bằng cách nắm bắt không gian tiềm ẩn cơ bản của nó. Các mô hình này sử dụng kiến trúc bộ mã hóa-giải mã để nén dữ liệu vào không gian có chiều thấp hơn và tái tạo lại nó.


  • Transformer là một mô hình sử dụng các cơ chế tự chú ý để nắm bắt các mối quan hệ theo ngữ cảnh giữa các từ trong một câu hoặc tài liệu.


Điều quan trọng cần lưu ý là các phương pháp trên hiếm khi được sử dụng riêng lẻ. Thay vào đó, chúng được kết hợp thông qua các kỹ thuật và thuật toán sau:


  • Tập hợp liên quan đến việc đào tạo nhiều mô hình một cách độc lập và sau đó kết hợp các dự đoán của chúng thông qua các kỹ thuật khác nhau. Mỗi mô hình đóng góp như nhau vào dự đoán cuối cùng và sự kết hợp thường đơn giản và không liên quan đến việc đào tạo các mô hình bổ sung.


  • Xếp chồng có một cách tiếp cận tiên tiến hơn. Nó liên quan đến việc đào tạo nhiều mô hình, được gọi là mô hình cơ sở, sau đó kết hợp các dự đoán của chúng thông qua siêu mô hình. Các mô hình cơ sở đưa ra dự đoán dựa trên dữ liệu đầu vào và dự đoán của chúng trở thành các tính năng đầu vào cho siêu mô hình. Siêu mô hình sau đó được đào tạo để đưa ra dự đoán cuối cùng.


  • AdaBoost là một thuật toán học tập đồng bộ giúp cải thiện độ chính xác của các mô hình cơ sở bằng cách đào tạo lặp lại chúng trên các tập hợp con dữ liệu khác nhau. Cách tiếp cận này tập trung vào các trường hợp khó phân loại chính xác và khiến chúng được chú ý nhiều hơn trong các lần lặp lại đào tạo tiếp theo. Trong mỗi lần lặp, AdaBoost gán trọng số cho các phiên bản đào tạo dựa trên độ chính xác phân loại của chúng. Sau đó, nó đào tạo các mô hình hoạt động kém trên dữ liệu có trọng số, trong đó các trọng số nhấn mạnh các trường hợp bị phân loại sai từ các lần lặp lại trước đó.


  • XGBoost là một phương pháp tập hợp kết hợp lặp đi lặp lại các mô hình dự đoán yếu để tạo ra một mô hình mạnh hơn. Nó đào tạo các mô hình theo cách tuần tự, trong đó mỗi mô hình tiếp theo sẽ sửa các lỗi do mô hình trước đó gây ra.



Bước 4. Huấn luyện và xác nhận mô hình

Khi bạn đã tập trung vào thuật toán cho công cụ đề xuất của mình, đã đến lúc đào tạo và xác thực mô hình. Đây là cách bước này trong quy trình xây dựng công cụ đề xuất trông như thế nào:


Để bắt đầu, bạn cần chia dữ liệu của mình thành hai tập hợp: tập huấn luyện và tập kiểm tra. Tập huấn luyện, như tên gợi ý, dạy cho mô hình của bạn nhận dạng các mẫu trong sở thích của người dùng. Bộ thử nghiệm giúp đánh giá hiệu suất của mô hình trên dữ liệu mới.


Với bộ đào tạo trên tay, hãy bắt đầu đào tạo mô hình của bạn. Điều này liên quan đến việc hiển thị thuật toán cho dữ liệu, cho phép nó tìm hiểu các mẫu và mối quan hệ cơ bản.


Sau giai đoạn đào tạo, đã đến lúc đánh giá hiệu suất của mô hình bằng cách sử dụng bộ thử nghiệm. Điều này sẽ giúp bạn hiểu mô hình tổng quát hóa dữ liệu mới hiệu quả như thế nào.


Ngoài ra, bạn có thể dựa vào phản hồi thời gian thực để hiểu mô hình đang hoạt động tốt như thế nào. Bằng cách này, bạn triển khai mô hình trong sản xuất và ánh xạ các đề xuất đã tạo với phản hồi của người dùng. Sau đó, bạn chuyển sang bước tiếp theo, nơi bạn đặt mô hình để điều chỉnh các tham số của nó thông qua quá trình học lặp đi lặp lại.

Bước 5. Điều chỉnh siêu tham số mô hình

Khi bạn đã đánh giá hiệu suất của mô hình, bạn có thể tinh chỉnh nó nếu cần. Hãy xem xét một ví dụ về hệ thống đề xuất được xây dựng dựa trên thuật toán lọc cộng tác.

Trong lọc cộng tác, số lượng hàng xóm xác định có bao nhiêu người dùng hoặc mục tương tự được xem xét khi đưa ra đề xuất. Giả sử bạn đang xây dựng một công cụ đề xuất dựa trên tính năng lọc cộng tác và đề xuất các bộ phim mới. Ban đầu, bạn đặt số lượng người hàng xóm là 10, nghĩa là mô hình sẽ xem xét sở thích của 10 người dùng tương tự nhất khi tạo đề xuất.


Sau khi đánh giá hiệu suất của mô hình, bạn thấy rằng độ chính xác của các đề xuất thấp hơn mong muốn. Để cải thiện điều đó, bạn quyết định tinh chỉnh mô hình bằng cách điều chỉnh số lượng hàng xóm.


Để khám phá tác động của các kích thước lân cận khác nhau, bạn có thể chạy thử nghiệm với các giá trị khác nhau. Chẳng hạn, việc giảm số lượng hàng xóm xuống còn 5 có thể dẫn đến sự gia tăng đáng kể về độ chính xác. Tuy nhiên, bạn có thể nhận thấy tỷ lệ thu hồi giảm nhẹ, điều này cho thấy rằng mẫu xe đó đang bỏ sót một số đề xuất có liên quan. Đổi lại, việc tăng số 20 có thể dẫn đến cải thiện một chút về khả năng thu hồi, nhưng các đề xuất có thể trở nên ít được cá nhân hóa hơn.


Điều quan trọng là giải quyết sự thỏa hiệp giữa độ chính xác và khả năng thu hồi, đồng thời đạt được sự cân bằng giữa việc nắm bắt các tùy chọn đa dạng của người dùng và duy trì các đề xuất chính xác.


Bước 6. Triển khai, giám sát và cập nhật mô hình

Với mô hình đã được sơn lót và sẵn sàng tung ra, đã đến lúc thực hiện nó.


Để đảm bảo triển khai thành công, hãy xem xét cách hiệu quả nhất để kết hợp mô hình vào cơ sở hạ tầng hiện có của bạn. Chẳng hạn, bạn có thể nhúng mô hình vào phần cuối trang web của mình, đảm bảo rằng mô hình tương tác liền mạch với giao diện người dùng. Sự tích hợp này cho phép các đề xuất theo thời gian thực tự động điều chỉnh theo sở thích của người dùng.


Ngoài ra, bạn có thể triển khai mô hình dưới dạng dịch vụ, chẳng hạn như API công cụ đề xuất, mà các thành phần khác trong ứng dụng của bạn có thể dễ dàng sử dụng. Cách tiếp cận hướng dịch vụ này đảm bảo tính linh hoạt và khả năng mở rộng, cho phép ứng dụng của bạn tận dụng khả năng của công cụ đề xuất một cách dễ dàng.


Giai đoạn triển khai cũng là một thời điểm tốt để xem xét cách các đề xuất sẽ được trình bày cho người dùng. Chúng sẽ được hiển thị dưới dạng đề xuất được cá nhân hóa trên trang chủ của trang web, được phân loại gọn gàng trong giao diện trực quan chứ? Hay chúng sẽ được tích hợp liền mạch vào giao diện của ứng dụng, xuất hiện vào đúng thời điểm để gây bất ngờ cho người dùng? Sự lựa chọn là của bạn, nhưng hãy luôn đặt trải nghiệm người dùng lên hàng đầu.


Cuối cùng, điều quan trọng là phải kiểm tra nghiêm ngặt mô hình đã triển khai để đảm bảo chức năng liền mạch của nó. Chạy thử nghiệm toàn diện để xác thực hiệu suất và hành vi của nó qua các tương tác khác nhau của người dùng, nhằm đảm bảo các đề xuất là chính xác, kịp thời và phù hợp với kỳ vọng của người dùng.


Những thách thức trong việc xây dựng một công cụ đề xuất và cách giải quyết chúng

Hiểu những thách thức của việc xây dựng một công cụ đề xuất là rất quan trọng để cung cấp các đề xuất phù hợp và được cá nhân hóa. Dưới đây là danh sách những cái phổ biến nhất:

Thách thức 1. Đo lường thành công

Một trong những thách thức chính của việc xây dựng một công cụ đề xuất cần được tính đến ngay từ đầu là xác định các chỉ số thành công. Nói cách khác, trước khi bắt đầu thu thập dữ liệu và đào tạo các thuật toán ML, bạn nên tìm ra một cách đáng tin cậy để biết liệu người dùng có thực sự thích các đề xuất mới được tạo hay không. Điều này sẽ hướng dẫn quá trình phát triển của bạn.

Giả sử, bạn là một nền tảng phát trực tuyến. Bạn có thể đếm số lượt thích hoặc đăng ký trả phí hàng tháng để đo lường mức độ hoạt động của công cụ đề xuất của bạn. Tuy nhiên, rất có thể các đề xuất của bạn đều ổn, trong khi người dùng không muốn nêu rõ sở thích của họ hoặc trả tiền cho dịch vụ.


Kinh nghiệm của các nhà khoa học dữ liệu của chúng tôi cho thấy rằng hành vi của người dùng là một cách đáng tin cậy hơn để đo lường hiệu suất của hệ thống đề xuất. Chúng tôi không nghi ngờ gì về việc người dùng đã thích một chương trình nếu họ xem nó say sưa trong một đêm, ngay cả khi không có phản hồi rõ ràng nào được đưa ra.

Thử thách 2. Lời nguyền của chiều không gian

Chiều dữ liệu đề cập đến số lượng tính năng trong tập dữ liệu. Nhiều tính năng nhập liệu hơn thường khiến việc xây dựng một công cụ đề xuất chính xác trở nên khó khăn hơn. Hãy lấy YouTube làm ví dụ. Trên nền tảng này, hàng tỷ video và người dùng cùng tồn tại và mỗi người dùng đang tìm kiếm các đề xuất được cá nhân hóa. Tuy nhiên, nguồn nhân lực và máy tính có hạn và hầu như không ai muốn dành hàng giờ để chờ tải các đề xuất.


Để giải quyết thách thức này, cần có một bước bổ sung, tạo ứng viên, trước khi khởi chạy thuật toán đề xuất. Bước này cho phép thu hẹp hàng tỷ video xuống còn hàng chục nghìn. Và nhóm nhỏ hơn này sau đó được sử dụng để tạo các đề xuất.


Các chiến lược khác nhau, với tìm kiếm hàng xóm gần nhất là chiến lược nổi bật nhất, được sử dụng để tạo ứng cử viên. Các phương pháp phổ biến khác để khắc phục vấn đề về chiều bao gồm khám phá các danh mục hoặc sở thích phổ biến được chia sẻ giữa những người thuộc các nhóm tuổi tương tự.


Thử thách 3. Khởi đầu lạnh lùng

Một vấn đề phổ biến khác trong quá trình xây dựng công cụ đề xuất, câu hỏi hóc búa khi bắt đầu nguội nảy sinh khi hệ thống thiếu thông tin đầy đủ về người dùng hoặc một mặt hàng, khiến việc đưa ra đề xuất chính xác trở nên khó khăn. Vượt qua rào cản này liên quan đến việc sử dụng các phương pháp như lọc cộng tác, lọc dựa trên nội dung hoặc các phương pháp kết hợp.


Thử thách 4. Cái đuôi dài

Các hệ thống khuyến nghị có thể bị một hiện tượng gọi là “đuôi dài”. Điều này có nghĩa là các mặt hàng phổ biến nhận được nhiều sự chú ý và đề xuất hơn, trong khi những mặt hàng ít phổ biến hơn vẫn không được người dùng chú ý. Giải quyết vấn đề này yêu cầu tạo các đề xuất được cá nhân hóa và tính đến các tùy chọn của từng người dùng.


Thử thách 5. Khởi đầu lạnh lùng cho những món đồ mới

Khi một mục mới được thêm vào hệ thống, nó có rất ít hoặc không có dữ liệu lịch sử để tạo các đề xuất, gây khó khăn cho việc tạo các đề xuất có liên quan. Một cách tiếp cận để giải quyết vấn đề này là sử dụng bộ lọc nội dung và tích cực thu hút người dùng tương tác với các mặt hàng mới thông qua khuyến mãi hoặc quảng cáo.


Thách thức 6. Khởi đầu lạnh lùng cho người dùng mới

Tương tự như vậy, người dùng mới có thể không có đủ dữ liệu lịch sử để đưa ra các đề xuất chính xác. Để vượt qua thách thức này, có thể sử dụng các phương pháp như lọc dựa trên nội dung, yêu cầu phản hồi và khảo sát người dùng ban đầu.


Thách thức 7. Dữ liệu thưa thớt

Trong các hệ thống đề xuất, dữ liệu thưa thớt là một trường hợp phổ biến khi nhiều người dùng xếp hạng hoặc tương tác với một số lượng nhỏ các mục. Điều này đặt ra một thách thức trong việc dự đoán sở thích của người dùng. Để giải quyết vấn đề này, có thể sử dụng các phương pháp phân tích thừa số ma trận kết hợp giảm kích thước, chuẩn hóa và các kỹ thuật khác.


Tóm lại

Xây dựng công cụ đề xuất là một hành trình được thúc đẩy bởi các thuật toán, thông tin chi tiết về người dùng và tinh chỉnh lặp đi lặp lại. Từ việc xác định vấn đề đến chọn cách tiếp cận phù hợp thông qua tiền xử lý dữ liệu tỉ mỉ đến đào tạo mô hình, mỗi bước đều góp phần tạo ra một hệ thống đề xuất mạnh mẽ.


Khả năng hiểu sở thích của người dùng và đưa ra các đề xuất phù hợp của công cụ đề xuất có thể mang lại tiềm năng to lớn cho doanh nghiệp của bạn. Amazon, YouTube, Spotify và nhiều doanh nghiệp ít được biết đến nhưng không kém phần thành công khác đã cách mạng hóa sản phẩm của họ và sau đó tăng doanh thu bằng các đề xuất phù hợp.


Ví dụ: Spotify, một nền tảng phát nhạc dựa trên các đề xuất được cá nhân hóa cao làm yếu tố khác biệt chính, tiếp tục phát triển cơ sở người dùng và doanh thu mỗi năm. Chỉ trong quý 4 năm 2022, lời hứa khám phá một bài hát yêu thích mới đã mang lại cho nền tảng này thêm 20% người dùng hoạt động hàng tháng , dẫn đến 33 triệu lượt bổ sung ròng.

Nếu bạn vẫn ở phía sau đường cong, đã đến lúc khai thác sức mạnh của AI và cách mạng hóa trải nghiệm người dùng của bạn bằng công cụ đề xuất tùy chỉnh.


Bạn đang tìm cách nâng cao giải pháp của mình bằng một công cụ đề xuất mạnh mẽ? Nói chuyện với các chuyên gia tư vấn của ITRex .


Cũng được xuất bản ở đây.