Khi làn sóng cường điệu về đám mây lắng xuống, nhiều nhóm công nghệ hơn phát hiện ra tác dụng phụ của cơ sở hạ tầng đám mây, thường được giữ kín.
Đầy hứa hẹn như khả năng mở rộng theo yêu cầu, ít thời gian hơn để quản lý các dịch vụ tại chỗ và các lợi ích khác, chúng thường được cân bằng bởi một nhược điểm đáng kể – chi phí cơ sở hạ tầng tăng đột biến trong các hệ thống tải cao.
Khi thảo luận về chi phí cơ sở hạ tầng, sự tập trung vào các hệ thống có tải trọng cao là rất lớn: Hầu như không có giải pháp thay thế đám mây nào linh hoạt và rẻ hơn cho các công ty nhỏ hơn.
Tuy nhiên, khi QPS đạt tới hàng trăm nghìn, phí nhà cung cấp tưởng chừng như nhỏ không còn bền vững nữa.
Là một công ty phát triển phần mềm chuyên xây dựng và tối ưu hóa các hệ thống tải cao cho AdTech, chúng tôi đã khám phá nhiều phương pháp mà các nhóm sử dụng để ngăn chi phí cơ sở hạ tầng tăng đột biến. Với hơn 15 năm kinh nghiệm, Xenoss đã giúp hỗ trợ các dự án như Activision Blizzard, Verve Group, Smartly, Voodoo, Inmar Intelligence và các dự án khác để xây dựng cơ sở hạ tầng mạnh mẽ nhưng nhanh nhẹn.
Trong bài đăng này, chúng tôi muốn chia sẻ kinh nghiệm và bí quyết của mình về các thách thức cơ sở hạ tầng liên quan đến nền tảng tải cao và khám phá các cách hợp lý hóa chi phí. Để minh họa các chiến thuật được trình bày trong bài đăng, chúng tôi sẽ sử dụng một ngành mà tốc độ và quy mô là không thể thương lượng: AdTech.
Chúng tôi cũng có một bài đăng trên blog trình bày chi tiết hơn về việc tối ưu hóa chi phí cơ sở hạ tầng, bao gồm các lời khuyên và nhận xét của chuyên gia từ các kiến trúc sư phần mềm của chúng tôi cũng như một nghiên cứu điển hình về việc giảm chi phí cơ sở hạ tầng gấp 20 lần.
Nền tảng tải cao cho phép sử dụng nhiều lĩnh vực như ngân hàng, chăm sóc sức khỏe, v.v. Quảng cáo có lập trình, mặc dù thường không được coi là một kỳ công kỹ thuật để phát triển, nhưng có thể cạnh tranh với các hệ thống phức tạp khác, vì các yêu cầu vận hành của nó thường vượt xa các ranh giới của thiết kế cơ sở hạ tầng.
Hãy tóm tắt nhanh lý do tại sao nền tảng AdTech (SSP, DSP, v.v.) lại là lăng kính tuyệt vời để khám phá việc tối ưu hóa chi phí cơ sở hạ tầng .
Các nền tảng AdTech luôn bị cuốn vào cuộc giằng co giữa nhu cầu về lưu lượng truy cập cao và độ trễ thấp.
Một mặt, họ cần xử lý lượng truy cập khổng lồ được tạo ra bởi quảng cáo trực tuyến ( theo Wayne Bloodwell , Giám đốc điều hành của TPA Digital, lên tới 950 tỷ lượt hiển thị mỗi ngày).
Bên cạnh tải trọng, tính chất thời gian thực của hệ sinh thái còn tạo thêm một lớp phức tạp mới.
Độ trễ cao trong nền tảng AdTech, tức là độ trễ giữa yêu cầu giá thầu và phản hồi, khiến nhà quảng cáo bỏ lỡ khoảng không quảng cáo chất lượng cao vì giá thầu của họ không được xử lý kịp thời.
Độ trễ cao tạo ra khó khăn trong việc lấp đầy các vùng quảng cáo cho nhà xuất bản, dẫn đến doanh thu thấp hơn về lâu dài.
Khung thời gian tiêu chuẩn để xử lý giá thầu dao động trong khoảng 80-120 ms là khung thời gian trung bình mà ngành hoạt động.
Xử lý dữ liệu theo thời gian thực là một thách thức định kỳ khác đối với các dự án AdTech do những thách thức sau:
Cần truy xuất dữ liệu nhanh chóng (dưới 100 ms) để đưa ra quyết định theo thời gian thực, chẳng hạn như lập mô hình giá thầu.
Việc thu thập dữ liệu đối tượng từ nhiều nguồn sẽ làm tăng độ phức tạp của quy trình và mở rộng bộ công cụ cần thiết để xử lý các loại dữ liệu khác nhau.
Lo ngại về chất lượng dữ liệu: Dữ liệu sai có thể khiến nhà quảng cáo đưa ra quyết định đặt giá thầu sai lầm. Kiểm tra chất lượng dữ liệu cho mọi giai đoạn của quy trình (nhập, xử lý, tiêu thụ) là điều cần thiết.
Đoạn clip dưới đây minh họa sự phức tạp và các hoạt động quan trọng của phân tích dữ liệu thời gian thực
https://www.youtube.com/watch?v=uaRzovqK3t0
Ngành AdTech có tính chu kỳ, với những giai đoạn kinh tế thăng trầm dẫn đến sự biến động về nhu cầu dịch vụ quảng cáo. Sự gia tăng thị trường gây áp lực lên các nền tảng AdTech trong việc triển khai khả năng mở rộng linh hoạt.
Cùng với sự phát triển của SPO, các nhà cung cấp AdTech cảm thấy áp lực phải điều chỉnh tăng hoặc giảm công suất một cách đáng tin cậy để đáp ứng những thay đổi về nhu cầu. Vì vậy, họ cần khả năng và nguồn lực để xử lý lưu lượng truy cập cao điểm mà không làm giảm hiệu suất hoặc độ tin cậy (và thu nhỏ quy mô để điều chỉnh theo biến động của thị trường).
Sử dụng dữ liệu thô là yếu tố then chốt cho sự thành công của nền tảng AdTech. Các hệ thống này thu thập nhiều dữ liệu tổng hợp—thông tin nhân khẩu học, lịch sử duyệt web, hành vi người dùng, v.v. Những thông tin chi tiết này được tích hợp từ nhiều nguồn khác nhau và giúp thúc đẩy việc nhắm mục tiêu và cá nhân hóa.
Trước khi dữ liệu thô sẵn sàng để sử dụng, nó cần phải trải qua các bước của ETL: Trích xuất, chuyển đổi và tải. Tuy nhiên, việc duy trì nhiều đường ống trở thành một thách thức kỹ thuật khi quy mô hệ thống và khối lượng dữ liệu tăng theo cấp số nhân.
Trừ khi các nhóm công nghệ chú ý đến chi phí cơ sở hạ tầng, nếu không họ sẽ nhanh chóng vượt khỏi tầm kiểm soát. Mô hình hóa và lưu trữ dữ liệu không hiệu quả, thiếu tính chọn lọc khi dựa vào các dịch vụ cũng như việc không lập kế hoạch và chống lại các mối đe dọa trước mắt khiến cơ sở hạ tầng không thể đoán trước, chậm, tốn kém và khó bảo trì.
Cắt giảm chi phí cơ sở hạ tầng không phải là việc ngày một ngày hai, nhưng được trang bị kiến thức về hệ sinh thái và nền tảng của mình, bạn có thể đạt được mức giảm đáng kể chỉ bằng một vài điều chỉnh.
Dưới đây là danh sách một số biện pháp giảm thiểu cơ sở hạ tầng mà nhóm công nghệ Xenoss sử dụng để giúp khách hàng của chúng tôi đạt được cơ sở hạ tầng tinh gọn hơn.
Trong các dự án ở giai đoạn đầu, người ta không suy nghĩ nhiều về việc thiết kế cơ sở hạ tầng đám mây tối ưu. Nhóm công nghệ thường chọn một trong hai cách;
Trong AdTech, tính linh hoạt và khả năng mở rộng quy mô linh hoạt là rất quan trọng. Kiểm soát hoàn toàn chi phí cơ sở hạ tầng và khả năng thắt chặt an ninh đều quan trọng như nhau. Cái trước thường được liên kết với đám mây, trong khi cái sau thường được coi là lợi ích cho hoạt động tại chỗ.
Tại Xenoss, chúng tôi nhận ra lợi ích của cả hai cơ sở hạ tầng, đó là lý do tại sao chúng tôi sử dụng cả hai cơ sở hạ tầng trong các dự án của khách hàng. Sự kết hợp giữa đám mây và tại chỗ thường được gọi là “đám mây lai”, mặc dù có nhiều sự kết hợp phù hợp hơn với thuật ngữ này. Kết hợp đám mây công cộng và riêng tư hoặc hai đám mây công cộng (hay còn gọi là nhiều đám mây) cũng phù hợp với khái niệm này.
Theo báo cáo Đường ống dữ liệu do DZone công bố , 33% tổ chức được khảo sát sử dụng kết hợp cơ sở hạ tầng đám mây và tại chỗ. Con số này tăng lên 42% nếu chỉ tính đến các tổ chức doanh nghiệp (trên 1000 nhân viên).
Mô hình kết hợp mang lại cho nhóm AdTech tính linh hoạt tài chính cao hơn, cho phép nền tảng AdTech hợp nhất quyền kiểm soát các thiết lập tại chỗ với khả năng mở rộng linh hoạt của nền tảng đám mây.
Bảo mật là một lợi thế đáng kể khác; các dự án có thể duy trì các tiêu chuẩn bảo vệ dữ liệu nghiêm ngặt bằng cách lưu giữ dữ liệu nhạy cảm tại chỗ và sử dụng đám mây cho các tác vụ ít quan trọng hơn.
Một lý do khác khiến chúng tôi ưa thích và ủng hộ cách tiếp cận kết hợp là khả năng ngăn chặn sự khóa chặt của nhà cung cấp. Việc duy trì các cơ sở hạ tầng quan trọng tại chỗ giúp doanh nghiệp có cơ hội đa dạng hóa nền tảng công nghệ của mình mà không phụ thuộc vào một nhà cung cấp đám mây.
Ngoài ra, cách tiếp cận kết hợp cho phép nhóm sản phẩm chủ động hơn trong việc xây dựng cơ sở hạ tầng dành riêng cho khối lượng công việc.
Một số tác vụ trong AdTech, như đặt giá thầu quảng cáo theo thời gian thực hoặc hoạt động dữ liệu bị ràng buộc bởi sự tuân thủ nghiêm ngặt của khu vực, phù hợp hơn để thực thi tại chỗ.
Đồng thời, các quy trình công việc khác (phân tích chiến dịch, lưu trữ nội dung quảng cáo được phân phối hoặc thiết kế quảng cáo cộng tác) có thể di chuyển liền mạch sang đám mây.
Theo kinh nghiệm của chúng tôi, chỉ tối ưu hóa lưu trữ có thể cắt giảm đáng kể chi phí cơ sở hạ tầng. Trong AdTech, cả cơ sở dữ liệu SQL và NoSQL đều được sử dụng để quản lý dữ liệu có cấu trúc và không có cấu trúc. Hãy tóm tắt lại những điểm khác biệt chính giữa hai loại cơ sở dữ liệu cũng như các trường hợp sử dụng của chúng trong AdTech.
Để thêm ngữ cảnh vào cuộc thảo luận, hãy tóm tắt lại sự khác biệt giữa hai điều này.
Lợi ích cơ sở dữ liệu quan hệ | Lợi ích cơ sở dữ liệu NoSQL |
---|---|
Độ tin cậy cao | Hiệu suất cao |
Tính nhất quán dữ liệu cao | Khả năng mở rộng cao |
Lược đồ chuẩn hóa | Bộ nhớ được tối ưu hóa cho khối lượng dữ liệu cao |
Tuân thủ ACID | Tính linh hoạt và tùy biến cao |
Bây giờ, hãy xem cơ sở dữ liệu được lựa chọn cho các nền tảng AdTech hàng đầu và phương pháp lưu trữ dữ liệu của chúng.
công bố
Pubmatic SSP giúp nhà xuất bản thu hút nhiều đối tượng và tối đa hóa doanh thu quảng cáo bằng các mối quan hệ đối tác có nhu cầu độc đáo, phân tích nâng cao và các công cụ tối ưu hóa quảng cáo.
Thách thức: công ty cần một cơ sở dữ liệu mạnh mẽ để xử lý các tập dữ liệu lớn và giải quyết các vấn đề phức tạp. Công ty muốn một công cụ đã được thử nghiệm trong chiến đấu, trên hết là đáng tin cậy và hiệu quả.
Giải pháp: MySQL
Tác động: Nhóm Chất lượng quảng cáo của PubMatic sử dụng MySQL làm nguồn dữ liệu chính. Cơ sở dữ liệu của nền tảng lưu trữ tới hàng trăm triệu bản ghi. Được biết đến với độ tin cậy và mạnh mẽ, MySQL cho phép PubMatic xử lý hàng triệu quảng cáo mỗi ngày và duy trì tải dữ liệu gấp 2-10 lần.
AdGreetz
AdGreetz là nền tảng cá nhân hóa phân phối quảng cáo phù hợp trên nhiều kênh: mạng xã hội, CTV/OTT, trong ứng dụng, v.v.
Thách thức: quy trình làm việc của tổ chức sử dụng nhiều dữ liệu, đòi hỏi các giải pháp quản lý cơ sở dữ liệu có thể hỗ trợ hàng triệu hồ sơ người dùng.
Cơ sở dữ liệu được chọn: ClickHouse
Tác động: Đối với nhóm kỹ thuật tại AdGreetz, Clickhouse hóa ra là một giải pháp hiệu quả cao và tiết kiệm chi phí. Công ty đã có thể cắt giảm thời gian truy vấn từ vài giây xuống dưới giây ở mức điện toán nhỏ.
Sáp ong
Beeswax là nền tảng RTB được quản lý cho phép các nhà quảng cáo hợp lý hóa các hoạt động có lập trình. Công ty cung cấp giải pháp Nhà thầu dưới dạng dịch vụ xử lý hàng triệu truy vấn mỗi giây và tiêu thụ 125 GB dữ liệu mỗi phút.
Thách thức: Mở rộng quy mô nhanh chóng để đảm bảo phân phối quảng cáo hiệu quả, cần phân phối tải đồng đều trên toàn bộ máy của tổ chức.
Cơ sở dữ liệu NoSQL được chọn: Aerospike chạy trên Amazon EC2.
Tác động: Beeswax có thể xử lý hàng triệu truy vấn mỗi giây với độ trễ đọc đuôi là 2 mili giây.
Kẹo cao su
GumGum cung cấp nền tảng nhắm mục tiêu theo ngữ cảnh được kích hoạt bởi nền tảng máy học độc quyền, Verity.
Thách thức: Công ty muốn xử lý khối lượng lớn dữ liệu liên quan đến quảng cáo (số lần hiển thị, lượt xem, số lần nhấp, chuyển đổi) với độ trễ tối thiểu - mặc dù dữ liệu không được xử lý trong thời gian thực nhưng mục tiêu là giữ khoảng cách ở mức tối thiểu.
Cơ sở dữ liệu NoSQL được chọn: ScyllaDB
Sự va chạm:
Moloco
Moloco là nền tảng đối tượng trên thiết bị di động giúp nhà quảng cáo thu hút, thu hút và bán lẻ đối tượng trên thiết bị di động. Nền tảng này phụ thuộc rất nhiều vào các mô hình học máy để tối ưu hóa chiến dịch và phân tích dự đoán.
Thách thức: Áp lực phải xử lý hàng triệu nhiệm vụ giá thầu mỗi giây với giới hạn độ trễ nghiêm ngặt (dưới 100 mili giây).
Cơ sở dữ liệu NoSQL được chọn: Google Cloud BigTable
Sự va chạm:
Kinh nghiệm nhiều năm phát triển nền tảng AdTech đã cho chúng tôi thấy rằng không có cách tiếp cận rập khuôn nào trong việc chọn cơ sở dữ liệu phù hợp cho cơ sở hạ tầng lưu trữ dữ liệu AdTech. Có rất nhiều loại trong cơ sở dữ liệu - cần có kinh nghiệm, kiến thức về sản phẩm và nghiên cứu kỹ lưỡng để tìm ra loại phù hợp.
Đôi khi, việc chuyển đổi giữa hai cơ sở dữ liệu NoSQL có thể tạo ra nhiều khác biệt. GumGum, được nêu ở trên, đã dựa vào Cassandra trước khi chuyển sang ScyllaDB. Chúng tôi đã thấy chi phí vận hành giảm đáng kể trong trường hợp (DSP di động) của khách hàng sau khi di chuyển từ MongoDB sang Aerospike.
Các cách khác để tối ưu hóa việc lưu trữ dữ liệu
Triển khai các kỹ thuật nén và chống trùng lặp dữ liệu là một cách khác để giảm dung lượng lưu trữ cần thiết, dẫn đến tiết kiệm chi phí.
Nén ngụ ý giảm kích thước dữ liệu, dẫn đến truyền nhanh hơn và giảm chi phí lưu trữ. Nhóm dữ liệu có thể sử dụng các kỹ thuật như GZIP.
Chống trùng lặp , như tên cho thấy, loại bỏ các bản sao dữ liệu dư thừa. Nó đóng vai trò quan trọng trong AdTech, nơi mà hồ sơ người dùng lặp đi lặp lại hoặc các tập dữ liệu tương tự là điều phổ biến.
Kho lạnh là một cách tiết kiệm chi phí để lưu trữ dữ liệu hiếm khi được truy cập (số liệu chiến dịch cũ) mà không ảnh hưởng đến hiệu suất.
Điều hướng các dịch vụ đám mây đòi hỏi những lựa chọn thông minh. Nếu không chú ý, bạn rất dễ sử dụng các gói dịch vụ làm tăng thêm chi phí cơ sở hạ tầng nhưng không mang lại giá trị gì cho nền tảng.
Trong đoạn clip bên dưới, Xenoss CTO Vova Kyrychenko giải thích cách “bẫy tiền miễn phí” có thể dẫn đến chi phí cơ sở hạ tầng cao khi nền tảng AdTech mở rộng quy mô.
https://www.youtube.com/watch?v=q_57WdKDJI0
Khuyến nghị quan trọng của chúng tôi đối với các nhà cung cấp AdTech là phân tích giá của các dịch vụ cao cấp để phát hiện các chi phí ẩn hoặc khoản tiết kiệm.”
Ngoài ra, vì các công cụ mới có thể làm chậm nền tảng nên việc thử nghiệm chúng trên quy mô nhỏ trước khi đưa dịch vụ mới vào sản xuất là điều hợp lý.
Để mắt đến các dự án nguồn mở hoặc bên thứ ba là một giải pháp thay thế khác cho các dịch vụ được quản lý đắt tiền. Nền tảng miễn phí hoặc chi phí thấp có thể mang lại hiệu suất tốt hơn so với các nhà cung cấp đám mây chính thống.
Bằng cách áp dụng phương pháp này cho một dự án của khách hàng, các kỹ sư của Xenoss đã giúp giảm chi phí cơ sở hạ tầng xuống 20 lần.
Trong đồ họa thông tin dưới đây, chúng tôi minh họa cơ sở hạ tầng cũ của khách hàng và phiên bản hiện đại hóa do các kiến trúc sư của chúng tôi thiết kế.
Như chúng tôi đã đề cập trước đây, nền tảng AdTech không hoạt động ở mức tải ổn định - tại thời điểm này, nền tảng có thể tăng đột biến và thời điểm tiếp theo, nền tảng đó có nhiều tài nguyên máy tính hơn mức nó biết phải làm gì.
Vì các kỹ sư của Xenoss tin rằng lưu lượng truy cập hiệu quả và cân bằng tải là điều bắt buộc đối với các hệ thống AdTech, nên hãy cùng tìm hiểu sâu hơn về các khái niệm này.
Cân bằng tải có nghĩa là phân phối đồng đều các yêu cầu đến trên nhiều máy chủ, đảm bảo không có máy chủ nào bị quá tải. Trong khuôn khổ này, kiến trúc sư Xenoss ưu tiên các quy trình quan trọng—các nhiệm vụ thiết yếu, nếu bị gián đoạn, sẽ làm gián đoạn chức năng cốt lõi của hệ thống (đặt giá thầu quảng cáo theo thời gian thực hoặc xử lý dữ liệu người dùng).
Bằng cách ưu tiên các quy trình này, chúng tôi bảo vệ các hoạt động quan trọng khỏi sự chậm trễ hoặc lỗi có thể xảy ra.
Một câu ngạn ngữ nổi tiếng có nội dung: “Thất bại là một phần của mọi kế hoạch”, cảnh báo chính xác các nhóm sản phẩm AdTech đề phòng các mối đe dọa và thời gian ngừng hoạt động.
Để đạt được mục tiêu đó, chúng tôi kêu gọi các nhà cung cấp và nhóm công nghệ nội bộ tận dụng các công cụ giám sát để theo dõi tình trạng hệ thống, đảm bảo hoạt động không bị gián đoạn. Nếu bạn thiết lập cảnh báo cho bất kỳ điểm bất thường nào, các nhóm có thể được cảnh báo kịp thời, hành động nhanh chóng và đảm bảo những thất bại nhỏ không biến thành khủng hoảng lớn.
Việc nâng cao phương pháp tiếp cận này bằng những hiểu biết sâu sắc do AI cung cấp thậm chí còn mang lại mức độ chi tiết hơn nữa. Các thuật toán Phát hiện bất thường, chẳng hạn như Rừng cách ly hoặc SVM một lớp, rất phù hợp để xác định các mẫu dữ liệu bất thường, có thể chỉ ra các mối đe dọa hoặc lỗ hổng hệ thống.
Một lần nữa, chúng tôi đề xuất triển khai mạng thần kinh tái phát Bộ nhớ ngắn hạn dài để phân tích dữ liệu chuỗi thời gian.
Mô hình ngôn ngữ lớn cũng có thể góp phần phát hiện mối đe dọa bằng cách phân tích nhật ký và thông báo hệ thống để phát hiện các điểm bất thường, từ đó hiểu được dữ liệu văn bản có thể bị bỏ qua.
Tối ưu hóa chi phí cơ sở hạ tầng là mấu chốt cho các công ty trong mọi lĩnh vực hướng tới hiệu quả và lợi nhuận.
AdTech là một sân chơi tuyệt vời để khám phá những thách thức và giải pháp khi làm việc với khối lượng dữ liệu và lưu lượng truy cập cao, vì nhu cầu giải quyết hàng nghìn truy vấn trong khung thời gian một phần nghìn giây đã đẩy các giới hạn của việc phát triển cơ sở hạ tầng đến giới hạn.
Tin vui là các nhóm công nghệ giàu kinh nghiệm, thường thông qua thử nghiệm và sai sót, đã phát triển một cuốn sổ tay giúp giữ chi phí cơ sở hạ tầng ở mức thấp, ngay cả đối với các hệ thống có tải trọng cao. Cân bằng giữa các giải pháp đám mây và tại chỗ, tận dụng AI để phát hiện mối đe dọa và liên tục tinh chỉnh các chiến lược lưu trữ dữ liệu giúp nhóm sản phẩm đảm bảo hoạt động mạnh mẽ mà không ảnh hưởng đến ngân sách.
Luôn linh hoạt và được cập nhật thông tin trong lĩnh vực này là một biện pháp tiết kiệm chi phí và là lợi thế cạnh tranh trong bối cảnh AdTech năng động.