Trong tập hôm nay của podcast Brains Byte Back, chúng tôi nói chuyện với Walter Paliska , Phó chủ tịch tiếp thị tại dotData , một công ty dân chủ hóa việc sử dụng AI và Machine Learning bằng cách giúp các tổ chức dễ dàng tận dụng sức mạnh dữ liệu của họ một cách nhanh chóng, các công cụ độc đáo và dễ sử dụng.
Trong phần này, chúng ta sẽ thảo luận về cách công ty bắt đầu, cách thức phát triển và các giải pháp mà công ty hiện đang cung cấp. Chúng tôi cũng khám phá cách khai thác dữ liệu dự đoán và cách nó giúp doanh nghiệp tận dụng dữ liệu lịch sử để đưa ra dự đoán chính xác về hành vi hoặc kết quả trong tương lai.
Paliska lấy ví dụ về tiếp thị, lập luận rằng một công ty có thể sử dụng khai thác dữ liệu dự đoán để dự đoán hành vi của khách truy cập trên trang web để nhắm mục tiêu được cá nhân hóa.
Ngoài ra, Paliska chia sẻ cách dotData được thành lập, sau khi Giám đốc điều hành và người sáng lập của công ty, Ryohei Fujimaki, nhận thấy rằng nhóm các nhà khoa học dữ liệu của ông sẽ dành một lượng lớn thời gian cho quy trình kỹ thuật tính năng.
Vì đây là phần thủ công và tốn nhiều thời gian nhất trong quy trình khoa học dữ liệu nên Fujimaki quyết định sử dụng tự động hóa để giải quyết vấn đề này, do đó dotData đã ra đời.
Paliska cũng chia sẻ cách công ty giúp khách hàng tiết kiệm thời gian và chi phí cho các dự án khoa học dữ liệu, dân chủ hóa khoa học dữ liệu cho những người không phải là nhà khoa học dữ liệu, đồng thời cải thiện độ chính xác và tốc độ của các mô hình máy học .
Ông lập luận rằng đây chỉ là một số cách dotData tự phân biệt với đối thủ cạnh tranh. Nhưng Paliska ủng hộ rằng một trong những điểm khác biệt lớn nhất là công cụ cốt lõi của dotData, giúp tự động hóa quy trình kỹ thuật tính năng.
Kỹ thuật tính năng là một bước quan trọng trong việc xây dựng các mô hình máy học hiệu quả, nhưng nó cũng là một quá trình phức tạp và có thể tốn rất nhiều thời gian. Thông thường, các nhà khoa học dữ liệu sẽ dành hàng tháng để xây dựng các bảng tính năng, sau đó sẽ được nhập thủ công vào các thuật toán máy học.
Tuy nhiên, dotData tự động hóa quy trình này, xác định các kết nối giữa các bảng khác nhau và tự động xây dựng các bảng tính năng. Theo Paliska, cách tiếp cận này cho phép dotData trở nên nổi bật và là một trong những lý do chính khiến công ty đạt được mức độ thành công cao như vậy trên thị trường.
Bạn có thể nghe trên Spotify , Anchor , Apple Podcasts , Breaker ,Google Podcasts , Stitcher , Overcast , Listen Notes , PodBean và Radio Public.
Walter: Tên tôi là Walter Walter Paliska. Tôi là Phó Giám đốc Tiếp thị của dotData. Tôi đã làm việc với dotData từ tháng 5 năm 2019. Tính đến nay đã gần bốn năm. Và dotData là nhà cung cấp hàng đầu hoặc các giải pháp tự động hóa khoa học dữ liệu, chúng tôi chủ yếu nói chuyện rộng rãi với các loại khách hàng mà chúng tôi có xu hướng nhắm mục tiêu, các nhóm được chỉ định có kinh nghiệm chủ yếu trong các tổ chức lớn hơn đang tìm cách tự động hóa phần kỹ thuật tính năng trong công việc của họ. Và một công ty khác là nhiều công ty mới bắt đầu trong thế giới phân tích dự đoán và trong thế giới khoa học dữ liệu, đồng thời đang tìm kiếm các giải pháp tự động hóa để thử và trao quyền cho các nhà khoa học phi dữ liệu trong quá trình xây dựng dữ liệu và mô hình học máy. các quy trình khoa học được tích hợp để thực hiện các phân tích dự báo.
Sam: Tuyệt vời, tuyệt vời. Vâng, cảm ơn bạn rất nhiều vì đã tham gia với tôi ngày hôm nay. Thật vui khi có bạn ở đây. Và tôi thực sự tò mò muốn biết khi nào và làm thế nào để dotData dừng lần đầu tiên?
Walter: Vâng, câu hỏi rất hay. Vì vậy, trên thực tế, câu chuyện về dotData đã có từ rất lâu. Ryohei Fujimaki, Giám đốc điều hành và người sáng lập dotData, là cựu nhân viên của NEC tại Nhật Bản. Vì vậy, anh ấy thực sự là người được gọi là Nghiên cứu viên đồng nghiệp của NEC. Bây giờ, không có nhiều như vậy trong lịch sử của công ty, và anh ấy thấy một công ty khá lâu đời đã tồn tại hơn 100 năm. Và tôi quên con số chính xác, tôi không muốn nói dối bạn. Nhưng tôi biết rằng, bạn biết đấy, có rất ít nghiên cứu sinh của NEC trong lịch sử của công ty, anh ấy là người trẻ nhất từng có trong lịch sử của công ty. Và anh ấy là một phần của nhóm khoa học dữ liệu của họ và khá nhiều dữ liệu xu hướng, tổ chức khoa học dữ liệu của họ từ góc độ dịch vụ, đúng vậy. Vì vậy, họ sẽ thực hiện công việc dựa trên dự án về tài khoản. Và ý tưởng đằng sau dotData thực sự bắt nguồn. Trong suốt quá trình trải nghiệm với NEC, một trong những điều mà anh ấy luôn chú ý là nhóm dữ liệu của anh ấy, các nhà khoa học sẽ luôn dành một lượng thời gian quá lớn cho các phần cụ thể của quy trình khoa học dữ liệu. Và tìm hiểu một chút về cỏ dại kỹ thuật ở đây. Nhưng có một phần chuyên môn được gọi là kỹ thuật tính năng, đây thực sự là phần tốn nhiều thời gian nhất trong quy trình thủ công nhất. Và anh ấy luôn thấy rằng họ thực sự sẽ dành hàng tháng trời cho quy trình kỹ thuật tính năng. Và họ vẫn sẽ ở thời điểm mà họ thậm chí còn chưa chơi với bất kỳ thuật toán học máy nào để tìm ra mô hình sẽ trông như thế nào. Và bạn biết đấy, đó rõ ràng là một khoảnh khắc tuyệt vời, tại một thời điểm nào đó cho bạn biết có điều gì đó ở đó. Vì vậy, có một nhu cầu ở đây, tự động hóa có lẽ có thể giải quyết vấn đề đó. Và đó là nơi mà ý tưởng đằng sau dotData bắt nguồn từ việc công ty được thành lập như một công ty con từ NEC Corporation vào năm 2018. Tại Nhật Bản, và ban đầu được sinh ra ở Nhật Bản, nhưng có trụ sở chính hoàn toàn ở số 9, Hoa Kỳ, chúng tôi có tất cả các trụ sở chính của mình, nếu bạn có đội ngũ nhân viên và công ty phân bố khá. Chúng tôi ở khắp nơi trên thế giới, chúng tôi có người ở Châu Âu, chúng tôi có người ở Nhật Bản, có người ở Hoa Kỳ. Và điều đó đưa chúng ta đến nơi chúng ta đang có ngày hôm nay.
Sam: Tuyệt vời. Đó là một câu chuyện thành công tuyệt vời. Và tôi cũng rất tò mò muốn biết câu chuyện đằng sau cái tên dotData là gì bởi vì đối với thính giả của chúng tôi, nó được đánh vần như dấu chấm, nhưng với chữ d viết thường, và sau đó là dữ liệu với chữ D viết hoa ngay sau nó. Thứ đó đã đến từ đâu?
Walter: Câu hỏi hay. Vì vậy, nguồn cảm hứng ban đầu đằng sau cái tên dotData thực sự đến từ, bạn biết đấy, một trong những ý tưởng mà họ là nhóm người đã phát hiện ra rằng một công ty đang đùa giỡn với, bạn biết đấy, chúng ta đang nói như thế, có lẽ là khi ý tưởng này được lần đầu tiên được khởi động vào khoảng năm 2016 2017. Vì vậy, có rất nhiều cuộc trò chuyện trên thế giới đang diễn ra về dữ liệu và khối lượng dữ liệu cũng như lượng dữ liệu được tạo ra trên khắp thế giới hàng ngày. Và bạn biết đấy, họ đã bắt đầu nhận ra sự lặp lại trước đây của Internet, có thể nói là vào những năm 1990 và 2000. Tất cả là về dotnet. Phải? Và mạng, và họ nghĩ, thế giới tiếp theo sẽ thực sự là về dữ liệu. So that data, so instead of.net chấm dữ liệu. Vì vậy, đó là mục đích ban đầu đằng sau tên dotData.
Sam: Được rồi, vâng, điều đó có ý nghĩa rõ ràng hơn rất nhiều. Với ý nghĩ đó. Tôi cũng thực sự thích cách ám chỉ của nó là DD, dữ liệu dấu chấm, nó có âm thanh rất hay khi bạn nói
Walter: Vâng, đó là một cái tên dễ nhớ, và thật dễ dàng để đánh dấu nó.
Sam: Vâng, vâng, tôi hoàn toàn hiểu điều đó. Và tôi cũng muốn biết, chẳng hạn như, vào tháng 11 năm ngoái, các bạn ở dotData đã xuất bản một bài báo có tên là khai thác dữ liệu dự đoán là gì? Rõ ràng, tôi thực sự khuyên người nghe nên xem nó. Nhưng khi bạn ở đây, bạn có thể cung cấp cho chúng tôi một cái nhìn tổng quan ngắn gọn về khai thác dữ liệu dự đoán là gì không?
Walter: Chắc chắn rồi. Vì vậy, rõ ràng, bạn biết đấy, từ góc độ khán giả, những người không quen thuộc với nó, bạn biết đấy, bạn có thể đã nghe nói về nó theo các thuật ngữ khác nhau có thể đã nghe gọi là phân tích dự đoán, khai thác dữ liệu dự đoán, tự khai thác dữ liệu , về mặt kỹ thuật, chúng không hoàn toàn giống nhau, nếu bạn thực sự muốn chia rẽ, nhưng đối với một lượng lớn đối tượng, khai thác dữ liệu dự đoán và phân tích dự đoán thực sự là về việc tận dụng dữ liệu lịch sử mà bạn có trong tổ chức của mình . Ví dụ, bạn biết đấy, một trường hợp sử dụng tốt có thể là trong tiếp thị, bạn có thể muốn dự đoán hành vi của khách truy cập trên trang web của mình cho một giỏ hàng, phải không? Và bạn có dữ liệu lịch sử về những hành động mà một số người nhất định thực hiện trước khi họ mua một sản phẩm cụ thể. Và bạn muốn sử dụng dữ liệu đó, bạn muốn khai thác dữ liệu đó và sử dụng các kỹ thuật và thuật toán rất cụ thể, chẳng hạn như phân tích cây quyết định hoặc quy nạp quy tắc, phân cụm, phát hiện ngoại lệ và các loại kỹ thuật khai thác dữ liệu khác, để xác định các mẫu, xác định, bạn biết đấy, đại loại là truy cập thông tin chi tiết, một phần của phân tích dự đoán, xây dựng những thông tin chi tiết đó. Đôi khi, những điều này cũng được gọi là các tính năng trong thế giới máy học, nhưng hãy tìm hiểu những thông tin chuyên sâu cho bạn biết nhé, đây là điều có xu hướng xảy ra. Mỗi khi ai đó mua một sản phẩm cụ thể trong ví dụ mà chúng ta vừa có, sau đó tiến thêm một bước và nói, Được rồi, bây giờ tôi có thể sử dụng một số thuật toán học máy nhất định để thử và dự đoán xác suất ai đó mua một sản phẩm khi họ chọn một sản phẩm cụ thể nhất định. hành động. Lý do quan trọng đối với bạn với tư cách là một nhà tiếp thị đối với ví dụ mà tôi vừa đưa ra là, nếu tôi có thể dự đoán với một mức độ chính xác nhất định, điều gì sẽ xảy ra khi ai đó thực hiện một số hành động cụ thể, thì tôi có thể thúc đẩy mọi người thực hiện những hành động đó, bây giờ tôi có thể tận dụng thông tin đó để tối ưu hóa các chiến dịch tiếp thị của tôi. Tóm lại, đó là khai thác dữ liệu dự đoán, nó trở nên phức tạp hơn rất nhiều rất nhanh, còn rất nhiều điều để nói. Vì vậy, tôi đã cung cấp cho bạn phiên bản thứ 32 của những người tiếp thị theo đúng nghĩa đen, rất nhiều thông tin khác có sẵn trên trang web của chúng tôi và chúng tôi rất vui được gặp bất kỳ ai rõ ràng muốn tìm hiểu thêm về điều này. Chúng tôi rất quan tâm đến việc giáo dục thị trường càng nhiều càng tốt về điều này.
Sam: Vâng, tôi có thể tưởng tượng rằng điều đó có thể trở nên khá phức tạp khá nhanh. Vì vậy, tôi thực sự đánh giá cao việc bạn đã cho chúng tôi cái nhìn tổng quan ngắn gọn đó. Và tôi nghĩ bạn đã làm rất tốt khi tóm tắt những gì có vẻ là một chủ đề rất phức tạp. Bây giờ, tôi cũng muốn biết, có công ty nào khác đang điều hành không gian này không? Và nếu vậy, làm thế nào để các bạn ở dotData, phân biệt bản thân với đối thủ cạnh tranh?
Walter: Câu hỏi hay. Vì vậy, câu trả lời ngắn gọn là có, tất nhiên, có rất nhiều công ty khác hoạt động trong lĩnh vực này. Và, bạn biết đấy, đã nói rằng, một điều có lẽ cũng là sự thật về không gian phân tích dự đoán cắt giảm Machine Learning, đó là nó đang phát triển và đang thay đổi với tốc độ cực kỳ nhanh. Vì vậy, nếu bạn nhìn vào vị trí của các công ty, chẳng hạn như ba, bốn năm trước, khi tôi lần đầu tiên tham gia dotData, so với cách các công ty đó đang định vị bản thân ngày nay, cách sản phẩm của họ được xây dựng ngày nay, vị trí của họ ngày nay, các cuộc trò chuyện hoàn toàn khác nhau . Và điều đó thực sự được thúc đẩy phần lớn bởi tốc độ phát triển của thị trường. Tuy nhiên, thông qua tất cả những điều đó, điểm khác biệt lớn nhất đối với dữ liệu đó thực sự thuộc về công cụ cốt lõi của dotData và cách thức hoạt động của dotData. Vì vậy, một trong những điều mà tôi chưa, chúng ta chưa nói đến, và một lần nữa, điều này mang lại một chút chiều sâu kỹ thuật cho cuộc trò chuyện này, nhưng điều quan trọng là trong thế giới phân tích dự báo, đúng vậy, khi bạn bắt đầu và sử dụng các thuật toán máy học này để xây dựng các mô hình dự đoán của bạn, về cơ bản, các thuật toán máy học này giống như bảng phẳng, chúng không hài lòng. Vì vậy, nếu bạn biết nếu bạn không biết thì bạn biết bao nhiêu về dữ liệu doanh nghiệp, nhưng đặc biệt là trong thế giới dữ liệu doanh nghiệp, nếu bạn nghĩ về thứ gì đó như salesforce.com chẳng hạn, với tư cách là người dùng của salesforce.com, tôi chỉ xem màn hình khách hàng tiềm năng và nó có thông tin khách hàng tiềm năng. Và khi các hoạt động của tôi chống lại sự dẫn dắt của tôi, tất cả đều ở một địa điểm. Nhưng nếu tôi bỏ qua điều đó, và nhìn sâu vào bên trong, có thể nói, về cách hệ thống này vận hành, về cơ bản nó được gọi là cơ sở dữ liệu quan hệ. Vì vậy, tất cả các trường mà tôi đang thấy nhiều trong số chúng thực sự là các phần của các bảng khác nhau được phân phối ở các bộ phận khác nhau của nhân viên bán hàng, tất cả chúng đều được kết nối với nhau. Chà, thuật toán học máy không thích những thứ đó, thuật toán học máy, như bảng phẳng, thuật toán học máy, giống như những thứ trông giống như CSV trông giống như bảng tính. Vì vậy, một phần quan trọng của học máy là cái được gọi là Kỹ thuật tính năng, về cơ bản là quá trình lấy các bảng dữ liệu quan hệ phức tạp này, tìm ra các mẫu phù hợp với thuật toán học máy của bạn và xây dựng các bảng phẳng này về cơ bản, sau đó bạn phải đưa vào các thuật toán học máy. Điểm khác biệt cốt lõi lớn nhất của dotData là chúng tôi thực hiện phần đó một cách tự động. Theo truyền thống, đó là một quá trình rất thực tế. Nếu tôi quay lại thời điểm bạn hỏi tôi câu hỏi đầu tiên, bạn sẽ biết dữ liệu đó bắt nguồn như thế nào. Đó là khoảnh khắc tuyệt vời mà Giám đốc điều hành của chúng tôi đã xem Trong những dữ liệu này, các nhà khoa học đã dành hàng tháng trời để xây dựng các bảng tính năng này mà sau đó họ sẽ phải đưa vào các thuật toán máy học theo cách thủ công. Và nhận ra rằng phải có một cách tốt hơn, chúng ta phải có khả năng xây dựng một hệ thống tự động tìm các kết nối giữa các bảng này, tự động xác định các mẫu có liên quan và có mục đích, đồng thời tự động xây dựng các bảng tính năng này. Vì vậy, đó là sự khác biệt lớn nhất của chúng tôi. Và ngày nay, chúng tôi thực sự là công ty duy nhất trên thị trường cung cấp chức năng đó.
Sam: Được rồi, điều đó có ý nghĩa. Vâng. Và tôi luôn thích thực tế là bất cứ khi nào tôi phỏng vấn mọi người, dường như luôn có một khoảnh khắc tuyệt vời nào đó ở cơ sở của tất cả các công ty mà tôi nói chuyện cùng. Và thực sự, đó là một phần thực sự thú vị trong công việc của tôi khi đến với động lực cốt lõi đó, tôi đoán vậy, vì vậy điều đó hoàn toàn có ý nghĩa. Và tôi tò mò muốn biết, điều gì sẽ xảy ra tiếp theo với các bạn tại dotData?
Walter : Vì vậy, bạn biết đấy, tôi nghĩ từ một số quan điểm, phải không. Một là từ a, rõ ràng, vì tăng trưởng kinh doanh là lĩnh vực quan tâm lớn nhất đối với chúng tôi. Và trên thực tế, một trong những điều mà chúng tôi nghĩ, đặc biệt là với sự không chắc chắn về kinh tế đang xảy ra ngay bây giờ, các hệ thống như dữ liệu đó thực sự trở nên có lợi hơn cho các tổ chức. Bạn biết đấy, khi tiền được đầu tư, vốn dồi dào, và các tổ chức không phải lo lắng về số lượng nhân viên và không phải lo lắng về, bạn biết đấy, bạn chỉ cần thuê để giải quyết vấn đề, phải không? Bạn cần làm mọi việc nhanh hơn, bạn thuê nhiều nhà khoa học dữ liệu hơn, bạn cần xây dựng sản phẩm nhanh hơn, bạn thuê nhiều kỹ sư dữ liệu hơn, v.v. Chà, với nền kinh tế đang hoạt động như hiện tại, chúng tôi thực sự thấy nhu cầu tăng lên, chúng tôi thực sự thấy nhiều công ty nói rằng, tôi không có khả năng mở rộng đội ngũ của mình, tôi không có quyền 1015 20 Các nhà khoa học dữ liệu khác. Vậy làm thế nào để làm cho nhóm hiện tại của tôi làm việc hiệu quả hơn. Và đó là nơi mà dotData có thể giúp đỡ họ rất nhiều. Vì vậy, chúng tôi thấy rất nhiều cơ hội trong ngắn hạn cũng như dài hạn từ quan điểm đó. Và rõ ràng, chúng tôi có rất nhiều ý tưởng và rất nhiều điều mới sắp ra mắt từ góc độ sản phẩm, hầu hết trong số đó tôi chưa thể thực sự nói đến, nhưng một số điều rất thú vị sẽ đến trong phần thứ hai nửa năm nay, điều đó sẽ tiếp tục mở rộng khả năng của sản phẩm và cũng đưa chúng tôi vào một số lĩnh vực mới mà chúng tôi chưa từng tham gia trước đây.
Sam: Tuyệt vời. Chà, có vẻ như các bạn có rất nhiều chuyện đang diễn ra. Và tôi chúc bạn may mắn với điều đó. Và nếu mọi người đang lắng nghe và họ quan tâm đến việc cập nhật thông tin về bạn, cá nhân bạn, Walter hoặc dotData, thì họ có thể làm điều đó ở đâu?
Walter: Câu hỏi hay. Vì vậy, dotData là cách dễ nhất, chỉ cần truy cập dotdata.com. Để kết nối với cá nhân tôi, bạn có thể tìm thấy tôi trên trang lãnh đạo. Nếu bạn truy cập trang giới thiệu của chúng tôi và sau đó là phần lãnh đạo, bạn sẽ thấy ảnh của tôi, tiểu sử của tôi và bạn có thể nhấp trực tiếp vào hồ sơ LinkedIn của tôi hoặc hồ sơ LinkedIn của tôi đủ đơn giản. Chỉ cần https://www.linkedin.com/in/walterpaliska/ truy cập hồ sơ LinkedIn của tôi và liên hệ với tôi.
Sam : Tuyệt vời. Chà, chúng tôi cũng sẽ bao gồm các liên kết trong phần mô tả của tập này để người nghe có thể đến đó. Nhưng nếu không thì, Walter, cảm ơn bạn rất nhiều vì đã tham gia cùng tôi hôm nay.
Walter: Xin cảm ơn rất nhiều về cơ hội này, và cảm ơn tất cả những thính giả của ông.
Bài viết này ban đầu được xuất bản bởi Sam Phanh Guia trên The Sociable
Hình ảnh chính cho bài viết này được tạo bởiTrình tạo hình ảnh AI của HackerNoon thông qua lời nhắc "mọi người trên máy tính trong quán cà phê internet vào ban đêm".