The Sociable is a technology news publication that picks apart how technology transforms society and vice versa.
This writer has a vested interested be it monetary, business, or otherwise, with 1 or more of the products or companies mentioned within.
The best videos on the Internet archived and shared on HackerNoon.
The best podcasts on the Internet archived and shared on HackerNoon.
在今天的 Brains Byte Back 播客中,我们与dotData营销副总裁Walter Paliska进行了交谈,该公司通过使组织能够轻松地通过快速、独特且易于使用的工具。
在这一集中,我们将讨论公司的起步历程、发展历程以及目前提供的解决方案。我们还探讨了预测性数据挖掘,以及它如何帮助企业利用历史数据对未来的行为或结果做出准确的预测。
Paliska 以市场营销为例,认为公司可以使用预测数据挖掘来预测网站访问者的行为,以实现个性化定位。
此外,在公司首席执行官兼创始人 Ryohei Fujimaki 注意到他的数据科学家团队将在特征工程过程上花费大量时间之后,Paliska 分享了 dotData 的成立方式。
由于这是数据科学过程中最耗时和手动的部分,Fujimaki 决定利用自动化来解决这个问题,因此 dotData 诞生了。
Paliska 还分享了公司如何帮助客户节省数据科学项目的时间和成本,使非数据科学家的数据科学民主化,以及提高机器学习模型的准确性和速度。
他认为,这些只是 dotData 在竞争中脱颖而出的几种方式。但 Paliska 主张,最大的差异化因素之一是 dotData 的核心引擎,它使特征工程过程自动化。
特征工程是构建有效机器学习模型的重要一步,但它也是一个复杂的过程,可能非常耗时。通常,数据科学家会花费数月时间构建特征表,然后将其手动输入到机器学习算法中。
但是,dotData 自动执行此过程,识别不同表之间的连接并自动构建特征表。根据 Paliska 的说法,这种方法让 dotData 脱颖而出,这也是该公司在市场上取得如此高水平成功的关键原因之一。
您可以在Spotify 、 Anchor 、 Apple Podcasts 、 Breaker 、Google Podcasts 、 Stitcher 、 Overcast 、 Listen Notes 、 PodBean和Radio Public 上收听。
沃尔特:我叫沃尔特·沃尔特·帕利斯卡。我是 dotData 的营销副总裁。自 2019 年 5 月以来,我一直在 dotData 工作。现在快四年了。 dotData 是领先的提供商或数据科学自动化解决方案,我们在很大程度上与我们倾向于针对的客户类型、经验丰富的指定团队进行了广泛的交流,这些团队主要来自大型组织,他们希望将其工作的特征工程部分自动化。另一家是更多在预测分析和数据科学领域刚刚起步的公司,他们正在寻找自动化解决方案,以尝试在构建机器学习模型和数据的过程中为非数据科学家赋能集成科学流程以进行预测分析。
山姆:太棒了,太棒了。好吧,非常感谢你今天加入我的行列。很高兴你能来。我真的很想知道什么时候以及如何将 dotData 作为第一站?
沃尔特:是的,问得好。所以实际上,dotData 的故事可以追溯到很久以前。 dotData 的 CEO 和创始人 Ryohei Fujimaki 是日本 NEC 的前雇员。所以他实际上是所谓的 NEC 研究员。现在,公司历史上还没有那么多,他看到一家相当老的公司可以追溯到 100 多年前。我忘记了确切的数字,我不想骗你。但我知道,你知道,公司历史上很少有 NEC 研究员,他是公司历史上最年轻的研究员。他是他们数据科学团队的一员,而且几乎是趋势数据,从服务的角度来看,他们的数据科学组织,对吧。所以他们会做基于项目的工作去会计。而 dotData 背后的想法实际上是起源的。通过他在 NEC 的经历,他一直注意到的一件事是他的数据团队,科学家们总是会在数据科学过程的特定部分花费过多的时间。并在这里深入了解技术杂草。但是专业的一部分称为特征工程,这实际上是流程中最耗时的手动部分。他一直看到他们真的会在特征工程过程中花费数月时间。而且他们仍然会处于他们甚至还没有玩过任何机器学习算法的地步,还没有弄清楚模型应该是什么样子。你知道,这显然是一个惊喜时刻,在某个时候告诉你那里有东西。所以这里有需求,自动化也许可以解决这个问题。这就是 dotData 背后的想法起源于该公司,该公司于 2018 年从 NEC Corporation 分拆出来。在日本,所以最初出生在日本,但总部九,美国,我们有我们所有的总部,如果你有员工和相当分散的公司。我们遍布全球,我们在欧洲有人,在日本有人,在美国有人。这将我们带到了今天的位置。
山姆:太棒了。这是一个了不起的成功故事。我也很想知道 dotData 这个名字背后的故事是什么,因为对于我们的听众来说,它的拼写像 dot dot,但有一个小写的 d,然后是紧跟其后的大写 D 的数据。那个是从哪里来的?
沃尔特:好问题。所以 dotData 这个名字背后的最初灵感真的来自,你知道,他们是一群人发现一家公司正在玩弄的想法之一,你知道,我们说的可能是当这个想法是第一次被踢是在 2016 年到 2017 年左右。所以世界上有很多关于数据和数据量以及每天在世界各地产生多少数据的对话。他们有点恍然大悟,你知道,互联网的前一次迭代,可以这么说,在 1990 年代和 2000 年代。都是关于 dotnet 的。正确的?还有网络,他们认为,世界的下一个迭代真的将与数据有关。所以那个数据,所以不是.net点数据。这就是 dotData 名称背后的初衷。
山姆:好的,是的,这更清楚了。考虑到这一点。我也真的很喜欢它的头韵,DD,点数据,当你说的时候,它的声音非常好听
沃尔特:是的,这是一个令人难忘的名字,而且很容易记住。
山姆:是的,是的,我完全明白。我还想知道,去年 11 月,你们在 dotData 发表了一篇文章,叫做什么是预测数据挖掘?显然,我强烈建议听众去看看。但是当你在这里的时候,你能给我们简要介绍一下预测数据挖掘是什么吗?
沃尔特:当然,绝对。所以很明显,你知道,从听众的角度来看,那些不熟悉它的人,你知道,你可能听说过它的不同术语,可能听说过被称为预测分析、预测数据挖掘数据挖掘本身,从技术上讲,它们不是完全一样的东西,如果你真的想分头,但你知道,对于广泛的受众,预测数据挖掘和预测分析实际上是关于利用你在组织中拥有的历史数据.你知道,例如,一个很好的用例可能在市场营销中,你可能想预测访问者在你网站上的购物车行为,对吧?而且你有关于某些人在购买特定产品之前采取的行动的历史数据。你想使用这些数据,你想挖掘这些数据,并使用非常具体的技术和算法,比如你知道的决策树分析或规则归纳、聚类、异常值检测和其他类型的数据挖掘技术,来识别模式,确定,你知道,某种程度上访问洞察力,预测分析的一部分,建立这些洞察力。这些有时也被称为机器学习世界中的特征,但找出告诉你好的见解,这就是往往会发生的事情。每次有人在我们刚才的例子中购买了一种特定的产品,然后更进一步说,好吧,现在我可以使用某些机器学习算法来尝试预测某人在采取特定的特定行为时购买产品的概率动作。对于我刚才举的例子来说,作为营销人员,你很重要的原因是,如果我能以一定程度的准确性预测,当有人采取某些特定行动时会发生什么,我可以驱使人们采取这些行动,我现在可以利用这些信息来优化我的营销活动。简而言之,这就是预测性数据挖掘,它很快就会变得更加复杂,还有很多东西要谈。所以我已经为您提供了营销人员第 32 版,我们网站上提供了更多信息,我们很高兴与任何显然想了解更多信息的人见面。我们非常热衷于就此尽可能多地教育市场。
山姆:是的,我可以想象这会很快变得非常复杂。所以我真的很感谢你给我们提供了简短的概述。我认为您很好地总结了一个看似非常复杂的主题。现在,我也想知道,是否有其他公司经营这个空间?如果是这样,那么你们 dotData 的人如何从竞争中脱颖而出?
沃尔特:好问题。所以简短的回答是肯定的,当然,还有很多其他公司在这个领域运营。而且,你知道,话虽如此,关于机器学习斜线预测分析空间的一件事可能也是一个老生常谈,那就是它正在以惊人的速度发展和变化。因此,如果你看看公司的定位,比如说,三四年前,当我第一次加入 dotData 时,与这些公司今天的定位相比,他们今天的产品是如何构建的,他们今天在哪里做,完全不同的对话.这实际上在很大程度上是由市场发展的速度所驱动的。然而,通过所有这些,该数据的一个巨大差异化因素实际上归结为 dotData 的核心引擎以及 dotData 的工作方式。所以我还没有谈过的一件事,我们还没有谈过,再说一次,这次谈话有一点技术深度,但重要的是,在预测分析的世界里,对,当你去和使用这些机器学习算法来构建你的预测模型,这些机器学习算法就像平面表,本质上,它们并不快乐。所以如果你知道你不知道你对企业数据了解多少,但尤其是在企业数据的世界里,如果你想像 salesforce.com 这样的东西,例如,作为 salesforce.com 的用户,我只是查看潜在客户屏幕,其中包含潜在客户信息。作为我反对我的线索的活动,它都在一个地方。但是,如果我揭开它的面纱,深入内部,可以说,这个系统是如何运作的,它基本上就是所谓的关系数据库。所以我看到的所有这些字段实际上都是销售人员不同部分交付的不同表格的一部分,它们都连接在一起。好吧,机器学习算法不喜欢那些东西,机器学习算法,比如平面表格,机器学习算法,就像 CSV 看起来像电子表格的东西。所以机器学习的很大一部分是所谓的特征工程,它本质上是一个获取这些复杂的关系数据表的过程,找出对你的机器学习算法有意义的模式,并从本质上构建这些平面表,然后你必须馈入机器学习算法。 dotData 最大的核心区别在于我们自动完成该部分。传统上,这是一个非常实际的过程。如果我回到你问我第一个问题的时候,你就会知道这些数据是如何产生的。那是我们的 CEO 看到的顿悟时刻 在这些数据中,科学家们花了几个月的时间来构建这些特征表,然后他们必须手动将这些特征表放入机器学习算法中。意识到必须有更好的方法,我们必须能够构建一个系统,自动找到这些表之间的联系,自动识别相关和有目的的模式,并自动构建这些特征表。所以这是迄今为止我们最大的差异化因素。今天,我们确实是市场上唯一一家提供该功能的公司。
山姆:好的,这是有道理的。是的。而且我总是喜欢这样一个事实,即每当我采访人们时,似乎总是在与我交谈的所有这些公司的基础上都有某种顿悟时刻。我想,这真的是我工作中非常有趣的一部分,我想,这是绝对有道理的。我很想知道,对于你们 dotData 的人来说,下一步是什么?
沃尔特:所以我认为,你知道,有几个角度,对吧。显然,一个来自业务增长是我们最感兴趣的领域。实际上,我们认为的一件事,尤其是考虑到目前正在发生的经济不确定性,像数据这样的系统实际上对组织更加有利。你知道,当钱用于投资时,资本充足,组织不必担心员工人数,也不必担心,你知道,你可以只雇人来解决问题,对吧?你需要更快地做事,你需要雇佣更多的数据科学家,你需要更快地构建产品,你需要雇佣更多的数据工程师,等等。好吧,随着经济的发展,我们实际上看到了需求的上升,我们实际上看到更多的公司说,我没有能力扩大我的团队,我没有得到许可,可以说在经济上,去雇用 1015 20 更多数据科学家。那么我该如何让我现有的团队更有效率。而这正是 dotData 可以为他们提供大量帮助的地方。因此,我们在短期内看到了很多机会,从这个角度来看,从长期来看也是如此。显然,从产品的角度来看,我们有很多想法和很多新事物,其中大部分我现在还不能真正谈论,但第二个会出现一些非常令人兴奋的事情今年下半年,这将继续扩展产品的功能,并将我们带入一些我们以前从未涉足过的新领域。
山姆:太棒了。好吧,听起来你们有很多事情要发生。我祝你好运。如果人们正在倾听,并且他们有兴趣跟上您个人、Walter 或 dotData 的步伐,他们可以去哪里做这件事?
沃尔特:好问题。所以 dotData 是最简单的,只需访问 dotdata.com。要与我个人联系,您可以在领导页面上找到我。如果你去我们的关于页面然后领导,你会看到我的照片我的简历,你可以直接点击我的 LinkedIn 个人资料,或者我的 LinkedIn 个人资料很简单。它只是 https://www.linkedin.com/in/walterpaliska/ 转到我的 LinkedIn 个人资料,然后联系我。
山姆:太好了。好吧,我们也会在这一集的描述中包含链接,这样听众就可以去那里了。但除此之外,沃尔特,非常感谢你今天加入我的行列。
沃尔特:非常感谢你给我这个机会,也感谢所有的听众。
本文最初由 Sam Brake Guia 发表于The Sociable
本文的主图是由 HackerNoon 的AI Image Generator通过提示“晚上网吧里的人在电脑上”生成的。
预测性数据挖掘可以帮助预测消费者的在线行为(播客) | HackerNoon