paint-brush
HackerNoon 是一个多语言平台:所有热门故事现已提供 13 种语言版本经过@fabian337
1,510 讀數
1,510 讀數

HackerNoon 是一个多语言平台:所有热门故事现已提供 13 种语言版本

经过 Marcos Fabian3m2022/11/21
Read on Terminal Reader
Read this story w/o Javascript

太長; 讀書

HackerNoon 使用机器学习将我们平台上的所有热门故事从英语翻译成西班牙语、印地语、普通话、越南语、法语、葡萄牙语和日语。我们将继续翻译即将发布的新热门报道。现在,热门报道将在专题图片上方看到所有这些语言。我们正在探索各种规则和工具来改进基础翻译,但从长远来看,我们将押注于社区来改进这些翻译(稍后还会有更多!)。
featured image - HackerNoon 是一个多语言平台:所有热门故事现已提供 13 种语言版本
Marcos Fabian HackerNoon profile picture
0-item



最新消息:我们为此功能添加了 5 种新语言,使 HackerNoon 上可用的语言总数达到 13 种!新语言包括俄语,韩国人,土耳其,德语孟加拉


目前世界人口约为 80 亿,那么为什么只针对美国的 3.319 亿人口呢?好吧,我们只是做了不可能、不可想象和不可预测的事情。在HackerNoon ,我们希望(至少我们正在努力)让地球上的每个人都能访问互联网,有公平的机会阅读正在推动世界发展的相关内容。

刚刚发生了什么?

我们使用机器学习将平台上的所有热门新闻从英语翻译成西班牙语印地语普通话越南语法语葡萄牙语日语。我们将继续翻译即将发布的新热门报道。现在,热门报道将在专题图片上方看到所有这些语言。


此外,如果您导航到特定语言的标签页面,您会注意到整个页面都将采用该特定语言。例如,https://hackernoon.com/tagged/hackernoon-hi ,只会以特定语言显示,在本例中为印地语。但对于其他语言来说也是一样的。

为什么选择这些语言?

嗯,多亏了Jeferson创建的新民意调查系统,我们能够询问用户他们喜欢用什么语言来阅读故事。我们还与现有读者进行了交叉引用。民意调查的结果非常明确,因此我们决定继续进行。项目。在 这里检查结果:由于我们倾听用户的意见,因此我们希望确保我们构建的任何内容都是有益的。因此,西班牙语是第一个被翻译的语言,然后我们开始翻译其他语言。由于发现HackerNoon 故事的新读者数量众多,这些翻译的影响是惊人的。

它是如何建造的?

我们从Google Translation API开始。我们非常喜欢准确性,并且凭借多元化的团队,我们能够检查大多数语言的内容,以确保文章翻译的可靠性。在看到 API 的简单性后,我认为这是最好的选择。我们正在探索各种规则和工具来改进基础翻译,但从长远来看,我们将押注于社区来改进这些翻译(稍后还会有更多!)。我们还创建了一个新的数据库来存储翻译的文章,以便与原始内容区分开来,当然两者之间存在一些相关性。

框架

该项目最困难的部分是创建一个框架,以某种方式以特定页面的语言加载该特定页面的静态数据。这里的想法是,如果有人正在阅读法语故事,静态数据(不变的文本)(例如“新故事”)将显示翻译版本,例如“Nouvelle histoire”,对于其他语言也是如此。


有多种方法可以实现这一点,我决定简单地创建一个对象来存储每种语言的文本,将该对象存储在我们的数据库中,然后根据页面的语言通过 API 加载它。静态翻译完成后,剩下的就是通过脚本实际翻译热门新闻了。这是一个漫长的过程,大约花了两周时间才将所有故事翻译成所有这些语言。更好的是,所有翻译的故事也都添加到HackerNoon 站点地图中,并带有页面语言的元数据,这肯定会促进共享体验。就像在谷歌上用越南语搜索一样:

希望大家喜欢用自己的母语阅读、评论和分享!