paint-brush
HackerNoon は多言語プラットフォームです: すべてのトップ記事が 13 か国語で利用可能になりました@fabian337
1,510 測定値
1,510 測定値

HackerNoon は多言語プラットフォームです: すべてのトップ記事が 13 か国語で利用可能になりました

Marcos Fabian3m2022/11/21
Read on Terminal Reader
Read this story w/o Javascript

長すぎる; 読むには

HackerNoon は機械学習を使用して、プラットフォームからのすべてのトップ記事を英語からスペイン語、ヒンディー語、北京語、ベトナム語、フランス語、ポルトガル語、日本語に翻訳しました。今後も新しいトップ記事の翻訳を続けていきます。トップ記事では、これらすべての言語が特集画像の上に表示されるようになりました。基本翻訳を改善するためにさまざまなルールやツールを検討していますが、長期的には、コミュニティがこれらの翻訳を改善することに賭けるつもりです (詳細は後日公開します!)。
featured image - HackerNoon は多言語プラットフォームです: すべてのトップ記事が 13 か国語で利用可能になりました
Marcos Fabian HackerNoon profile picture
0-item



これだけです: この機能に 5 つの新しい言語を追加し、HackerNoon で利用できる言語の合計数は 13 になりました。新しい言語には以下が含まれますロシア韓国語トルコ語ドイツ人そしてベンガル語


現在の世界人口は約 80 億人ですが、なぜアメリカの人口 3 億 3,190 万人だけを目指すのでしょうか?まあ、私たちは不可能、考えられない、予測できないことをやっただけです。 HackerNoonでは、地球上のすべての人にインターネット アクセスを提供し、世界を動かしている関連コンテンツを公平に読める機会を提供したいと考えています (少なくともそうしようとしています)。

今何があったの?

私たちは機械学習を使用して、プラットフォーム上のすべてのトップ記事を英語からスペイン語ヒンディー語中国語ベトナム語フランス語ポルトガル語日本語に翻訳しました。今後も新しいトップ記事の翻訳を続けていきます。トップ記事では、これらすべての言語が特集画像の上に表示されるようになりました。


また、特定の言語のタグ ページに移動すると、ページ全体がその特定の言語で表示されることがわかります。たとえば、 https://hackernoon.com/tagged/hackernoon-hi は特定の言語 (この場合はヒンディー語) でのみ表示されます。しかし、それは他の言語でも同じです。

なぜこれらの言語なのか?

Jefersonが作成した新しい投票システムのおかげで、ユーザーにどの言語でストーリーを読みたいかを尋ねることができました。また、既存の読者層との相互参照も行いました。世論調査の結果は非常に明らかだったので、私たちはこの案に進むことにしました。プロジェクト。 ここで結果を確認してください:私たちはユーザーの声に耳を傾けるので、自分たちが構築するものはすべて有益であることを確認したいと考えています。つまりスペイン語が最初に翻訳され、その後残りの言語に移りました。 HackerNoon の記事を見つけた新しい読者の数のおかげで、これらの翻訳の影響は驚くべきものになりました。

ビルドはどうでしたか?

まずはGoogle Translation APIから始めました。私たちはその正確さに非常に満足しており、多様なチームのおかげで、ほとんどの言語の内容をチェックして、記事の翻訳が信頼できるものであることを確認することができます。 API のシンプルさを見た後、これが最良の選択だったと思います。私たちは基本翻訳を改善するためにさまざまなルールやツールを検討していますが、長期的にはコミュニティに賭けてこれらの翻訳を改善していきます (詳細は後日!)。また、元のコンテンツと区別するために、翻訳された記事を保存するための新しいデータベースも作成しました。もちろん、両者の間にはある程度の相関関係があります。

枠組み

このプロジェクトで最も困難な部分は、特定のページの静的データをその特定のページの言語で何らかの方法でロードするフレームワークを作成することでした。ここでの考え方は、誰かがフランス語で物語を読んでいる場合、「新しい物語」などの静的データ (変更されないテキスト) には、「ヌーベル・ヒストワール」のような翻訳版が表示されるということです。これは他の言語でも同様です。


これを実現するには複数の方法がありますが、私は単純に各言語のテキストを保存するオブジェクトを作成し、そのオブジェクトをデータベースに保存し、ページの言語に応じて API 経由でロードすることにしました。静的翻訳が完了したら、あとはスクリプトを介してトップ記事を実際に翻訳するだけです。これは長いプロセスで、すべてのストーリーをこれらすべての言語に翻訳するのに約 2 週間かかりました。より良い点は、翻訳されたすべてのストーリーが、ページの言語のメタデータとともにHackerNoon サイトマップにも追加されることです。これにより、共有エクスペリエンスが確実に容易になります。 Google でベトナム語で次のように検索します。

皆さんも母国語で読書を楽しんで、コメントして共有していただければ幸いです。