データ分析とビジネス インテリジェンスの世界では、「 」とも呼ばれるデータ チームは、ビジネス ユーザー (赤) が必要とするソリューションを構築し、エンジニアリング チーム (青) と協力して、基本的にデータのインフラストラクチャを構築します。 。 パープル チーム  BI チームは主に、ビジネス ユーザーが使用するレポートや重要なダッシュボードを提供するフローやパイプラインの構築に取り組んでいます。    、   、  など、データ チームがこれらのエンドユーザー ソリューションを構築するのに役立つ新世代のツールや、Tableau や PowerBI など、しばらく「データ分析」分野にいた業界リーダーが多数存在します。 Mode Superset Lightdash これらのソリューションを構築するアナリストは、さまざまなソースからデータを準備し、クエリ用にデータがサニタイズされていることを確認する必要があります。 「データ準備」と呼ばれるワークフロー内のクレンジング ステップを実行することを目的とした一連のツールまたは変換。  大規模な言語モデルの出現により、AI について議論することがソフトウェア エンジニアリング スタック全体で共通の傾向になりました。しかし、「 プラクティスを使用すれば、データのクレンジング ステップを自動化できる」と言ったらどうなるでしょうか?最小限の労力で、よりクリーンなバージョンのデータセットをエクスポートできるようになります。 データ中心の AI このブログでは、データ中心 AI を使用して、BI ツール用にデータを簡単に準備し、その後のデータ分析から信頼できる結論を確実に得る方法について説明します。 データ アナリストのワークフロー 数年前、データ アナリストは手動でデータを収集、クリーニング、分析する必要がありましたが、これは時間のかかるプロセスであり、貴重な洞察を得る能力が制限されていました。  現在、データ分析の状況は、   、  などのデータ準備ツールの導入により大幅に変化しています。 Alteryx Tableau これらの効率的なツールによりワークフローが簡素化され、アナリストが複数のソースからのデータをシームレスに統合し、データ クリーニング タスクを自動化し、視覚的に魅力的で洞察力に富んだデータ表現を生成できるようになりました。  手動によるデータ準備後のデータ分析 ツールを使用して準備されたデータは、特定のビジネス クエリを識別するために BI ツールを使用して分析されます。 たとえば、銀行内の顧客リクエストの を考えてみましょう。このデータセットでは、顧客が遭遇した問題を顧客サービス ポータルに記録し、人間または自動のタスク マネージャーがラベルを付けます。 このデータセット ビジネス アナリストが、特定の問題カテゴリに対して発生する顧客リクエストの数を判断する場合を想像してください。以下は、彼/彼女が目にする結果です -  カテゴリに 顧客の問題が表示されています。  beneficiary_not_allowed 111 同様に、アナリストが という単語に関連する問題のインスタンスがいくつあるかを知りたい場合、簡単な分析により以下の視覚的表現が返されます。  カテゴリの問題の数に注目してください。  ATM change_pin シンプルで単純そうに見えますが、 を深く掘り下げると、いくつかのケースで顧客リクエストの分類が間違っていることがわかります。 データセット 例えば： 文章 ラベル (データセットごと) ラベル（理想的には） 私のカードの有効期限がもうすぐ切れてしまいます。新しいものはどれくらいで入手できますか?また、価格はいくらですか?  apple_pay_or_google_pay 期限切れ間近のカード 現実世界のデータの大部分は乱雑で構造化されていないため、統計から値を推定することが困難です。人間と機械がデータに基づいて意思決定を行えるようにするためには、データに適切なラベルが付けられ、誤ったデータが排除され、重複が排除されることが重要です。 データ中心の AI 分析に使用されるデータが正確で最新であり、重複がないことを確認することが重要です。そうしないと、誤った決定や結論が下される可能性があります。たとえば、ユーザー プロファイル データ内の空の場所フィールドや場所フィールドの形式が一貫していない場合、エラーが発生する可能性があります。したがって、効果的なデータ分析にはデータ品質を維持することが重要です。 データ中心 AI は、AI システムの構築に使用されるデータを体系的にエンジニアリングする分野です。現実世界のほとんどのデータは構造化されていないか、間違ってラベル付けされています。ラベル付きトレーニング データの適切なセットを含む高品質のデータセットは、より良い結果を予測できる効率的なモデルにつながります。 より良い結果はより良い顧客エクスペリエンスをもたらします。詳細については、MIT の コースを参照してください。 データ中心 AI クリーンラボのご紹介 、データセット内の問題を自動的に検出してデータとラベルをクリーンアップするのに役立つオープンソース プロジェクトです。 Cleanlab は、Curtis Northcutt (  の共同創設者でもある) らによるデータセット ラベルの不確実性の推定について述べた論文に基づいた、 を使用します。 Cleanlab は Cleanlab.ai 確信学習  Cleanlab は基本的に AI を導入することでデータ分析ワークフローを強化します。   Cleanlab Studio を使用してデータを自動クリーンアップする Cleanlab Studio は、オープンソース パッケージ Cleanlab 上に構築されたノーコード ツールで、分析ワークフロー用のデータの準備に役立ちます。   、  などのデータ ウェアハウス、または などのクラウド オブジェクト ストアからデータをインポートすることもできます。 Databricks Snowflake AWS S3 ステップ1：   にアクセスするにはサインアップしてください。  Cleanlab Studio いくつかのサンプル データセットとプロジェクトを含むダッシュボードにログオンします。  ステップ2：  [データセットのアップロード] をクリックしてアップロード ウィザードを開始します。 、コンピューター、URL、API、または や Snowflake などのデータ ウェアハウスからアップロードできます。  データセットは Databricks  Cleanlab Studio は、データ スキーマとモダリティ (テキスト、画像、音声、表形式など) を自動的に推測します。  詳細を確認すると、アップロードされたデータセットと、データのアップロード中に発生した関連エラー (存在する場合) を示す画面が表示されます。   注: データセットによっては、アップロードに数分かかる場合があります。データセットが Cleanlab Studio に完全にアップロードされたら、Cleanlab から電子メールで通知されます。 ステップ 3: データセットの種類に基づいて、特定の機械学習タスクを使用してデータの問題を特定できます。現在、Cleanlab Studio は、テキスト、表形式、画像データに関連するいくつかの ML 分類タスクをサポートしています。 分類に特有の、K クラスの 1 つ、または K クラスの 1 ～ N になります。このデータセットでは、顧客の各リクエストが特定のカテゴリに分類されます。それは「マルチクラス」分類になります。   Cleanlab Studio は、選択したテキストとラベルの列を自動検出します。必要に応じて修正できます。  高速なモデルを使用しても最良の結果が得られない可能性があります。時間の都合上、Fast を選択することもできます。  「 を押します。 」 データをクリーンアップ!」 ステップ 4:  Cleanlab Studio はデータセット上でモデルのアンサンブルを実行し、問題の概要を表示します。 前に指摘したように、データセットには誤って分類されたデータと外れ値が含まれており、分析しても意思決定プロセス全体に価値が付加されない可能性があります。  上部の分析ビューに切り替えると、Cleanlab Studio によってデータセット上で特定された問題のメタ分析を確認することもできます。  ステップ5:  Cleanlab Studio の興味深い点は、クリーンなデータセットをエクスポートするだけでなく、データの問題指向のビューを提供することです。データ アナリストとビジネス インテリジェンスのユーザーが長年望んでいた、欠けていたデータ準備ワークベンチ。  Cleanlab Studio で提供されるキーボード支援アクションによって各問題を並べ替えたり、下のボタンをクリックして「クリーンセットのエクスポート」をエクスポートしたりできます。   AI支援によるデータ準備後のデータ分析 クリーン化されたデータセットを使用して同じデータ分析を調べてみましょう。   カテゴリと カテゴリの間で数値に不一致があるようです。これは小規模なデータセットですが、これらのデータ修正は、より大規模な場合に大幅に異なる推定値や潜在的なビジネス上の意思決定につながる可能性があることに注意することが重要です。  cancel_transfer visa_or_mastercard 同様に、問題が適切にマークされると、一部のカテゴリに対する顧客のリクエストが消えることがわかります。  あなたがデータ アナリストまたはビジネス インテリジェンス コミュニティの一員である場合、Cleanlab Studio はデータ準備ワークフローに革命を起こすことができます。今すぐ を試して、より信頼性が高く正確なデータ分析を実現する AI 支援のデータ クリーニングの力を体験してください。 Cleanlab Studio 結論 Cleanlab Studio は、フォーチュン 500 企業の何千人ものエンジニア、アナリスト、データ サイエンティストによって使用されているノーコードのデータ準備ワークベンチです。この革新的なプラットフォームは、現実世界の誤ったデータを使用して、より信頼性が高く正確な機械学習モデルをトレーニングするために MIT で開発されました。詳細については に参加してください。 、Slack コミュニティ

This story contains new, firsthand information uncovered by the writer.

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

This writer has a vested interest be it monetary, business, or otherwise, with 1 or more of the products or companies mentioned within.

Join Cleanlab Community of AI Practitioners

このオーディオは、ストーリーの元の言語で制作されています。

ビジネスインテリジェンスのための AI によるデータ準備の強化

About Author

コメント

ラベル

この記事は

Related Stories

HackerNoon Coded: HackerNoonが最も活発に活動している上位10カ国

State of the Noonion: Green Clock Strikes Noon

ユーザー中心の暗号通貨製品の作成: 顧客からのフィードバックの重要性

フロキのヴァルハラがインドのスリランカツアーのアソシエイトスポンサーに加わる

HackerNoon Coded: HackerNoonが最も活発に活動している上位10カ国

State of the Noonion: Green Clock Strikes Noon

ユーザー中心の暗号通貨製品の作成: 顧客からのフィードバックの重要性

フロキのヴァルハラがインドのスリランカツアーのアソシエイトスポンサーに加わる

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps

ビジネス インテリジェンスのための AI によるデータ準備の強化

About Author

コメント

ラベル

この記事は

Related Stories

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps

ビジネスインテリジェンスのための AI によるデータ準備の強化