コラム

【比較】ビッグデータの分析手法を目的やポイントごとに分類

AI秘密計算

目次

近年はマシンスペックやネットワークに関わる技術の進歩も進んだことから、日常のあらゆる場面で大量のデータを収集できるようになりました。

特に、SNSをはじめとするデジタルデータや自然界から取得できる気象情報・位置情報、近年進歩の目覚ましいウェアラブルデバイス等から得られるビッグデータは、量・質ともに活用の幅に期待が大きく、企業ではビジネスの価値向上や人々の豊かな暮らしに活かそうと活用に向けた取り組みが始まっています。

この記事ではビッグデータ活用を検討される方に向けて、ビッグデータの分析で押さえておきたいポイントや、主要な分析手法について紹介していきます。

【準備】ビッグデータ分析のポイント

ビッグデータの活用で重要な「データの分析」。
しかし、ただ闇雲に分析しても活用につながるインサイトを得ることはできないため、分析の前の「準備」が欠かせません。

準備では、膨大なデータからどの部分のデータをどう使ったら目的に沿った分析結果を導けるのかといった目的や手法を考えます。このセクションでは、準備の方法や分析時に検討することなど、分析のポイントを解説します。

目的の設定


ビッグデータを分析する際は、あらかじめ目的を明確化しておきます。

データ分析の結果どのような結論を導きたいか、分析した結果を論拠として使うにはどのようなストーリーにするか等、分析結果を使って何をするかまで想定し、できる限り課題解決に直結するシンプルな目的を設計します。

目的設定が曖昧なまま分析フェーズに入った場合、とりあえず手元のデータから分析レポートを作成したが、そのレポートによって何の結論を導けるかわからないといった状況に陥りかねません。

ツールや手法の選定


データ分析の目的を設定後は、適切な分析ツールや分析手法を選定します。目的設定と同様に、導きたい結果と目的に沿った分析手法を選ぶことで複数のパターンを試す時間が省略され、最短ルートで分析目的の達成につながります。

分析手法は、分析したいデータが構造化されている場合はエクセルでも可能ですが、作業効率や手順を加味した場合は専門ツールが利用されます。一般的にはBI(BusinessIntelligence)ツールやデータマイニングツールを活用します。

なお代表的なデータ分析手法については、記事後半で解説します。

また、ツールや手法の選定の他に重要な点として、データ分析を行うセキュリティ環境へも配慮が必要です。データの収集・保管、連携といった活用前のデータ保護はもちろん、外部からの攻撃が発生するデータ分析時にも会社の資産となる情報が流出しないように対策しなければなりません。主な対策としてはデータベースそのものを暗号化する手法が一般的です。

EAGLYSでは、従来の暗号化ではできなかった「データ分析時」も暗号化したまま分析できる秘密計算技術を用いたソリューションを提供しています。

詳しくは下記をご覧ください。


DataArmor GATE DB|EAGLYS株式会社

EAGLYS株式会社が提供するDataArmor GATE DBを紹介します。EAGLYS株式会社は企業が安全で自由にデータ利活用できるよう、データセキュリティ技術とAI設計技術を基盤にしたサービス提供しています。

eaglys.co.jp

og_img


データクレンジング等のデータ整備作業


ビッグデータを分析するといっても、実際はそのデータのすべてがきれいに整理されているわけではないことが大半です。そのため、分析の前段階としてデータをクレンジング(整理)したり、分析に適切なデータを抽出したりといったことが必要です。

データクレンジングとは、データの表記ゆれや粒度の違う表現の整形や、欠損データの扱い方を決めること、そのほか重複データを一意にする等の作業を指します。

ただ、膨大なデータを手作業でクレンジングするのはコストも時間も要するため、一般的にはデータクレンジングツールやクレンジングサービスが使われます。

【実践】代表的なビッグデータ分析手法

データ分析の手法は用途に応じて複数存在します。ここでは代表的な手法を6つ紹介します。

分析手法名

分析手法の概要

使用例

クロス集計

データを属性ごとに分け、その属性の傾向を把握する

マーケティングにおける地域別のニーズ把握

クラスター分析

データの類似性から分類し、各性質毎に傾向や特徴を把握する

ユーザーのセグメントを分類し、企業ブランディングや商品開発に活用

アソシエーション分析

連動して発生する事象やパターンを洗い出し、データ同士の相関関係を見つける

一緒に買われやすい商品の広告等に活かし、アップセルやクロスセルにつなげる

ロジスティックス回帰分析

複数の変数によってもたされる結果の発生確率を計算する

特定の病気にかかるリスクを生活習慣や既往歴から予測する

決定木分析

特定の結果に至るまでに複数の要因がどれほど関係し、影響を及ぼすか分析する

製品起点で顧客層を分析したり、満足度調査の結果を使ってユーザーを分類する

主成分分析

他要素にわたる特徴を1〜3程度の次元に要約することで、データを見通しやすくする

顧客満足度調査や研究開発において何の特性がどの程度好影響をもたらすか推測する

クロス集計:属性別の分析


クロス集計は明確に異なる属性毎にデータを分け、2種類以上の項目に因果関係や相違点等を見つける際に使われます。複雑な数学公式等を使うことが無いため、ビジネスの現場でもアンケート調査などでよく使われる手法として有名です。

クラスター分析:類似グループ別の分析


異なる性質を持つ複数のデータから、類似性を見つけて分類し、その傾向値や相違点からデータ全体の傾向・それぞれの属性の傾向や特徴を見極めるために活用されます。たとえば、マーケティング調査における顧客の年齢をセグメントして分析したり、商品をカテゴリーに分類して分析したりといった方法が取られます。クラスター分析の注意点として、分析で導き出される傾向や特徴は最終的に人による解釈が必要なため、客観性をもたせるには他の分析手法とあわせて使うといったことが求められます。

アソシエーション分析:データ同士の相関を分析


データの発生要因と結果が連動している相関関係を見つける分析で、膨大な量のデータから「このような状況ではこうなる」といったパターンがわかるようになることで、マーケットバスケット分析等と呼ばれています。ECサイトのお気に入りや購買履歴の関連商品リコメンドや、主に顧客のアップセルクロスセルを誘発する販促戦略に使われます。

ロジスティックス回帰分析:事象の発生確率を予測


いくつかの要因(説明変数)から、ある事象(目的変数)の発生確率を分析する手法です。このときの目的変数は0か1、もしくはYesかNoかといった2つ値のうちどちらかの結果(目的変数)が現れるかを予測できます。この分析は、顧客の購買行動を複数の購入理由から予測したり、どのマーケティングチャネルが効果的かを調べたり、生活習慣から特定の疾病にかかるリスクを予測する場合に使われます。

決定木分析:事象の要因を複数分析


決定木分析は、アンケートや占い等で目にすることの多い樹形図を描き、複数の要因から導かれる特定の結果との関係性・要因の持つ影響力を見出すことができる分析手法です。それぞれの要因と結果に対する関係性を分類して手法を分類木で、それぞれの要因から結果がもたらされる影響力を変動する数値で示していく手法を回帰木と呼び、これらをあわせて決定木分析と呼びます。製品に関連するキーワードやマーケティング施策に影響した要因を分析したり、既存事業に当てる新たなターゲットを探る場合に使われます。

主成分分析:データをシンプルに分析


分析対象データに複数の変数(関係性が高い要素)が存在する場合に選択されることが多い分析手法で、他要素にばらつきのある特徴を1〜3程度の次元に要約することでデータを見通しやすくします。主成分分析は、満足度調査や商品評価、研究開発の分野など多くの要素が存在する中で、どの主成分がどの程度結果に好影響をもたらすか、もしくはどの程度好ましくない影響をもたらすかを把握するために使われます。

まとめ

デジタル化や情報社会化が進むことであらゆる種類の膨大なデータが蓄積されるようになり、AI機械学習の発展もあわさって、ビッグデータを分析して業務効率を向上させたり新たなビジネス価値の創造に取り組む企業が増えました。

ビッグデータの分析では、あらかじめ活用目的を明確化し、目的にあわせて分析手法やツールを選ぶ事前の準備が必要になるとともに、近年はデータの取り扱いやプライバシー・セキュリティ保護に対する法規制が厳格になっているため、企業はこれまで以上に綿密なセキュリティ対策を求められています。

EAGLYSの秘密計算システムでは、従来の暗号化では実現できなかった「データ分析中」の暗号化も実現します。経営管理データや技術開発データ、顧客データ等の機密なデータの分析中に万が一攻撃を受けたとしても、生のデータを流出することなく計算処理できます。また、クラウド上で機密なデータをAI分析したい場合も、秘密計算技術で暗号化したまま分析することができます。

ビッグデータを安心して活用するためにもはや必須の対策となったデータセキュリティ対策とデータプライバシーの担保。秘密計算技術による安全なデータ収集や、暗号化したままでのデータ分析をご検討される際はぜひお問い合わせください。

お問い合わせはこちら

一覧に戻る