データマイニング
●データマイニングとは
今後、データウェアハウスの出現で大量のデータが時系列的に格納可能となることにより、不動産の証券化に伴うキャッシュフロー予測やリスク分析に金融工学とともにデータマイニングが活用されるシーンが予測されるため今回はデータマイニングにつき概要を述べる。
データマイニングとは、データの中に潜んでいる価値ある情報を掘り出すことを目的とした大規模データに対応可能な先端的データ処理技術である。つまりコンピュータに蓄積されたデータウェアハウスと呼ばれる膨大なデータの中から、傾向やルールを見つけ出すこと。マイニングは、データの山からビジネスの鉱脈を探すといった意味である。
90年代中頃にデータマイニングという言葉が出始め、企業でも徐々に取り組むようになり、SAS社やSPSS社などの統計や解析の専門企業はデータマイニングをキーワードに活動範囲を広げ、IBMや日立などのメーカーも動き始めた。データを多面的に分析する多次元分析は、OLAPというツールを使い月の売上と商品の関係、各営業所ごとの月別の特定商品売上など多角的な分析をするが、データマイニングはより高次元の情報分析をする。
●データマイニングが注目され始めた背景
データマイニングが注目され始めた背景は、基幹システムの確立により企業内に精度の良い取引データ、マスタデータが大量に蓄積されるようになったが、大量すぎるデータから本当にビジネスに役立つ情報を人手で取り出すことはOLAPや検索技術のみではもはや限界であると分かつてきたこと、そして、マシンの性能やデータマイニングツールの機能充実により、機械学習・自動学習の適用がにわかに現実味を帯びてきたことがその理由である。
●利用の現状
流通業界のバスケット分析やクロスセリング分析、エリアマーケティング、金融業界ではリスク分析やポートフォリオ分析、通信業界では、ターゲットマーケティングや通話分析、製造業や、化学・遺伝子工学などにおけるテクニカル・データの分析などである。
膨大なデータを保存できるデータウェアハウスを使うと、たとえば何月何日、何時に、顧客がコーラとハンバーグを併せ買いしたなどのPOSのデータを細かく格納できる。多岐、細部にわたるデータを全部格納するとデータが膨大になり、データ間の規則性の解析は困難になるが、統計学などを使ったデータマイニングを使いスーパーやコンビニの販売データを分析すれば、併せ買いなどの商品相関が分かり、これらの商品配置を工夫し商品売上を増加できる。保険会社が医療機関の特性や過去の請求パターンの中から、どのような特徴をもった医療機関が医療保険請求の不正悪用をするのかを発見できる。財務データから倒産確率を算出し、企業の評価や融資のための情報を得ることができ、融資のリスクを最小化する。年齢、年収、職業、購買動向などの顧客属性データを蓄積し、クレジットカードの利用明細、銀行口座の利用状況を分析して金融商品の開発に利用する。
現在のビジネス・シーンにおいて有効な意思決定を可能にするには、膨大なデータを迅速、正確に分析し、得られたビジネス・ナレッジを活かした企業展開が必須となっている。
●データマイニングの課題
ただデータマイニングは課題もある。利用可能なツールが断片的な機能を提供するに留まっていることがビジネス適用での成功を難しくしている。現在、各社各様の解釈、実装がなされ、コンセプトも機能も価格も様々な「データマイニングツール」が存在しているが1つでビジネス適用すべてを担えるツールは存在しない。現時点ではバスケット分析や確率論に代表される相関の高い組み合わせを求めたり決定木のように統計的な予測を求めるという域を超えていないとも言われる。
■関連記事
IT革命がもたらすモノ