Data Marketing データマーケティングコラム
- データマーケティングコラム
BIにおけるデータの前処理とは?前処理の品質で分析結果への影響も
2021 / 07 / 09
今や様々な企業において、BIは経営判断に欠かせないツールになっています。BIを活用してデータを分析することで、自社の現状把握や課題抽出などに役立てられますが、分析するためにはデータの収集が不可欠です。そしてデータは収集して終わりではなく、BIで分析するために「前処理」を実施しなくてはなりません。今回は、BIにおけるデータの前処理について解説していきます。
BIの概要をおさらい
社内の様々なデータをグラフなどで可視化して分析し、現状把握や課題抽出に使われるツールがBI(Business Intelligence)です。昨今では、既に大手企業のBI導入率は8割以上に及ぶという調査結果もあり、企業での分析には欠かせない存在となっています。しかし、ただBIを導入しただけでは、現状把握や課題抽出ができるようにはなりません。スムーズに分析していくためにはデータの収集と前処理を実施していく必要があり、データの収集はもとより精度高く前処理をすることでBIの効率的な活用ができます。
BIにおけるデータの前処理が重要な理由
収集したデータに不適切なデータが含まれていた場合は、分析結果にずれが生じるだけでなく、場合によっては分析のやり直しなどによる追加の分析費用が発生します。一般的に採取したデータは、エラーや不要なデータ、欠損が存在するため、データの前処理では、これらのエラー・不要データ・欠損を修正していく必要があります。データ分析のフレームワークや自動化ツールは様々なものが開発されましたが、データの前処理は手作業のままであることが多く、かつ統計分析などの知識が必要です。
BIにおけるデータ前処理の内容とは
データの前処理は、データのクレンジングをした後にデータの変換・統合と進んでいきます。その内容をみていきましょう。データのクレンジング
クレンジングとはデータを綺麗にするための処理で、エラーや不要データ、欠損などが含まれたデータを分析可能な状態に整える工程で、データの前処理において重要度の高い作業です。データの一部を取り除いたり、中央値を取ったりと作業は複雑で、クレンジングの精度によってデータ分析に与える影響は非常に大きいものとなっています。クレンジングは依然として手作業で実施されることが多いですが、根気強く対応していかなくてはなりません。エラーや不要データ、欠損値などの具体例は以下のようなものです。
データのクレンジングが必要なエラーの例
・長さや温度において、単位が異なるデータがある・内容は同じだが、価格における円と\など、表記が異なっている
・株式会社、(株)、データの前後スペースの違い、姓名のスペース有無などの表記ゆれ
・一つのカラムに複数のデータが入っている
・文字コードやレコード長の違い
データのクレンジングが必要な不要データの例
・SNSから口コミ情報を集める際の、一般ユーザーの日常の書き込みなど・ある地点の気温だけを集める際の、湿度など他の情報
データのクレンジングが必要な欠損値の例
・データが入力間違いなどで不規則に欠損している・未入力の部門がある場合の決算データなど、欠損データに依存がある状態
データの変換・統合
クレンジングが完了したら、指定のフォーマットへ変換し、データを統合していきます。例えばSNSの口コミデータの場合、投稿者名と本文が同一カラムの場合と、投稿者名と本文が別カラムに分かれている場合とがあります。この場合、どちらかのフォーマットへ統合しなければ適切な分析ができません。統合が完了したデータは、新規項目の作成、グループ化、ダミー変数処理(データを0、1にフラグ化して数量的に解析できるようにする)など必要に応じて二次属性を付与して整理していきます。
これらのデータの変換・統合は、プログラミングを必要とする場合もあり、情報システム部門と事業部門が連携して対応しなければならない場合が多いでしょう。そしてデータの変換・統合は最初の一回で済まず、BIツールへデータを送る度に発生します。独自に開発したツールなどで前処理を定型化し、効率よく処理できるよう対応していくことが必須です。
適切なBIにおいてのデータ前処理を実施し効率的な分析を
BIを活用することでデータが可視化され、自社の現状把握や課題抽出などに役立てられますが、BIでデータを分析するためには、データ収集とデータ前処理が必要です。データの前処理とはエラーや不要なデータ、欠損などの解消と、データの変換・統合を指します。データの分析に関しては各社からツールがリリースされていますが、データの前処理は専門家によるアナログな対応に頼っていて、かつデータの前処理はデータをBIに取り込もうとする度に発生してしまいますので、前処理を定型化し効率化する必要があります。
データの前処理を効率的に実施し、素早く有効な分析に役立てていきましょう。