ビジネスインテリジェンス(BI)ツール、AI(人工知能)などのデータ処理や分析は、様々な側面で利用が広がっています。
データ処理や分析をするには、利用するデータを用意しなければなりません。一方で、データには様々な種類や形式のものがあることはご存知の通りです。表計算ソフトやデータベースで整理されたテキスト形式のデータだけでなく、IoT機器から得られるセンサーデータ、工場の生産機器などが吐き出すログデータ、画像や映像のデータもありますし、問い合わせ窓口にかかってきた電話を録音した音声データなどもあります。データベースに記録された同じようなフォーマットのデータであっても、データ項目の定義の違いや表記の揺れがあります。
こうした多様なデータをデータ処理や分析のためのツールで活用できるように、収集して変換、加工する工程がデータプレパレーションです。
データ処理や分析をする際に、データ分析の結果から正しい意思決定をするためには、データプレパレーションは不可欠な工程です。分析に適していないフォーマットのデータは排除したり、再加工したりすることが必要です。
破損したデータや不正確なデータなどは、データクレンジングと呼ぶ手法で修正、排除します。分析に適したデータをきちんと準備することで、はじめて意味のある分析結果を得られます。
データプレパレーションは広義では、ここまででお伝えしたようなデータ分析の事前準備の全般を指します。
一方で、もう少し狭義では、IT部門でデータ分析のスキルを持った人だけでなく、ビジネス部門の現場で働くユーザーが自由にデータ分析をできるように、データを準備することを意味します。
データプレパレーションに似た作業に、IT部門などのシステム開発者がデータ分析をする際にデータを整理する「ETL」があります。ETLは「Extract:抽出」「Transform:変換」「Load:格納」の頭文字を取ったものです。
対象がシステム開発者であるため、ETLを実行してデータ分析をするには、プログラミングなどのITスキルが求められることが多くなります。
一方で、狭義のデータプレパレーションは現場のユーザーがBIツールやAIエンジンなどを活用して、ビジネスの意思決定に必要なデータ分析をするための準備工程になります。そのため、データプレパレーションでは直感的なGUI(グラフィカルユーザーインタフェース)を採用したツールにより、平易な方法でデータの加工、修正ができる仕組みが求められます。BIツールやETLツールには、直感的にデータプレパレーションを実現できる機能を用意しているものもあります。
IT部門に頼るデータ分析だけでなく、現場で有効な意思決定をするためのデータ分析を簡便に行うためには、狭義のデータプレパレーションを実現できるツールの導入が求められるでしょう。