薄井研二

薄井研二

(写真:JLco Julia Amaral / shutterstock

無駄なデータ収集にコストをかけないために。「使えるデータ」を集めるプラクティス

データの民主化のためには、多くの人が効率よく安全にデータ分析できるように環境を整えていかなくてはなりません。ここではとくにロジスティクスについて目を向けてみましょう。

Updated by Kenji Usui on August, 25, 2023, 5:00 am JST

データを活用できている企業は、データの質にこだわる

さまざまな調査の結果、データを活用するにあたって分析者の多くがほとんどの労働時間をデータセットの構築や維持に費やしていることがわかっています。ロジスティクスと一言にいっても、データ分析においてどこからどこまでをロジスティクスと呼ぶのかは曖昧です。しかし明確に分析者の手間がかかっているポイントがあります。それは、使えるような形になったデータを構築し、維持する作業です。

ただ何も考えずに集めたデータを分析に使うことはできません。データは、分析に必要な情報を集めて、保存し、整理されて初めて使うことができるのです。ごく当たり前のことを言っているように聞こえるかもしれませんが、実際のところ、分析を意図した体制が整っていない企業のデータは、使える状態にないことがよくあります。データの抜けや漏れがあったり、更新されていないデータがあったり、いつどこで誰が変更したのかわからないような状態になっていたり……。質の低いデータから適切な意思決定を行うことは困難です。

データを活用できている企業は、質の高いデータを準備することに非常に多くの労力を割いています。データマネジメントを実施し、システムを整備することにコストをかけます。ビジネスの変化にともないデータ量は増え続け、構造はより複雑化しているからです。そしてそれほどまでに、データの質にこだわることには意味があります。

高品質なデータには5つの条件が揃っている

データを用いた意思決定を行うには、正しいデータが集められていることが大前提となります。当然ですが、正しくないデータから適切な意思決定をすることはできません。間違ったデータから得られるのは、不適切な意思決定だけです。

では、データの品質とはどのように定義すればよいのでしょうか?

ビジネスモデルや組織体制、システムの環境などは企業によって異なるため、必要とされる内容には違いはあります。とはいえ、基本的にに求められる枠組みはどこの企業でも大きな差はありません。ここでは、国際基準であるISOや日本政府の提供している評価基準からピックアップしてみます。

正確性
データの正しさです。データと実態に齟齬がない状態を目指します。例えば、CRMで顧客の名前や連絡先が間違っていたら正確なデータとはいえません。誤字脱字も問題になります。

完全性
抜けや漏れが少なく、分析のために必要なデータが存在することです。たとえば、入力が必須項目であるはずが空欄のまま保存されていたら、完全性に欠けたデータとなります。システム上の不備で一定期間のデータに抜けがあるような状態も避ける必要があるでしょう。

一貫性
データ同士の整合性です。データに矛盾があったりズレが存在したりすると、分析するために前処理が必要になるうえ、そもそもデータとしてどれを信用したらよいのかわかりません。たとえば、郵便番号と住所が違っていたら、どちらを信用すべきでしょうか?全角や半角、記号の表記ゆれなどは細かな差異のように見えますが、分析では重大な問題になりえます。

最新性
いつまでも古いままのデータでは、変化の激しいビジネスの現場では使い物になりません。定期的な更新が必要です。くわえて、更新の頻度も重要です。1日ごとの更新、1時間ごと、1分ごと、随時更新……と更新の頻度は高ければ高いほど優れているように見えますが、更新頻度が高いほど保守・運用コストも高くなります。

追跡可能性(トレーサビリティ)
データがどこからきて、どのような変更が起きたのか追跡できることです。たとえば売上ひとつとっても、請求書の発行段階を指すのか入金の段階を指すのかで差が生まれます。広告とECサイトでは更新頻度や対象とする範囲が違うため、どの数値を見ているのかわかる必要があります。CRMを使っていて入力後に変更されたとき、誰がどのように変更したのか追跡しなければ、データの信頼性に関わるでしょう。

データの品質を向上させるためのアクション

データの品質を向上させるには、どのようなアクションが必要なのでしょうか。実は、基本的なプラクティスは数多く存在します。プラクティスの実行だけで100点になるわけではありませんが、かなりの効果が期待できるでしょう。いくつか例を紹介しましょう。

データ入力を基本の業務フローに組み込む

データは業務の様々な場所から発生します。そして各々の業務フローは自分たちの事情に対して最適化されています。そのため、データの品質を改善するという目線から全体を設計しなおしていくことがまず必要になります。

たとえば「CRMのデータに抜けや漏れが多い」という問題があり、原因が入力する時間を取ることができないことにあるとしたら、業務フローとして入力する時間を確保していく必要があります。場合によってはチーム内で確認しあうようなフローも取り入れるとよいでしょう。品質の高いデータを入力することを業務の1工程として組み込むのです。このようにして、データ品質の問題を解決できるような業務フローを構築していきます。

業務フローの更新とともに、システムも変えていく必要があるかもしれません。現場の業務を効率化しつつ、データ分析のために品質を高められるようなツールへと変更できるといいでしょう。このときのシステムには、求められるデータを入力できることはもちろん、サービス同士の連携や統制、追跡がしやすいツールを選ぶ必要があります。

既存の業務フローやシステムを変えることは簡単ではありません。慣れた方法を変えることはそれだけでもストレスがかかりますし、フローを変更したせいで生産性が低下してしまっては意味がありません。現場のメンバーに悪い影響を与えないように要件を整理したうえで、スムーズに移行していけるように進める必要があります。

ヒューマンエラーは「起きるもの」と考える

データの品質を向上させるためには、やはり入り口であるデータを入力するシーンで改善することが最も効果的です。データの品質を低下させる要因の多くは、人間による手入力です。アンケートやプロフィール、CRMなどは人間がデータを作成します。このような状況下で正確性をあげるために人間が監視して品質を上げる方法は、実質的に不可能でしょう。

システマティックな対策として、入力できる値を制限して統制する方法があります。顧客情報を表計算ソフトに直接入力しているような組織も少なくないでしょう。入力フォームを使うことでデータ入力を統制するのは定番の解決方法です。郵便番号のように入力された値が一定のフォーマットであることが期待できるなら、自動でチェックする機能も役に立ちます。

「注意深く入力すればミスを減らすことができる」と考える人は少なくありません。しかし実際のところ、人間の注意力は有限であり、ミスを減らすことには限界があります。誤字・脱字、数字や記号の半角・全角のゆれなどは、注意していても気がつけないものです。機械的に解決できるものであれば、可能な限りそのような手段で解決していくことが望ましいでしょう。分析する側からしてみても「半角と全角の揺れがないように気をつけて入力している」というデータでは常に集計漏れの不安が残りますが「システム側で数字を常に半角にしている」というデータであれば安心して分析が進められます。

どんなデータを集めたいのかを明らかにする

データを集める意図が明確に言語化されていないと、入力される情報が曖昧になり、内容にブレが生じます。表記ゆれや入力の矛盾、不整合についても、そもそも定義が曖昧なために認識が一致できていないということがあります。たとえば顧客情報を入力する際に「連絡先」という項目名だけでは、メールアドレスを入れる人と電話番号を入れる人、どちらがいてもおかしくありません。定義を明確にし、期待する入力をわかりやすくすることが必要です。

定義とはいつ、どこで、誰が、なにを、どうやって入力するのか明確にすることです。たとえば、お客様とアポイントが取れたことをCRMに保存している場合、どの段階で「アポイントが決まった」と定義するのかは人によってブレがあります。口頭、メール、日程が決まる.……など段階によって確度が違いますので、分析する際にこの違いは重要です。定義として明確にしておくべきでしょう。

定義を整理し言語化することはデータの品質を高めるだけでなく、その後の分析の効率化にも貢献します。分析では、集めたデータがそれぞれどのような背景で集められたデータなのか解釈をしながら進めることになります。その際に、それぞれのデータの定義が明確になっていることは有用です。

データの品質を高めるのは「組織」

データの品質を高めるための手法や戦略のプラクティスは多くありますが、これらは一度実施して終わるのではなく、継続した取り組んでいくことが大切です。そのためには、データの品質を改善することを組織として推進していかなければいけません。

データを入力する部門がシステムや業務フローを改善するためには、その部門や事業部の協力が必要になります。そのためには、データの品質についてオーナーシップの一端をその部門が持たなければいけません。責任を持たなければ、いつまでも他人事です。データを軸とした改革を進めるためには、データ分析者と事業の責任者の両方が責任を持つべきです。

現場からしたら、データのことは分析チーム側で解決してほしいと思っているでしょう。逆に、分析側はデータは現場で発生するから現場に対応してほしいと考えているでしょう。これはどちらが正しいなどと議論することに意味はありません。対立するのではなく、歩み寄って問題を解決していく必要があるのです。

高い品質のデータを集めることはより良い意思決定に繋がり、ひいては組織全体への影響を与えます。データの品質改善はデータ分析部門だけの問題ではありません。会社のすべての人が関わる問題なのです。多くのステークホルダーがいるなかで、うまく利害を調整しながら前進していく必要があります。そのような組織を作ることもまた、データ活用のためのデータマネジメントといえるでしょう。