
データ整備の重要性
さっそくAIを活用して生産性向上のためのシステムツールを作ろうとしたときに、過去のデータの利用が必要不可欠になります。しかし、そんな過去データがきれいに整っていない場合にどうすればいいのか考えてみたいと思います。多くの企業がAI導入を検討する際、まず直面するのがこのデータ品質の問題です。完璧なデータセットを求めがちですが、実際には現実的なアプローチで進めることが成功への鍵となると私は考えています。
客観的視点の重要性
まず「何に使いたいデータなのか」を明確にしていきましょう。目的に応じて、必要なデータの「粒度・項目・量」が変わりますので、いつも扱っている部門ではない人が客観的に整理するのがいいかもしれません。例えば、生産管理の異常検知であればセンサーデータの時系列とアラート履歴が必要になり、顧客離反の予測であれば購買履歴と問い合わせ履歴が必要になります。このように具体的な用途を定めることで、収集すべきデータの方向性が見えてきます。
データの現状把握術
やりたいことを整理すれば、次に足りないデータなどが見えてくるはずです。このとき、データが重複していたり、欠損していたり、バラバラであったりというのは、ぜんぜんデータはあるものと考えていきます。形式としては、Excel、CSV、紙、システム内に点在などを把握して、データの棚卸を行います。完璧でないデータでも、適切な処理を施すことで価値ある情報源に変わります。重要なのは、現在持っているデータ資産の全体像を正確に把握することです。
ETLツール活用術
データの棚卸が終われば、データクレンジング(整備)の作業方針を立てていきます。手動で整えるのか、何らかのツールを使うのか検討が必要です。また、このツールはExtract(抽出)、Transform(変換)、Load(読み込み)の頭文字をとってETLツールと呼ばれています。Power Queryなどがその代表例です。作業量と精度のバランスを考慮し、コストパフォーマンスの高い整備方法を選択することが重要になります。自動化できる部分は積極的にツールを活用しましょう。
まとめ
データを整えていく途中で足りないデータが発見されることもあるでしょう。しかし、ここからがAIの使い様です。ファインチューニング(学習させていく)ことや、生成AIやRAG(Retrieval-Augmented Generation)を利用して補完するなどが考えられます。
アタラキシアDXの経験上、社内のデータは膨大で各社まったく違うものをデータ資産として持っています。データ資産を持っていない会社はないといっていいでしょう。正直なところ重要データも多く実績を公開することがままならないのですが、一つ言えることはまず、100点を目指さずに60点を目指し、工夫と知恵でAIを活用しながら、現場にフィットしたデータ資産に変えていくことが重要です。