分析前に必須!データのお掃除術をやさしく解説
2026/01/29
今回は、誰でも簡単にできる「データのお掃除術」を具体的にご紹介します。
毎日入力して蓄積したデータや、複数の人から集めたデータが、最初から「きれい」であることは珍しいです。
データがうまくまとまらない原因は、目には見えにくい「データの汚れ」にあります。
きれいなデータでないと正しく分析ができません。
データのお掃除は地味ですが最も重要な作業です。
【なぜ「お掃除」が必要なのか?】
コンピュータは非常に賢い反面、少しでも表記が違うと「全く別のモノ」と認識してしまいます。
例えば「(株)サンプル」と「株式会社サンプル」は、人間には同じ会社に見えますが、コンピュータは別々の会社として集計してしまいます。
これでは、正しい分析結果は得られません。
表記揺れなどの「データの汚れ」を分析の前に掃除するのが重要です。
【3つの代表的な「データの汚れ」とお掃除術】
実務でよく遭遇する「3つの汚れ」と、Excelなどで使える具体的なお掃除術を紹介します。
①見えない敵:「スペース」
・汚れ:不要なスペースが入っている。
「田中 太郎」と「田中太郎」が混在している。
・問題点:VLOOKUPなどで参照がうまくいかず、エラー(#N/A)の原因になります。
・お掃除術:TRIM(トリム)関数=TRIM(セル) と入力するだけで、セル前後の不要なスペースと、単語間の余分なスペースを削除してくれます。元のデータの横に作業列を作って一括変換するのがお勧めです。
②最大の敵:「表記揺れ」
・汚れ:同じものを指すのに、表記が統一されていない状態です。
(例:「(株) / 株式会社」、「ハイフンの全角 / 半角」、「営業1課 / 営業一課」)
・問題点: ピボットテーブルなどで集計した際、同じグループがバラバラに集計されます。
・お掃除術:検索と置換
検索と置換: Ctrl + H でダイアログを開き、一括修正すると便利です。
③分析を狂わせる:「重複データ」
・汚れ: 同じ注文データが2重に入力されている、同じ顧客が2回登録されているなど。
・問題点: 売上や件数を「2倍」で集計してしまい、分析結果を大きく見誤る原因となります。
・お掃除術:Excelやスプレッドシートの「重複の削除」機能 データ範囲を選択し、データタブから「重複の削除」を選びます。(スプレッドシートでは「データ > データのクリーンアップ > 重複を削除」)
【「お掃除」こそが、分析への一番の近道】
データのお掃除は、地味で面倒な作業です。
しかし「お掃除」をしっかり行うことで、その後の集計や分析がスムーズに進みます。
分析は「きれいなデータ」という土台があってこそ成り立つものです。
まずは、手元のデータに「スペース」「表記揺れ」「重複」が隠れていないか、チェックしてみてください。
----------------------------------------------------------------------
シンクインク株式会社
〒650-0003
兵庫県神戸市中央区山本通2丁目13番15号 WALLSQUARE北野坂
電話番号 : 070-8977-1172
兵庫で効果のある業務効率化
----------------------------------------------------------------------
