いまロード中

ChatGPTもGeminiも読めない、“Excel罠”の正体

AIが「読めない」のではなく、そのExcelが“データではなく、見た目+暗黙ルールの塊”だから。
色・結合セル・複数ヘッダー・別タブ参照・独自略語・単位混在…が、AI/人間どちらにも誤読を生む。
解決は
物理(表構造)/意味(語彙)/判断(例外)の3層で設計し直すこと。最後に“人の判断ログ”を学習させて例外を潰す。

なぜLLMがExcelでつまずくのか

「貼れば読んでくれる」は幻想です。LLMは文章理解に強い一方、現場Excelは次のような暗黙の意味付けを多用します。

  • 色=意味(黄色=別途、赤=要確認 など)
  • 結合セル/段組みで階層表現(親工種/子明細)
  • 複数ヘッダー行+途中で列増減
  • セル内改行で複数値が混在
  • 別シート参照やVLOOKUP依存、外部リンク切れ
  • 合計行・小計行が明細と同じ表に混在
  • 単位・税込/税抜・通貨が列外(セル注記や色で表現)
  • 表記ブレ(型番/カタログ番号、会社名のゆらぎ、全角半角)
  • 社内方言・略語(“折込”“別紙”“一式”)

LLMにとっては“見た目ルール”が説明されていない未定義仕様。だから誤読・取りこぼし・二重計上が起きます。


典型的な失敗例と原因

  1. 数量×単位の誤解釈
     例:「12(m)」「12m」「12 m」が混在 → 列分割・正規化が必要。
  2. 小計・合計の二重計上
     合計行が明細と同じ列にある → 集計対象から除外フラグ必須。
  3. 親子階層の崩落
     結合セルで親工種、下に子明細 → 機械可読な階層キー列が必要。
  4. “別途/除外/値引”の判定漏れ
     色や注記だけで表現 → ルール列(別途区分・値引区分)を明示。
  5. 税込/税抜の混在
     行ごとに税扱いが違う → 税区分・税率の独立列+計算式を統一。
  6. 似た会社名の紐づけ間違い
     「(株)」「株式会社」表記、旧社名 → 正規化辞書+同義語辞書。
  7. 別タブ参照で欠落
     見積No.や得意先が別シート → マスタ化してJOIN前提に。
  8. “一式”の扱い
     数量・単価が空欄だが金額だけ → 集計除外 or 特殊カテゴリ化の判断ルール。
  9. 画像/PDF貼り付け
     セルに非テキスト → OCR→構造化の前処理が必要。
  10. 日時・通貨の地域設定地獄
     システム文化圏が混在 → ISO形式(YYYY-MM-DD, ISO通貨)へ統一。

解き方は「3層アーキテクチャ」

1) 物理層(表の形をデータにする)

  • 結合セル禁止、単一ヘッダー、列は意味1つだけ
  • 階層は列で表現(工種レベル1/2/3…)
  • 単位・税区分・通貨を独立列
  • 小計/合計は別テーブル(ファクトとサマリを分離)

2) 意味層(語彙・辞書を整える)

  • 会社名・型番・工種などの正規化辞書/同義語辞書
  • “折込/別途/除外/一式/仮設”など業界語の定義
  • 単位変換表(m↔mm、枚↔箱×入数…)と丸め規則

3) 判断層(例外・優先順位を学習)

  • 「この表現は〇〇扱い」「△△が空なら□□を見る」等のIF/優先順位
  • ベテランの勘所(“このメーカーはこの型番体系”など)をルール化しログ化
  • 実運用の修正履歴(判断ログ)を学習して精度を上げる

“今日からやめる”Excel作成ルール(現場チェックリスト)

  • 結合セルで階層表現しない(列で持つ)
  • 色に意味を持たせない(必ず列でフラグ化)
  • 複数ヘッダー行をやめ、1行に統一
  • 小計/合計は明細と別のテーブル or 列で区分
  • 単位・税・通貨は独立列に必ず記入
  • 別紙・備考依存をやめ、リンク先のキーを列で持つ
  • 表記ゆれ(全角/半角、(株)/株式会社)を避ける or 受入時に正規化
  • 画像/PDF貼り付けはしない(原本は別保管+キー連携)

正規化スキーマ例(見積明細)

見積番号, 行番号, 親行ID, 工種L1, 工種L2, 品目名,
型番, メーカー, 数量, 単位, 単価, 金額,
税区分, 税率, 通貨, 別途区分, 値引区分, 一式区分,
マスタ得意先ID, ソースファイルID, 備考

copy

※ “区分”は色や注記でなく列で表現。親子は親行IDで明示。


“プロンプトで無理やり読む”が失敗する理由

  • 見た目ルールが無限に増えるため、プロンプトが肥大化して維持不能
  • Excelの例外パターンは現場ごとに異なり、静的な指示では追いつかない
  • 一度きれいに物理・意味・判断を分離しておけば、再利用性と監査性が担保される

導入ステップ(最短ルート)

  1. 現状診断(Excel罠スキャン)
     結合セル・複数ヘッダー・色意味・単位混在を棚卸し
  2. 仕様化(ルール表&辞書作成)
     “別途は別テーブルへ”“一式は集計外”など判断優先順位を文書化
  3. 変換(パイプライン化)
     OCR→構造化→正規化→辞書置換→例外判定→出力
  4. 検収(差分チェック)
     旧Excel vs 正規化データの突合/差異レポート
  5. 運用・学習(判断ログの蓄積)
     修正をログ化→学習し、翌日には例外を潰す

現場ケース:建設バックオフィスの“最後の1割”

AI-OCRやLLMで8〜9割は読めても、“別途扱い”“一式”“仮設”“相見積の選定基準”など人の判断が残りがち。
ここを判断ログとして残し、次回以降は自動で同じ判断を再現できるかが生産性の分水嶺です。


まとめ:Excelを“読む”のではなく、“設計し直す”

  • 見た目依存→列で表す
  • 方言→辞書化
  • 例外→判断ログを学習
    この順で“Excel罠”は外れます。LLMは最後にきれいに整ったデータ推論・要約・照合をかけてこそ真価を発揮します。

付録:ルール記述ミニテンプレ(例)

# 列マッピング
工種階層:
  L1: A列
  L2: B列
区分:
  別途: セル背景=黄色 → 別途区分=1
  値引: 文字列に"値引"含む → 値引区分=1
単位:
  "m","m"," M " → "m"
税:
  "税込" → 税区分=税込, 税率=10%
集計:
  行タイトルが"小計","合計" → 集計区分=1, 集計対象外

copy

※ 最初は粗くてOK。運用で出る例外を追記していくことが肝。


(参考)Connected Baseの役割

  • AI-OCR+独自AIで抽出→正規化辞書置換
  • “人の判断ログ(例外処理)”を学習して翌日から自動再現
  • シート間・ファイル間の突合/差異検出税/単位の補正監査トレイルまで一気通貫

「どんなソフトを入れても、結局“人がExcelを整える”仕事が残る」
その“最後の1割”を、設計+ログ学習で消すのが近道です。


おまけ:10分セルフ診断(スプレッドシートでOK)
該当した数×10点

  • 結合セルがある
  • ヘッダーが2行以上
  • 色で意味を表している
  • 単位が列外(セル文字列)
  • 小計/合計が明細と同じ表
  • “一式”が金額に混在
  • 税込/税抜が混在
  • 会社名・型番に表記ゆれ
  • 別タブ参照が前提
  • 画像/PDFが貼られている

50点以上なら要再設計。
「設計し直してからAI」を合言葉に、“Excel罠”から抜け出しましょう。

現場Excelの“罠”を抜け出すには、設計の見直し+判断の仕組み化がカギ。 「どうやって自社で回せばいい?」 そんなときは、“人の判断ログ”までAIに学習させて例外処理ごと自動化する Connected Baseをぜひ試してみてください。

Connected Baseのご紹介

「AI-OCR」「RPA」から
“LLM+人の判断”の再現へと移りつつあります。

Connected Base は、日々の見積書・請求書・報告書など、
人の判断を必要とする“あいまいな領域”を自動で処理し、
現場ごとのルールや判断のクセを学習していくAIプラットフォームです。

これまで人が時間をかけて行ってきた仕分けや確認を、
AIとルール設定だけで再現・蓄積・自動化。
単なる効率化ではなく、「判断の継承」まで含めたDXを実現します。

現場の知恵を未来につなぐ──
その第一歩を、Connected Baseとともに。

👉 https://connected-base.jp/

ベイカレントにてIT・業務改善・戦略領域のプロジェクトに従事。その後、株式会社ウフルにて新規事業開発を担当し、Wovn Technologiesでは顧客価値の最大化に取り組む。AIスタートアップの共同創業者としてCOOを務めた後、デジタルと人間の最適な融合がより良い社会につながるとの想いから、株式会社YOZBOSHIを設立。2022年2月より現職。

コメントを送信