いまロード中

AI-OCRもLLMも万能じゃない ― “Excel地獄”が残る理由

AI-OCRやLLMを入れたのに、最後はExcelで人が整えている──。
建設・製造・流通の現場で何度も見てきた“あるある”です。
原因は「AIの精度」よりも、現場の情報構造にあります。

1. よくある誤解と現実

誤解1: AI-OCRが正確に読めれば手作業は消える
現実: 読めてもどのマスタと結びつけるか(型番⇔メーカー、仕入先⇔正式名)で詰まる

誤解2: LLMに投げれば自動で整う
現実: LLMが推測した“それっぽい答え”は業務ルールの保証がない(監査・原価に不安)

誤解3: Excelは柔軟で便利だから残しておけばOK
現実: Excelは入力・命名・計算式が自由すぎて“例外スノーボール”を起こす


2. “Excel地獄”の典型症状(建設の見積・契約・予算)

  1. 非正規化の列
  • 「摘要」に仕様・例外・社内メモが全部入り
  • 行結合/セル結合で機械可読性ゼロ
  1. 名寄せできないマスタ
  • 「〇〇電設」「(有)〇〇電設」「〇〇電設(株)」が別会社扱い
  • 型番「A-123」「A123」「A‐123(全角ハイフン)」の表記ゆれ地獄
  1. 単位・数量のブレ
  • m / m(全角)/ m² / セット / 本 の混在
  • 端数処理や歩掛の社内ルールが暗黙知
  1. 版管理の迷子
  • 「見積v3_最終_藤井修正_確定(案).xlsx」…どれが最新?
  • 誰が、いつ、何を直したか監査不能

結果、AIが「読めた」あとに“人の判断”を呼び戻す構造が残る。
これがExcel地獄の正体です。


3. 技術的にどこで詰まるのか(分解して見る)

  • 文字認識(OCR):活字は高精度でも、スキャン品質/罫線つぶれ/押印/手書きで劣化
  • 構造復元:表の見出し・階層・小計の意味づけはルール化が必要
  • 正規化:全半角、ハイフン、スペース、単位、桁区切りを統一
  • エンティティ解決(名寄せ):仕入先名・型番・工種名を社内マスタに紐付け
  • 業務ルール適用:歩掛、社内原価、相当品可否、閾値アラートなど会社ごとの判断
  • 例外学習:人が直した痕跡を再利用できる仕組みがないと、毎回“初見作業”に逆戻り

精度95%でも、1日100行なら5行は例外
その5行が各社固有ルールに絡むと毎回、人の登板になります。


4. 解決アーキテクチャ:6層モデル

  1. Ingestion(取り込み)
     スキャン/PDF/メール添付/クラウド(SharePoint/Box…)を一元取込。命名規則とメタデータ付与。
  2. Parse(OCR/レイアウト解析)
     ページ単位→表構造→見出し/小計/脚注を抽出。セル結合の解除と階層の平坦化。
  3. Normalize(正規化)
     表記ゆれ・単位換算・全半角・ハイフン・数値書式を関数/辞書で機械的にまず揃える
  4. Resolve(名寄せ)
     仕入先名・メーカー・型番・工種を確率スコア付きで候補提示(fuzzy join)。
     人が選んだ結果を同義語辞書に継ぎ足す。
  5. Rules(業務ルール)
     歩掛、閾値、原価・相当品可否、承認経路を宣言的ルール(YAML/DSL)で管理。
     LLMは“提案”止まり、確定はルールが決める。
  6. HITL & Feedback(人の判断ログ化)
     人の修正を原子操作として記録(誰が・何に対し・どう直したか)。
     辞書/ルール/名寄せモデルへ自動還元して“二度目は起きない”を担保。

ポイントは、「人の判断」を一次データとして永続化すること。
YOZBOSHIでは14万件規模の判断ログを学習に回し、例外の再発率を継続的に下げます。


5. Excelの“正しい残し方”

  • DBが真実、Excelはビュー:真実は構造化DB/JSON。Excelは出力と承認のUIに限定
  • 入力はフォーム化:Excel直接入力をやめ、検証付きフォームで収集
  • 差分トラッキング:Excel 書き戻しはやめ、差分比較画面でレビュー・承認
  • 監査ログ:版管理をIDと履歴で。ファイル名運用は卒業

6. 60日導入ロードマップ(現実解)

Week 1–2|可視化

  • 代表的なExcel/見積PDFを収集、列定義・小計・脚注・例外を棚卸し
  • “例外の目録”を作る(名寄せ失敗例、単位ゆれ、承認戻り理由)

Week 3–4|辞書と正規化

  • 仕入先名・メーカー・型番の同義語辞書を初期投入
  • 単位変換と書式正規化ルールをコード化

Week 5–6|名寄せ+ルール

  • fuzzy join(候補3件+スコア)→人が1クリックで確定
  • 歩掛・原価・アラートのYAMLルールを実装、承認フロー接続

Week 7–8|HITL学習と運用化

  • 修正ログ→辞書/ルールへ自動反映のパイプライン
  • KPIダッシュボード:例外率、再発率、辞書ヒット率、承認リードタイム

7. KPI設計(ビフォー/アフターが見える化)

  • 例外率(人手が必要な行の割合)
  • 再発率(同タイプ例外の再出現/月)
  • 辞書ヒット率(名寄せが自動確定した比率)
  • 承認リードタイム(提出→確定までの時間)
  • Excel開封回数/件(“脱Excel”の体感指標)

まずは例外率▲30%・再発率▲50%を初期目標に。
“ゼロ例外”ではなく、“同じ例外を二度と起こさない”が現実的で強い。


8. 現場でそのまま使えるチェックリスト

  • 「摘要」に埋もれている業務判断を列に分離したか
  • 単位辞書(m/㎡/本/セット…)と換算ルールを定義したか
  • 同義語辞書に社内ニックネーム(略称)を含めたか
  • 名寄せ候補はスコアと根拠を併記しているか
  • 人の修正が自動で辞書/ルールに戻る仕組みになっているか
  • Excelは出力/承認ビューとして限定されているか

9. まとめ

AI-OCRもLLMも強力です。ただし“人の判断をどう再現し続けるか”を設計しない限り、Excel地獄は形を変えて残ります。
解は、正規化→名寄せ→ルール→判断ログの循環をつくること。
“例外が学習資産になる現場”へ、今日から移行しましょう。

Connected Baseのご紹介

「AI-OCR」「RPA」から
“LLM+人の判断”の再現へと移りつつあります。

Connected Base は、日々の見積書・請求書・報告書など、
人の判断を必要とする“あいまいな領域”を自動で処理し、
現場ごとのルールや判断のクセを学習していくAIプラットフォームです。

これまで人が時間をかけて行ってきた仕分けや確認を、
AIとルール設定だけで再現・蓄積・自動化。
単なる効率化ではなく、「判断の継承」まで含めたDXを実現します。

現場の知恵を未来につなぐ──
その第一歩を、Connected Baseとともに。

👉 https://connected-base.jp/

ベイカレントにてIT・業務改善・戦略領域のプロジェクトに従事。その後、株式会社ウフルにて新規事業開発を担当し、Wovn Technologiesでは顧客価値の最大化に取り組む。AIスタートアップの共同創業者としてCOOを務めた後、デジタルと人間の最適な融合がより良い社会につながるとの想いから、株式会社YOZBOSHIを設立。2022年2月より現職。

コメントを送信