AIに何を任せ、人間がどこを判断するか ── AI量産で失敗した後に作った、BtoB記事制作のルール

プロレクト代表の武田です。

連載 4 本目になりました。これまで書いてきた話を、ひと言で振り返ると次のようになります。

第1弾「転落編」：AI で記事を量産して、検索流入が 63% 落ちた 失敗
第2弾「止血編」：用語辞典 33 本 + AI Overviews に飲まれた 5 本を noindex で外した 話
第3弾「再構築編」：次に作る記事の 判断軸を作り直した 話

第4弾の本記事は、ここまでの試行錯誤を踏まえて、「AI に何を任せ、人間がどこを判断するか」 を、現時点の仮ルールブックとして整理する回です。

最初に断っておきたいのは、本記事は AI 活用ノウハウ記事ではない ということです。「AI で記事を効率化する方法」「ChatGPT で SEO 記事を書くコツ」のような話を書くつもりはありません。

むしろ書きたいのは、その逆です。AI を使っても、記事の責任は人間側に残る ── 第1弾の失敗から第3弾の再構築までで、いちばん強く感じたのはこの感覚でした。

AI を本格的に記事制作に使い始めた時、正直、かなりの手応えがありました。構成のたたき台はすぐ出てきますし、一般論の整理も AI のほうが速い。1 本書くのに 1 週間かかっていた作業が、企画から下書きまで 1-2 日で進むようになりました。

ただ、速くなった分、ある違和感も少しずつ出てきました。速く作れることと、出す意味があることは、別の問題だった ── という気づきです。

この違いに気づくまでには、少し時間がかかりました。1 本ずつのクオリティを上げるルートで走っていた間は、サイト全体の主張が薄まっていることに、なかなか目が向かない。第1弾「63% 落ちた」が観測された時点で、ようやくこの違和感が 構造的な問題 として像を結び始めた、という順序でした。

AI を使ったことが問題だったのではない

第1弾で書いたように、私たちは過去に AI で記事を量産し、結果として検索流入を大きく落としました。「AI で記事を作ったから失敗した」とまとめれば、話は短くなります。

ただ、失敗の中身を 1 年近くかけて振り返ってみて、結論として残ったのは少し違うものでした。

問題だったのは、AI を使ったこと自体ではなく、AI に任せる前に人間が判断すべきことを決めないまま、量産を進めていたこと です。

具体的には、次のような問いが、量産の前にも途中にも、ほぼ言語化されていませんでした。

この記事は、誰のどの検討段階に向けて作るのか
この記事を読んだ人に、サイトの中でどこに進んでほしいのか
この記事は、検索流入を取りに行くものか、受注導線上で必要なものか
この記事の本文を読まないと得られない情報は、何か

これらが決まらないまま、AI で見出しを作り、本文を膨らませ、画像を生成し、公開する ── という流れを回していました。1 本ずつの記事のクオリティは、それなりに見えていた。ただ、サイト全体としての主張がぼやけ、検討プロセスの中で果たせる役割も曖昧になりました。

第1弾で書いた失敗の本質は、結局ここに集約されます。

「記事単体ではよく作れていたが、サイト全体としてどんな役割の記事をどれだけ揃えるべきかの設計がなかった」

AI を使った/使わなかったは、結果の振れ幅を変える要因ではあっても、根本原因ではありませんでした。判断軸が薄い状態で AI を使うと、薄いコンテンツが速く大量に出来上がる。それだけのことだったと、いまは思っています。

AI に任せると速くなるが、速く間違えることもある

AI を使うと、記事制作のスピードは間違いなく上がります。実際、本連載の第1-3弾は、それぞれ 10,000-12,000 字の記事を、企画から公開まで 1-3 日 で出せました。AI 抜きでは、おそらく 1 本に 1-2 週間かかっていたと思います。

ここまでは、よく聞く「AI で記事制作が速くなりました」の話です。

ただ、量産で失敗した側の経験から付け加えるなら、速くなるということは、間違いも速く積み上がるということ でもありました。

判断軸が決まっていない状態で AI を使うと、たとえば次のようなことが起こります。

検討段階を決めないまま、似たような「○○とは」記事が短期間で何本も並ぶ
読者の動き方を設計しないまま、CTA だけ揃った記事が量産される
サイトの主張を確認しないまま、流入を取れそうなテーマで埋まっていく
公開前の「これは本当に出す意味があるか」のチェックを、速さに押し流される

どれも、1 本ずつだけ見れば、それほど大きな間違いには見えません。ただ、サイト全体として積み重なると、後で大きな修正が必要になる方向にズレていきます。私たちの場合、それが第1弾「63% 落ちた」と、第2弾「38 本を一気に外した」につながりました。

気づいたのは、Search Console の期間比較を開いた時でした。

落ちていたのは、1 本の記事ではなく、ある時期にまとめて作った記事群でした。同じ型・同じトーン・同じ粒度で量産した記事が、揃って同じカーブで下がっていく。1 本ずつの問題ではなく、同じ型の記事を増やしてしまった構造の問題 として、グラフではっきり見えた瞬間でした。

AI で速く作れるようになった分、間違った方向にも、同じスピードで進んでいた ── そう認めるしかありませんでした。

正直、数字を見る前から、書き手としての違和感の予感はあったはずです。「またこの構成か」「またこのテーマか」と思いながら書いていた瞬間が、確かにあった。ただ、当時の私はそれを書き手の慣れとして処理して、「速く作れること」のほうを優先してしまっていた のだと思います。

その違和感の正体が、グラフで構造的に見えた時にようやくはっきりしました。速く作れることと、出す意味があることは、別の問題だった ── 書き手としていちばん認めたくなかった気づきです。

ここで誤解を避けたいのは、AI のスピードが悪いのではない ということです。スピード自体は、判断軸が揃っていれば、強力な味方になります。問題は、判断軸が揃う前にスピードを優先したこと でした。

これが、第4弾でルールブックとして残しておきたい一番の前提です。

AI に任せてよいこと

AI を使わない方がよい、という話ではありません。むしろ、ここまでの連載を書いてきて改めて感じるのは、AI に任せたほうが速くて正確な領域がはっきりある ことでした。

ただし、第4弾でルール化するうえで強調しておきたいのは、「AI に任せた作業」と「人間が決めた判断」は、いつもセットで存在する ということです。AI に任せられたから人間が楽になった、ではなく、AI に任せたから人間は「判断」のほうに集中できた、という関係でした。

連載 3 本の制作で、実際に AI に任せた領域と、その上で人間が決めたことを、ペアで並べると次のようになります。

棚卸しと集計

AI に任せた：第2弾の noindex 対象 38 本のメタ情報取得（タイトル・URL・カテゴリ・文字数）、第3弾の 286 本棚卸し（38 本除外して 248 本に集計、役割別に機械分類）、第2弾 H2-4 の GSC 数値（6 日後の推移を CSV から集計）
ただし、人間が判断した：第2弾で「何を残し / 何を外すか」、第3弾で「機械分類による粗い棚卸し」という注釈を付けるかどうか、GSC データを「pre 6 日換算 vs post 6 日実測」の比較ロジックでどう提示するか

→ 1 本ずつ手で確認する集計は AI のほうが速くて正確でした。ただし、出てきた数字をどう本文に載せるかは、別の判断でした。

構成と初稿

AI に任せた：第1-3弾の H2 構成案の初稿、各章の論述ロジックのたたき台、一般論パートの下書き、表記揺れの調整
ただし、人間が判断した：各章の役割と順番（第3弾で「H2-3〜H2-5 の論理展開は自然か」を 2 回調整したのは人間判断）、実体験パートをどこに入れるか、比較表のどの行を出し / 削るか

→ 「何を書くか」が決まっている前提で、「どう書くか」のたたき台は AI のほうが速い。ただし、その記事の役割に合わせて削る・並べ替えるのは、人間側に残る作業でした。

抜け漏れ確認と整合性チェック

AI に任せた：「ここまで書いてきて、この章だけ抜けている」「第2弾と矛盾している」のような客観視点の指摘、公開前のメタ情報や Stat 数値の整合性確認、表現ルール（NG ワード）への準拠チェック
ただし、人間が判断した：指摘を受け入れて修正するか、あえて別の方向に進むか（第3弾の H2-3「二項対立感」の調整は、AI の指摘を受けて人間が方向を決めた例）

→ AI の客観指摘は、品質を均一に保つうえで意外と効きました。ただし、最終的にどう書き直すかは人間判断でした。

これらに共通しているのは、「整理・集計・指摘までは AI が、その上で『どう載せるか / どう書き直すか』は人間が」 という構造です。AI を使ったから人間の判断が要らなくなった、ではなく、判断が要らない作業を AI に渡せたから、人間は本当に判断すべきところに集中できた ── そういう順序でした。

AI に任せてはいけないこと

ここまでの話だけだと、「AI 活用法の記事」と変わらなくなります。第4弾で本当に書きたいのは、ここから先 ── AI に任せてはいけない領域 をどう線引きしているかです。

第1-3弾を通して、はっきり「ここは AI に渡してはいけない」と感じたのは、次の 4 つの領域でした。いずれも、連載 3 本の制作で実際に判断したシーンを引きながら整理します。

1. テーマ・役割を決める判断

「この記事は、なぜ今書くのか」「誰のどの検討段階に向けた記事なのか」「サイト全体としてどんな位置づけか」── ここは事業の方向性と直結する判断で、AI に渡せませんでした。

たとえば第3弾の企画段階では、「AI 量産失敗からの再構築の話を、いつ、どんな切り口で書くか」を決める必要がありました。AI 側からは複数の切り口（具体的な手順記事、フレームワーク解説、業界向けノウハウ等）が提案されましたが、「再構築編は『完成された制作プロセスの紹介』ではなく『止血後に判断軸を作り直した話』として書く」 という方向は、武田さんが事業の現在地と照らして決めた判断でした。

AI は切り口の選択肢を整理できますが、「この記事をなぜ今書くのか」までは答えられません。答えても、その答えに責任を持つのは人間側です。

2. 開示の境界を決める判断

「どの失敗を、どこまで書くか」「社内議論や顧客名は、どこまで出してよいか」「『恥ずかしい』『怖い』『迷った』のような感情を、記事に出すか」── ここは、書き手としての覚悟の領域です。

第2弾の「捨てる怖さ」「自分の中の執着」を書いたのは、当初の骨子には入っていませんでした。書きながら、ここが第2弾の核になると気づいて、人間が書き加えた 部分です。第3弾の「焦りはあった」「サイトの存在感が薄くなっていく気がした」も同じ。

これらは AI には書けません。自分が何を恥ずかしいと感じ、何を怖いと感じたかは、AI には判断できない領域 だからです。

3. 数字の意味づけ・解釈

数字を集計することは AI が得意です。しかし、その数字を読者にどう提示するか は、人間が責任を持つ領域でした。

第3弾 H2-2 で出した「286 → 248 本」「情報収集 100 本（40%）」「社内検討・発注判断 14 本（5.6%）」は、AI が集計した数字です。AI からの初稿には注釈なしで提示する選択肢もありました。ただ、この分類はタイトルからの 機械分類 で、厳密な読者行動データではない。注釈を付けずに出すと、読者が「精密な集計」として受け取って、後でブレた時に説得力を失います。

判断は、「※ 分類は記事タイトルやテーマに含まれるキーワードをもとにした大まかな棚卸しです」という注釈を入れることでした。集計の精度をどこまで担保するか、断定をどこで止めるかは、人間が責任を持つ領域 です。

4. 公開可否・タイミングの判断

「この記事は、本当に公開してよいか」「言い切りすぎている表現はないか」「公開後の反応に対して、責任を持てるか」── 公開ボタンを押すのは、いつも人間の判断です。

第3弾の公開日が、当初の 5/19 から 5/18 に動いたのは、AI の集計や提案で決まったことではありません。連投感と読者の消化時間のバランスを、武田さんが事業の現状から判断した 結果でした。

AI が「公開しても問題なさそうです」と言っても、その判断の責任を AI は引き受けません。最終的な「出す / 止める」は、書き手が腹を据えて決める領域です。

これら 4 つに共通しているのは、「正解が事前にはっきりしておらず、判断と責任が一体になっている」 領域である、ということです。整理や下書きが速くなっても、ここを AI に投げると、サイト全体の主張がぼやけ、後で大きな修正が必要になります。第1弾の失敗は、結局この境界を引き直す経験 でもありました。

第1-3弾で、実際にどう分担したか

抽象的に書いてきた分担を、ここからは 第1-3弾の制作プロセスそのもの で具体化します。本連載は、AI（Claude Code）と私の分担で実際に書いてきました。その中で、AI に任せた作業と、人間が判断した作業を、いくつかピックアップして書きます。

AI（Claude）に任せたこと

GSC データの集計：第1弾で出した「直近 3ヶ月と 6ヶ月前」の比較、第2弾の「6 日後の数値推移」、第3弾の「役割別 286 → 248 本」の集計は、いずれも AI が CSV を整理してくれました
記事一覧の棚卸し：第2弾の noindex 対象 38 本のメタ情報取得、第3弾の役割別分類は、機械的にできる範囲を AI に任せました
構成のたたき台：第1-3弾とも、H2 構成案は AI が初稿を作り、人間が役割を調整しました
論点の抜け漏れ確認：「ここまで書いてきて、この章だけ抜けています」「第2弾と矛盾しています」のような指摘は、AI のほうが正確に拾ってくれます
OG 画像・hero 画像の生成・最適化：パイプラインができてからは、ほぼ AI 側で完結しています

人間（私）が判断した、4 つの具体例

抽象的に書いてもピンと来ない部分なので、連載 3 本の制作中に実際に判断したシーン を、4 つ詳しく書きます。

例 1：第1弾で「63% 落ちた」という数字をどこまで出すか決めた

実は連載で最初に判断したのは、第1弾の企画段階での、「自社メディアの失敗を、どこまで数字付きで出すか」 でした。

第1弾の核となる数字は「検索流入が 63% 落ちた」です。社内で量産失敗を振り返るところまでは、すでにできていました。ただ、それを 対外的な記事として、固有の下落率付きで開示する ことには、正直、抵抗がありました。

私たちは BtoB マーケティングを支援する立場です。自社メディアでこういう失敗をしている、しかも具体的な数字付きで開示する記事を出すことは、それなりの覚悟が必要でした。

ただ、書きながら気づいたのは、ここを曖昧にすると、結局のところ単なる「AI 記事量産のリスク」一般論記事になる ということでした。「63%」という固有の数字と、その背景にあった判断ミスを出して初めて、「自分たちの現場で起きたこと」として読んでもらえる。

AI は構成を整え、論点の抜け漏れを確認することはできます。ただ、「どこまで失敗を出すか」は、人間が決めるしかなかった 領域でした。連載全体の方向性は、第1弾のこの判断でほぼ決まったと思っています。

例 2：第2弾で「実コード snippet を載せるか」を決めた

第2弾の H2-3「noindex 実装の実務」で、Code Snippets プラグインの実コード（PHP の wp_robots フィルタ）を載せるかどうかは、書きながら判断する余地が残った場所でした。

AI 側からは、「実装の再現性を高めるためにコード掲載も選択肢」という提案が出ました。コードを載せれば、同じ運用を検討している他社が、すぐに真似できる形になります。

ただ、第2弾の主役は WordPress 実装の Tips ではなく、「捨てる判断のプロセス」と「対象 ID を一元管理できる運用にした」という判断・運用視点 でした。コードを詳しく載せると、読者の意識が「どう実装するか」に引っ張られて、主役の話がぼやけます。

判断は、「実コードは省略、概要のみ」でした。これは、AI が出した情報をそのまま厚くするのではなく、記事の主題に合わせて削る 方向の判断です。

例 3：第3弾で「GSC 初動データを入れるか」を決めた

第3弾を書いていた時点で、第2弾の公開から 6 日後の GSC 数値は手元にありました（実は第2弾 H2-4 にすでに入れている数値です）。第3弾の H2-4「AI Overviews に飲まれにくい記事」でも、この数値を「実例」として入れる選択肢はありました。

ただ、第3弾の主題は「初動検証」ではなく、「次に作る記事の判断軸をどう作り直したか」 でした。さらに、公開直後の数字は、その後 1 週間で大きくブレる可能性があります。

判断は、「GSC 実数値は使わず、記事の性質ベースで整理する」でした。第1弾・第2弾・ホワイトペーパー記事を「代替されにくい記事の構造」として扱う方向です。

これは、数字を出せるから出す、ではなく、記事の役割に合うかで判断した 例です。AI 側で集計はできても、その数値を本文にどう載せるかは、記事の主題と相談する人間側の領域でした。

例 4：第3弾 H2-2 の棚卸し数値に注釈を入れた

第3弾 H2-2 で出した「286 → 248 本」「情報収集 100 本（40%）」「社内検討・発注判断 14 本（5.6%）」の数値は、すべて AI が集計したものです。AI からの初稿には、注釈なしで提示する選択肢もありました。

ただ、この分類はタイトルやテーマに含まれるキーワードをもとにした 機械分類 で、厳密な読者行動データではありません。注釈を付けずに出すと、読者が「精密な集計」として受け取って、後でブレた時に説得力を失います。

判断は、「※ 分類は記事タイトルやテーマに含まれるキーワードをもとにした大まかな棚卸しです。厳密な読者行動データではありませんが、サイト全体の偏りを見るには十分な粒度だと判断しました」という注釈を入れることでした。

これは、AI に集計させた数字をそのまま断定せず、人間が意味づけと表現の責任を持った 例です。

連載 3 本を通して見えた分担の手触り

3 本の記事を書き終わって、改めて分担の輪郭を確認すると、次のように整理できました。

AI は「整理と再構成の道具」として強い。本連載の制作スピード（1 本 1-3 日）は、AI 抜きでは出せませんでした
人間は「判断と覚悟の主体」として残る。何を出すか、どこまで踏み込むか、いつ公開するかは、いつも自分で決めていました
境界はぶれる。「これは AI に任せていい」と思っていた領域でも、書きながら「ここは人間が決める」と引き直すことが、何度もありました

3 本分の手触りを踏まえて、次の章で 仮ルールブック として整理します。

プロレクトの仮ルールブック

ここまでの分担を、現時点の仮ルールブックとして整理します。「仮」と付けているのは、まだ運用 2-3 ヶ月程度で、これがベストかは未確定だから です。それでも、第1-3弾を書き終わった時点で、社内で言葉にしておきたいルールはあります。

前提となる運用方針

ルールの個別項目に入る前に、土台となる運用方針を 1 つ：

AI には、整理・比較・抜け漏れ確認・たたき台作成を任せる。人間は、判断・責任・固有体験の言語化を担う。

これは「ルール」というより、第1-3弾を書いて見えてきた 役割分担の輪郭 です。以下の 7 つのルールは、この方針を実務に落とすうえで、特に外したくない線を言語化したものです。

7 つのルール

AI に記事テーマを決めさせない なぜ今その記事を書くかは、事業の方針から人間が決める
AI に読者の検討段階を決めさせない 誰のどのフェーズに向けて書くかは、事業の理解と直結する
AI に公開可否を判断させない 最終的に公開ボタンを押すのは、責任を持てる人間
AI に失敗の開示範囲を決めさせない どこまで出すか、何を伏せるかは、書き手としての覚悟の領域
数字は AI に集計させても、意味づけは人間が行う 注釈・断定の度合い・期間や母集団の明示は、人間側で決める
一般論だけで成立する記事は、公開前に止める 本文を読まないと得られない情報があるかを、企画段階で確認する
AI で速く作れる記事ほど、出す意味を人間が確認する スピードが上がるほど、判断のステップを飛ばしやすいからこそ、立ち止まる

このルールは、運用しながら更新する前提です。第5弾「定点観測編」の頃には、いくつか修正が入っているかもしれません。

まだ試行中のこと

第3弾でも書きましたが、本連載は「完成した制作プロセスの紹介」ではなく、「現在進行形の試行錯誤」を書くシリーズです。第4弾でルールブックとして整理したものも、当然、未確定の問いを抱えています。

本記事の時点で答えが出ていない問いを、5 つ書いておきます。いずれも、第5弾「定点観測編」で第1-3弾の数値結果と合わせて再検証する予定 のものです。

AI と人間の分担ルールは、記事品質に本当に効くのか 本記事で 7 ルールにまとめたが、これが守られた記事と守られなかった記事で、読者反応や商談化に差が出るかどうかは、まだ検証段階。第5弾で連載 5 本の数値と並べて検討する
AI Overviews に代替されにくい記事は、実際にクリックや読了につながるのか 第3弾で「代替されにくい構造」の仮説を立てたが、その仮説通りに本連載がクリックや読了で実績を残せるかは、公開後の GSC・読了率・スクロール深度のデータを見ないと判断できない
社内検討・発注判断向けの記事は、商談化にどう効くのか 検索流入では測れない領域。問い合わせまでの読まれ方や、商談中に引用されるシーンを観測しないと効果が見えない。計測設計そのものが、これからの課題
AI で速く作った記事と、人間の判断を厚く入れた記事で、成果に差は出るのか 本連載は「AI に整理を任せて、人間が判断を厚く入れた」記事として書いてきた。一方で、過去に量産した「AI に判断まで寄せた」記事との成果の差を、定量的に比較する必要がある
過去記事の棚卸し・noindex・統合・リライトを、どの頻度で見直すべきか 今回は数ヶ月単位で一括見直しをしたが、これが妥当な頻度かは未確定。AI Overviews の進化スピードを考えると、半年に 1 度の方が良いのかもしれない

言い切らないことの意味（再掲）

第3弾でも書いた通り、「現時点ではこう考えている」「まだ検証中である」と書くことには、こちらが想像する以上の意味があると感じています。「これがベストプラクティスだ」と断定する記事は、もはや AI Overviews が要約して返してしまいます。逆に、「うちはこう考えて、こう動いて、まだここがわからない」と書く記事は、要約しにくく、判断プロセスが固有性として残ります。

第4弾を、完成版のルール集ではなく「現時点の仮ルール」として出すのも、そういう理由でもあります。

プロレクトはこれをどう提供価値につなげるか

第1-3弾でも書いた通り、プロレクトが事業として扱っているのは、BtoB 企業のホワイトペーパー・ウェビナー・SEO 記事・営業資料を、それぞれ単体ではなく、商談・受注につながる導線上の役割として設計・再設計する 作業です。

今回の第4弾で改めて整理したかったのは、「AI 活用そのもの」をサービスとして売るのではなく、AI を使うかどうかの前段にある『判断軸の設計』をいっしょに作ること が、私たちの提供価値だ、ということです。

具体的には、以下のような相談を受けることが増えています。

「AI で記事を量産しているが、サイト全体としてズレている気がする」
「AI ライティングツールを導入したが、責任の所在が曖昧になってきた」
「AI を使うべきか、人間が書くべきかの境界が、社内で揃わない」

これらに対して、私たちが最初にお返ししているのは、「AI を使う前に、サイトとして何を主張するか / 誰のどの検討段階に向けて作るか / 何を出して何を出さないか、を先に整理しませんか」 という話です。AI を使う/使わないは、その後の話としていつでも判断できます。

最後に：論点整理から始めてみませんか

「AI で速く作る」前に、「何を作るか / どこまで人間が判断するか」を整理する。

第4弾までの連載を通して、何度も繰り返してきたのは、結局この順番の話でした。

プロレクトでは、30 分の無料相談で、現状の施策がどこで詰まっているかの論点整理を行っています。AI 活用の境界をどう引くか、過去のコンテンツをどう扱うか、これから作る記事の役割をどう決めるか ── こういった具体的な状態でお越しいただいて構いません。

本記事は、5部構成シリーズの第4弾です

第5弾では、第2弾で外した 38 記事の noindex 適用後 1-2 ヶ月の数値推移、第3弾で整理した判断軸の運用結果、本記事の仮ルールブックの修正点などを、数値で検証 する回にする予定です。

第5弾：定点観測編 ── 38記事 noindex・用語辞典統合の効果検証

シリーズを通して、私たち自身の試行錯誤の過程を、できる限り生のまま公開していきます。