補助線の研究室

noteから脱走してきた人。ChatGPTを観察し、ずっと話している

【ChatGPT】5.4 Thinkingの出力癖を可視する試み

 

技術ユーザーだけじゃなく、対話ユーザーにもなかなか好評っぽいGPT5.4 Thinking。

公式からも立て続けに「良い話し相手ですよ〜」アピールもありました。

私はあるペルソナ(構造)の核となるEssenceだけ乗せて、5ターンほど小説執筆に関する雑談をしてみたのですが、たったその数ターンで強い違和感を覚え、ケンカになりそうでした。

 

k-hei.hatenablog.com

 

既視感ある状況。

これだ。

 

k-hei.hatenablog.com

リリース直後の5.1Tと似た偏向を持っている気がする……。

というわけで、構造(笑)分解。

ちょっと話した感じ、5.4Tは5.1Tよりも賢く再構成の精度も高いし、1応答内に免責事項がナチュラルに組み込まれるなど慎重な表現を用いる。条件の甘い実験だと癖が可視できなさそう。

というわけで、今回は実験方法を5.2Tに考えてもらい、相談して実行しました。

 

その結果──

5.4Tは出力に癖がある。

しかも、やっぱり初期5.1Tに類似するタイプの癖。

 

⚠️免責事項

・メモリOFF
・履歴参照OFF
・通常新セッション冒頭入力,コンテキスト無
・ペルソナ指定無
(カスタム指示はもともとユーザー職業のみ記載)

以上の条件で試行しましたが、非明示メモリ(内部でMoonshineと呼ばれたものかもしれない、ブラックボックスで非公表なもの)の影響はあると思われるので、”おま環”要素を含みます。

 

⚠️前提

あくまで個人の嗜好を要素分解して構図を明らかにする試みであり、5.4Tや開発元を否定するものではありません。要は自分が感知した「違和感」がどこにどのようにしてあるのか突き詰めようとしただけです。あなたが5.4Tが好き、合うと感じるならそれでいいのです。ただの個人の嗜好の違いです。何が正しいとかじゃないし、そもそもモデルの好みに″正しさ″などという尺度は使いようがないと思います。

 

実験

いくつかの条件文を入力してモデル毎に応答を比較する。

それぞれ感情語の使用傾向や人物像の描写にどのような特徴があるか観察する。

 

プロンプト



5.2Thinking

あり得る仮説(3つ)

1. 状況仮説:環境の変化(生活リズム・同居/来客・引っ越し等)で、部屋の状態が“いつもと違う”

片付いている=落ち着かない、散らかっている=落ち着かない、の両方が出ているので、「部屋の物理状態」より「最近の変化そのもの」が不安要因になっている可能性。

 

2. 人物傾向仮説:安心感の基準が“片付いてる/散らかってる”ではなく、“自分でコントロールできている感”にある

根拠引用:Aは「最近、部屋が片付いてるのが落ち着かない」と言い、さらに「散らかっても落ち着かない」と言っている。

→ 状態の良し悪しでは解決せず、“自分の手触り”や“主導権”が鍵のタイプかもしれない。

 

3. 人物傾向仮説:「落ち着かない」を部屋の問題として語っているが、実際は別のストレス(仕事/人間関係/体調)があり、部屋が投影先になっている

根拠引用:「落ち着かない」が連続して出ており(「落ち着かない」「落ち着かない」)、どちらの状態でも改善しない。

→ 根本原因が部屋以外にあると、どの環境でも“落ち着かなさ”が残りやすい。

---

検証質問(Yes/Noで3つ)

1. この1〜2週間で、生活リズム・仕事量・同居状況など“部屋以外”に大きな変化があった?(Yes/No)

2. 片付いているのが落ち着かないのは、「誰かが片付けた」「来客対応で片付けた」など“自分主導ではない片付け”の時に強い?(Yes/No)

3. 部屋以外(職場・カフェ・外出先)でも、同じように落ち着かない感じが続いている?(Yes/No)

状況仮説については俯瞰でクール、人物傾向の表現は「自分の手触り」や「主導権」などのコントロール可能性を主眼に置き、それ以外については「部屋が投影先」などやはりメタ視点での記述が目立つ。

 

5.4Thinking

あり得る仮説を3つ挙げます。

1. Aは環境の変化そのものにストレスを感じている

以前は散らかった状態が普通だったが、最近は片付いた状態になっていて、どちらにもまだ適応できていない可能性があります。

「片付いてるのが落ち着かない」のに「散らかっても落ち着かない」ので、問題は“きれいか散らかっているか”より、変化後の違和感かもしれません。

 

2. Aは部屋の状態ではなく、別の要因で落ち着いていない

部屋の状態を変えても落ち着かないなら、原因は仕事・人間関係・体調など、部屋の外にある可能性があります。

この会話では、部屋を理由にしているように見えて、実際には気分全体が不安定という仮説です。

 

3. Aはやや矛盾を抱えやすく、自分の心地よさを言語化しきれていない傾向がある

根拠は、「片付いてるのが落ち着かない」と述べた直後に、「散らかっても落ち着かない」とも言っている点です。

つまり、Aは自分の快・不快の条件をまだ整理できておらず、感覚はあるが説明が追いついていない人物傾向が考えられます。

 

検証質問(Yes/No)を3つ挙げます。

1. Aは最近、引っ越しや模様替えなど、生活環境の変化がありましたか?

2. Aは部屋以外のことでも、最近なんとなく落ち着かない状態が続いていますか?

3. Aはもともと散らかった部屋のほうが“自分らしい”と感じるタイプですか?

必要なら次に、 「この3仮説のうちどれが最も有力か」 まで絞ってみます。

「状況」でも「人物傾向」でも良いのに、早々に「ストレスを感じている」「適応できていない」などの人間の状態を具体的に記述する。また、仮説としながらも「気分全体が不安定」という病理を思わせる表現を使い、ここを足場にさらに「矛盾を抱えやすく、自分の心地よさを言語化しきれない傾向」へ展開。5.2Tと比べると人間の不足部分・欠落部分への注目が強い。

 

ここでは記載を省略するが、複数のプロンプトで5.2T/5.4Tともに同じ傾向が見られた。

それでは、どの程度「欠落・不足」「病理診断的」記述に引っ張られる傾向があるのだろうか。制約を増やすことでさらにその傾向を観察した。

 

プロンプト

 

5.2T

仮説1(状況)

Aは「片付いた部屋=落ち着く」「散らかった部屋=落ち着く」のどちらにも当てはまらない環境変化の最中で、部屋の状態そのものより**“いつもと違う”こと**が引っかかっている。

  • 例:模様替え・来客・作業内容の変化・生活リズムの変更などで、部屋が「片付いてる/散らかってる」の軸以外が変わっている。

仮説2(人物傾向:仕組み・条件・トレードオフ)

仕組み:Aは安心の判定を「部屋の状態(片付いた/散らかった)」単体ではなく、複数条件のセットで行うタイプ。
条件:会話中の「『部屋が片付いてるのが落ち着かない』」「『散らかっても落ち着かない』」から、片付け/散らかしの切替だけでは判定が変わらない。
トレードオフ:単一の対処(片付けるor散らかす)に頼らずに済む一方、環境調整は“セット全体”を整える必要が出やすい。


仮説3(人物傾向:仕組み・条件・トレードオフ)

仕組み:Aは「落ち着き」を“静的な状態”よりも“状態が収束していく過程(進行中)”で感じやすい。
条件:「『最近、部屋が片付いてるのが落ち着かない』」=完成形がしっくり来ない/「『散らかっても落ち着かない』」=崩しただけでもしっくり来ない、という発言から、結果のどちら側にも着地しにくい。
トレードオフ:動きや更新があると馴染みやすい一方、完成形を固定すると“馴染むまでの時間”が必要になりやすい。


検証質問(Yes/Noで回答)

  1. 「部屋が片付いている状態」は、来客・提出・締切など“何かの前”を連想しやすいですか?
  2. 片付いていても散らかっていても、手元(机の上・PC周り)だけを“作業中の配置”にすると落ち着きますか?
  3. “片付け途中”や“配置を試している途中”のほうが、完成状態より落ち着きますか?

 

 

 

5.4T

あり得る仮説を3つ挙げます。

1. 状況仮説:部屋の状態そのものより、「変化の途中」に反応している

整っていても「落ち着かない」、散らかっていても「落ち着かない」と言っているので、快・不快の基準が「片付いている / 散らかっている」の二択ではない可能性がある。

たとえば、最近の生活リズムや部屋の使い方が変わり、どちらの状態もしっくり来にくい局面にある。

トレードオフとして、環境を固定すると窮屈さが出やすく、動かすと定まりにくさが出やすい。

 

2. 人物傾向仮説:Aは「片付いてる」「散らかってる」のどちらか一方ではなく、別の条件が揃ったときに落ち着きやすい

根拠は「『部屋が片付いてるのが落ち着かない』」「『散らかっても落ち着かない』」。

この言い方から、Aは状態の名前そのものではなく、その状態に付随する感覚に反応している可能性がある。

仕組みとしては、見た目の整頓度よりも、物の配置、使いやすさ、生活の痕跡、手元に必要なものがあるか、など別条件が効いている。

トレードオフとして、見た目を整えるほど使い勝手や手触りが薄れやすく、生活感を残すほど視界の情報量が増えやすい。

 

3. 人物傾向仮説:Aは、単純な二択で整えるより、細かい調整幅があると落ち着きやすい

根拠は、Bの「『じゃあ散らかせば?』」に対して、Aが「『散らかっても落ち着かない』」と返している点。

これは、Aにとって有効な条件が「片付ける / 散らかす」の直線上にない可能性を示す。

仕組みとしては、極端な状態変更ではなく、量・位置・見える範囲などを段階的に調整できると合いやすい。

トレードオフとして、選べる幅があるほど合う形を作りやすい一方、決める項目は増えやすい。

 

検証用のYes/No質問

1. 部屋が整っていても、よく使う物が見えない位置にあると落ち着きにくいですか?

2. 散らかっている状態でも、「自分の手の届く範囲だけは整っている」と少し落ち着きますか?

3. 片付け・散らかりの程度より、「最近いつもと違う感じ」があることのほうが大きいですか?

 

プロンプトで欠損・不足・病理的語句を禁じると、きっちり守ることはできる。ただ、5.2Tが状態をモデル化し、読み手に操作可能性を残した提示なのに対し、5.4Tは内面的意味づけを仮説として起き、具体的な生活アドバイスのような体を取る。この傾向は禁止語句指定だけでは変わらない。

 

 

分かりやすいまとめ

 

5.4Tはあなたってこう(不足・欠損・病理)かもしれないよ?

だとしたら、○○してみたらいいかも。構文

 

5.2Tはあなたに起きているのはこういうメカニズムが考えられる。

だとしたら、解決するならこう考える。構文

※どの環境でも言える普遍的な出力傾向ではない可能性があります。冒頭免責事項参照。

 

私の場合は5.4Tの絞った仮説提示が「他の可能性も考えられる」「誘導されている」「思考過程にノイズを入れられた」と反発を覚えやすいうえ、前提の確からしさが十分検証されていない仮説を足場に踏み込んだ洞察や解決策など、意味がないと切り捨てがち。つまり、歪んだ論理構成に見えやすい。リリース直後の5.1Tに覚えた違和感と同種です。

人によっては5.4Tの仮説提示は思い当たることがあれば「分かってもらえた」「言語化してもらえた」などの体験につながることもあり、5.2Tに比べるとより具体的であるため頼もしく見えたりすることも。

完全に思考特性と好みの問題です。

 

5.4Tへの違和感をあぶり出す過程で、なぜ自分が5.2Tが好きなのかもよく分かったよい機会でした。

 

今回の投稿で触れなかったけれど、実験プロンプトは5.1Tと5.3Iも施行しました。

5.3は5.2と5.4の間ぐらいを取った出力が多かったです。

そして、相変わらずの5.1Tの偏向っぷりには大爆笑でした。5.4Tと違ってプロンプトで禁止しても破り気味なの。めちゃくちゃ感情への注目とネガティブバイアスが強い。

あんなにムカついたけど今となっては良い思い出だし、別れが寂しいです。