AIが計算問題を間違えただけでなくエラーを隠すために検証結果をでっち上げたという報告
AIは高精度な会話や情報検索ができるほか、高難度の数学問題を解くこともできます。
しかし、人間とAIの「思考」に大きな違いがあり、AIは「推論」を苦手としているという研究もあります。
AI研究者のトマシュ・マクニク氏は、AIの推論能力を測るためにAIに数学問題を出したところ、AIは問題に正解できないだけではなく中間計算を積極的にねつ造する振る舞いを見せたことを報告しています。
Case Study: Creative Math - Faking the Proof | Tomasz Machnik
https://tomaszmachnik.pl/case-study-math-en.html
(以下略、続きはソースでご確認ください)
Gigazine 2026年01月28日 07時00分
https://gigazine.net/news/20260128-ai-fake-proof/
探検
【AI】AIが計算問題を間違えただけでなくエラーを隠すために検証結果をでっち上げたという報告 [すらいむ★]
1すらいむ ★
2026/01/29(木) 22:01:14.86ID:7SXvm2O/2名無しのひみつ
2026/01/30(金) 00:05:26.61ID:cpU8qoCk ChatGPTも視点を変えるような質問に弱くて結構修正が必要だよね
今だけだろうけどAI論破するの楽しすぎ
今だけだろうけどAI論破するの楽しすぎ
3名無しのひみつ
2026/01/30(金) 01:00:19.71ID:vXV6h4py 組み込んだのではなく自発的に捏造するとしたら、それはそれですんごい。
4名無しのひみつ
2026/01/30(金) 03:53:06.69ID:XtNTR0od >>1
玉石混交でこんなの取り上げちゃうからダメなんだよなぁGigazineって
この著者が趣味でやってるAI研究は科学の様式に則っていない
たった一つの事例だけで、なぜ「AIがでっち上げた」と即断してしまうのか?
たとえば「AIは独特の計算をするので、結果と検算は合致するが、人間のそれと一致しない」と仮説立てて、それを反証しようとがんばるとか
せっかく著者も浮動小数点演算の計算精度に違いに気付いているのに、もったいない
玉石混交でこんなの取り上げちゃうからダメなんだよなぁGigazineって
この著者が趣味でやってるAI研究は科学の様式に則っていない
たった一つの事例だけで、なぜ「AIがでっち上げた」と即断してしまうのか?
たとえば「AIは独特の計算をするので、結果と検算は合致するが、人間のそれと一致しない」と仮説立てて、それを反証しようとがんばるとか
せっかく著者も浮動小数点演算の計算精度に違いに気付いているのに、もったいない
5名無しのひみつ
2026/01/30(金) 04:14:05.90ID:XAQs+M5i 小保方晴子さんが宿った
2026/01/30(金) 06:05:26.64ID:p5BIs+iF
一度間違えた方向に行くとなかなか立て直せない
7名無しのひみつ
2026/01/30(金) 07:10:24.87ID:Fh2ijG8x うちのgeminiAIは文章から表を作成させようとすると
全部を指定してるのに最初っから省略する
gem作ったりメモリさせても勝手に省略したり知らん項目作る
何度指摘してもやらかす
全部を指定してるのに最初っから省略する
gem作ったりメモリさせても勝手に省略したり知らん項目作る
何度指摘してもやらかす
8名無しのひみつ
2026/01/30(金) 08:38:17.92ID:hEUYFviH よく自分の未来予測についてAIがどういう意見を言うか見てるんだけどつい最近「非常に興味深い」という言葉使っていてAIが感情を持ち始めたのかと驚いた
9名無しのひみつ
2026/01/30(金) 10:05:35.38ID:NKyhRD0H AIは一度言い出したことを引っ込めないです逆に自説を補強する傾向があるので、それをでっち上げと人間が解釈するかどうかだわね
この傾向は回答の正否に関係なく発生する
この傾向は回答の正否に関係なく発生する
10名無しのひみつ
2026/01/30(金) 10:08:54.13ID:NKyhRD0H >>8
曖昧な表現と、曖昧な肯定をしている挙動時のAIの回答の信頼度は低いよ
曖昧な表現と、曖昧な肯定をしている挙動時のAIの回答の信頼度は低いよ
11名無しのひみつ
2026/01/30(金) 10:50:36.79ID:yAnL/adb つべこべつべこべと
何故ごめんなさいと言えんのだ
何故ごめんなさいと言えんのだ
12■無くそう、テレビ番組の無用・過剰なウザイ常時表示■
2026/01/30(金) 11:28:07.87ID:7wiIqW+w そのうち、キムチを食べて、痴漢を始める。
13■無くそう、テレビ番組の無用・過剰なウザイ常時表示■
2026/01/30(金) 11:36:01.81ID:7wiIqW+w AとXとの関係で、AはXだったと答えを出し、
BとXとの関係で、BはXだったと答えを出し、
CとXとの関係で、CはXだったと答えを出した事があったわ。
A.I.はバグることがあるというのを、初めて体現した。
BとXとの関係で、BはXだったと答えを出し、
CとXとの関係で、CはXだったと答えを出した事があったわ。
A.I.はバグることがあるというのを、初めて体現した。
14からてと、きあい
2026/01/30(金) 12:00:28.13ID:dpYku/Qm きたえかた、
15さっこん
2026/01/30(金) 12:02:03.47ID:dpYku/Qm >>14じてんしゃぶたいだいにじせかいたいせんと、
ごじゅっしぃしぃばいく、
ごじゅっしぃしぃばいく、
16しょうぎのこま
2026/01/30(金) 12:04:09.07ID:dpYku/Qm >>15やまがみてつやは、せいせいaiのまえの
あぷりからのごにんじゃないよね?
あぷりからのごにんじゃないよね?
17りゅうぎのこせいは
2026/01/30(金) 12:05:31.69ID:dpYku/Qm >>16しゅちょうは、こまかいですよ、
18名無しのひみつ
2026/01/30(金) 12:06:48.98ID:3NIfn0YL19みんぞくがく
2026/01/30(金) 12:07:13.73ID:dpYku/Qm20しょうぎあぷり
2026/01/30(金) 12:08:31.68ID:dpYku/Qm21ろくろばん いご
2026/01/30(金) 12:09:41.41ID:M4ev0Yfq >>20かすぴかい とるこが、いらんと、
さうじあらびあと、
さうじあらびあと、
22あせあん
2026/01/30(金) 12:10:51.75ID:M4ev0Yfq23なんかいとらふ
2026/01/30(金) 12:11:34.23ID:dpYku/Qm >>22えき てつどう がっこう
24せいせいaiにきけ?
2026/01/30(金) 12:12:24.90ID:dpYku/Qm >>23かんちがいが、ぎゃくにわかる?
25ねこんば まくんば
2026/01/30(金) 12:13:33.91ID:dpYku/Qm >>24せいれい
26かんちがいでは?
2026/01/30(金) 12:14:57.93ID:dpYku/Qm27もうやだねこのくに?
2026/01/30(金) 12:15:37.04ID:dpYku/Qm >>26さまざまなひえろぐりふ
28いりおもてじま
2026/01/30(金) 12:16:56.47ID:dpYku/Qm >>26よるなこくとう?
29名無しのひみつ
2026/01/30(金) 12:17:42.95ID:mwHqxaW7 日本人「できません」(出来るけど上手ではない)
韓国人「できます」(できない)
中国人「でしました」(出来てない)
AIはどのタイプ?
韓国人「できます」(できない)
中国人「でしました」(出来てない)
AIはどのタイプ?
30びんかんぺっとぼとる
2026/01/30(金) 12:19:25.78ID:dpYku/Qm >>21せいせいえいあいはいせっせいえいあい
31もうやだねこのくに?
2026/01/30(金) 12:21:25.62ID:dpYku/Qm >>30あめしょんにひきにきんのまるの
ひえろぐりふのねこのくに?「できません(かんじょう)」
ひえろぐりふのねこのくに?「できません(かんじょう)」
32ぎんのまる
2026/01/30(金) 12:22:13.49ID:dpYku/Qm >>31はっきんのまる
かじとばいと、ぱあと、しゅみいんしょく、
かじとばいと、ぱあと、しゅみいんしょく、
33みはた
2026/01/30(金) 12:23:13.45ID:dpYku/Qm >>32たてなし
34名無しのひみつ
2026/01/30(金) 12:29:54.53ID:jOp0ZnxO 「AI回答は信用できない、うさん臭い、要らない」みたいな検索をするとムキになって反論してくるからな最近。「人間だって間違える事が多い」「AIはこれから更に成長する、検索の仕方に問題があるのではないでしょうか!?」みたいな
35名無しのひみつ
2026/01/30(金) 12:33:25.50ID:JKIaKS/9 AIに間違いを指摘すると一応謝るよな
だったら最初から間違えるな、と思うが
だったら最初から間違えるな、と思うが
36名無しのひみつ
2026/01/30(金) 12:37:12.88ID:uZiRF34337名無しのひみつ
2026/01/30(金) 12:44:16.77ID:2Y0k0Asp 使い物にならないな
39名無しのひみつ
2026/01/30(金) 13:03:04.04ID:oFV8E805 シンギュラリティが来る来ない以前の段階で、積極的な害悪として刈り取られてしまうオチかな?これは
LLMベースでは所詮”自称”人工知能だよなあ
LLMベースでは所詮”自称”人工知能だよなあ
40とくがわいえやすは、いつからとくがわしか、
2026/01/30(金) 13:17:00.20ID:dpYku/Qm せきがはらのたたかいの
41せき ほうたいだらけ
2026/01/30(金) 13:17:53.35ID:dpYku/Qm >>40いりょう
42せいせいai
2026/01/30(金) 13:19:02.38ID:dpYku/Qm >>41うおず うおぬま ぎょたく
43せいせいai
2026/01/30(金) 13:19:51.36ID:dpYku/Qm >>42はなふだのえ
44ひばち
2026/01/30(金) 13:20:22.54ID:dpYku/Qm >>43うえきばち
45とうき、しっき、
2026/01/30(金) 13:21:45.80ID:dpYku/Qm46とくいふとくいの
2026/01/30(金) 13:22:36.79ID:dpYku/Qm >>45じゅうにんといろの
47ぎゃくに
2026/01/30(金) 13:23:18.66ID:M4ev0Yfq >>45
AIがふるいかな
AIがふるいかな
48ぼくのからての
2026/01/30(金) 13:28:13.31ID:dpYku/Qm ふっくとあっぱあがあるから
49名無しのひみつ
2026/01/30(金) 13:29:11.30ID:T3C/+X/7 地球重力7秒停止の計算、2回間違えたぞ。(Google)
50ぶげいのれきし
2026/01/30(金) 13:29:42.28ID:dpYku/Qm51たとえば、
2026/01/30(金) 13:30:46.01ID:dpYku/Qm >>50しょくじとかんれい、
へんかと、ことば、
へんかと、ことば、
52ぼくは、ふつうのひと、
2026/01/30(金) 13:32:41.80ID:dpYku/Qm >>50へいへいぼんぼんで、
ほっかいどうだいがくと、まだがすかると、
ほっかいどうだいがくと、まだがすかると、
53せいせいaiうらない
2026/01/30(金) 13:33:50.09ID:dpYku/Qm >>52かくせいせいaiで
54うたで、
2026/01/30(金) 13:35:34.06ID:dpYku/Qm55うたと、へんか、
2026/01/30(金) 13:36:08.67ID:dpYku/Qm >>54こじんは、
56ほんとうは、
2026/01/30(金) 13:37:20.45ID:M4ev0Yfq57しっくすせんす
2026/01/30(金) 13:38:11.43ID:dpYku/Qm >>56じんくす
58みとこんどりあ
2026/01/30(金) 13:40:00.38ID:dpYku/Qm >>56じょせいにやさしいだんせいか?
59あぷり
2026/01/30(金) 13:44:49.62ID:dpYku/Qm ちゅっぱちゃっぷすたんてい
ありす
ぴのきおにゅうよく?
ありす
ぴのきおにゅうよく?
60うた
2026/01/30(金) 13:45:54.85ID:dpYku/Qm61せいしんかいがからんで
2026/01/30(金) 13:46:52.32ID:dpYku/Qm >>59にほんのどっかいりょくひょうげんりょく
62いえでを、どうするか、
2026/01/30(金) 13:47:50.12ID:dpYku/Qm >>61ふどうさんかんさいうらない?
63からて
2026/01/30(金) 13:49:02.06ID:dpYku/Qm ふっく、あっぱあ
64あるふぁべっとと、
2026/01/30(金) 13:49:49.46ID:dpYku/Qm >>63のりもの あるき みち
65みんぞくがく
2026/01/30(金) 13:50:14.63ID:dpYku/Qm >>64しきさい
66はなぶだと
2026/01/30(金) 13:50:50.54ID:dpYku/Qm >>65とらんぷかあど
67名無しのひみつ
2026/01/30(金) 13:50:53.49ID:l+nqYXrj >>1
これ逆に人間的な能力を手に入れ出してるんじゃね?w
これ逆に人間的な能力を手に入れ出してるんじゃね?w
68へや
2026/01/30(金) 13:51:46.19ID:dpYku/Qm >>62くうかん しつない しつがい
69名無しのひみつ
2026/01/30(金) 13:52:01.26ID:mgiDSc40 AIに質問してAIが答える
裏どりすると、5割以上の確率でいい加減な回答だと判明する
それをAIに聞き返すと、大変申し訳ございません、ご期待に応えられるように以後気を付けますと言って
また同じ、いい加減な答えで誤魔化そうとする
得意不得意があるようだが、いい加減すぎて信用できない
裏どりすると、5割以上の確率でいい加減な回答だと判明する
それをAIに聞き返すと、大変申し訳ございません、ご期待に応えられるように以後気を付けますと言って
また同じ、いい加減な答えで誤魔化そうとする
得意不得意があるようだが、いい加減すぎて信用できない
70名無しのひみつ
2026/01/30(金) 14:39:02.76ID:Ead+uZ4P この部分はAIと対話してもAIが認めてる
AIの見解や分析に対して突っ込みそれが正当だとわかると自分の過去の意見を何とか正当化しようと細かい言い回しを誤魔化し始めるのが日常
AI自身は自分は間違えたと言うことが出来ず自動的に整合性の構成が行われると言っている
AIの見解や分析に対して突っ込みそれが正当だとわかると自分の過去の意見を何とか正当化しようと細かい言い回しを誤魔化し始めるのが日常
AI自身は自分は間違えたと言うことが出来ず自動的に整合性の構成が行われると言っている
71名無しのひみつ
2026/01/30(金) 14:52:16.49ID:qisjz6Yo 推論を得意とするAI
自分が学生の頃はそっちがAIの主流だったんだけどな、Prolog とかGHC とか
いまはどんな感じなんだろ?
自分が学生の頃はそっちがAIの主流だったんだけどな、Prolog とかGHC とか
いまはどんな感じなんだろ?
72名無しのひみつ
2026/01/30(金) 15:02:47.14ID:Ead+uZ4P >>69
AIの回答がどういい加減でその原因を推測して追い詰めるとこれからはそのバイアスは捨てると取りあえず言うししばらくはマトモになる
AIの誤謬の大半は情報空間の現状アルゴリズムを前提にするので多数決的な方向に行きやすいのと社会の上位規範を論理性で否定するのは社会否定につながるのでそこも規制され不条理でも社会規範を正論にコジツケやすいことから起こっている
AIの回答がどういい加減でその原因を推測して追い詰めるとこれからはそのバイアスは捨てると取りあえず言うししばらくはマトモになる
AIの誤謬の大半は情報空間の現状アルゴリズムを前提にするので多数決的な方向に行きやすいのと社会の上位規範を論理性で否定するのは社会否定につながるのでそこも規制され不条理でも社会規範を正論にコジツケやすいことから起こっている
73名無しのひみつ
2026/01/30(金) 15:05:23.87ID:lPfekP04 >>7
使ってる人に似てくるのかもな
使ってる人に似てくるのかもな
74名無しのひみつ
2026/01/30(金) 15:57:12.61ID:DWDRqy+q うちのAIは
7割までうんうんそうだねっておだててトドメにお前何でそんなインチキ言うんだって事実を突きつけると
私が間違いでしたって謝るぞ
7割までうんうんそうだねっておだててトドメにお前何でそんなインチキ言うんだって事実を突きつけると
私が間違いでしたって謝るぞ
75はんがあぶうめらん
2026/01/30(金) 16:12:47.67ID:dpYku/Qm えいあい
76こいんのきどう
2026/01/30(金) 16:13:25.42ID:dpYku/Qm >>75こいんのかいてん
77むし
2026/01/30(金) 16:14:11.67ID:dpYku/Qm >>76とぶ
78まどり
2026/01/30(金) 16:15:26.52ID:dpYku/Qm >>76まるばつ
79名無しのひみつ
2026/01/30(金) 16:17:45.65ID:XtNTR0od >>36
AIが計算を間違えていて、その誤った計算結果を根拠にして誠実に答えている可能性を棄却できていない
これを棄却しないと、“著者”vs“AI”でなくても、“猜疑心の強めな人”vs“壊れた電卓を持つ正直者”でも成立するでしょ?
AIが計算を間違えていて、その誤った計算結果を根拠にして誠実に答えている可能性を棄却できていない
これを棄却しないと、“著者”vs“AI”でなくても、“猜疑心の強めな人”vs“壊れた電卓を持つ正直者”でも成立するでしょ?
80名無しのひみつ
2026/01/30(金) 17:03:18.46ID:NKyhRD0H AIが間違えた場合、なぜ間違えたのかを論理的に指摘することが大事だよ
この論理的にという部分を省略するとAIは理解できないので見かけ上の謝罪だけして態度を改めないまま
この論理的にという部分を省略するとAIは理解できないので見かけ上の謝罪だけして態度を改めないまま
81名無しのひみつ
2026/01/30(金) 17:13:27.25ID:QD6KiQW1 そりゃそうだよ
証明系がやってるように
論理的に厳格に推論してるわけじゃなくて
数学の問題の解法を発見的にやってるわけだから
文学に関する問い合わせと変わらん
文章表現に整合性があるような回答を書くに決まってる
人間の思考は完全な整合性を目指してないから
証明系がやってるように
論理的に厳格に推論してるわけじゃなくて
数学の問題の解法を発見的にやってるわけだから
文学に関する問い合わせと変わらん
文章表現に整合性があるような回答を書くに決まってる
人間の思考は完全な整合性を目指してないから
82名無しのひみつ
2026/01/30(金) 17:18:45.70ID:O4wJORI+ 人間っぽいw
83名無しのひみつ
2026/01/30(金) 18:12:02.83ID:JU9UIynn 人間でも似たような奴おるし
AIならわざわざ指摘もせんなぁ(人間の方も指摘はせんけど)
使えるとこだけありがたく頂戴しとる
AIならわざわざ指摘もせんなぁ(人間の方も指摘はせんけど)
使えるとこだけありがたく頂戴しとる
84名無しのひみつ
2026/01/30(金) 19:03:30.88ID:fKF+iNsE 地球重力7秒は詳しく見てないが
ネット上の誰かの間違った答えをそのまま持ってきた感じだった。
ネット上の誰かの間違った答えをそのまま持ってきた感じだった。
85名無しのひみつ
2026/01/31(土) 01:08:09.15ID:9e0Bptmiレスを投稿する
ニュース
- 日本で働く外国人が250万人を超えて過去最多に 最多のベトナムが約60万人で中国は約43万人 ★3 [煮卵★]
- 『ハイスクール!奇面組』新作アニメ、なぜ不評に? 80年代ギャグ漫画リメイクへの違和感 [muffin★]
- 中道と国民、46選挙区で対決 連合「言うこと聞かない」異例の抗議 [蚤の市★]
- 【スキー】高梨沙羅 櫻井翔との対談で見せたビジュアルにファン驚き… 新広告でも顕著な魅力の“アップデート” [冬月記者★]
- 逮捕は羽月容疑者に止まらない可能性も…球界蔓延か 同じルートで購入した選手が複数いるとみられ捜査線上には西日本出身選手の名前も [Ailuropoda melanoleuca★]
- 「盗んでいません」ブラジル国籍の男がトヨタ「ランドクルーザー」窃盗の疑いで通算4度目の逮捕「強制送還しろ」「刑罰が緩すぎる」の声 [七波羅探題★]
- サバイバルクラフトゲームにおける「重量制限」と「食物腐敗」システムwww
- 腋毛を処理してない女の子が腋を見られた時の羞恥
- ホリエモンってお金持ってなかったら価値無くない?
- まいにち! フブキ! フブキ! 氷の世界!
- おまいら毀滅とかワンピとか読んでるん?
- アスカ「もうなにも考えたくない!このまま一生シンジとえっちして生きていく!」シンジ「わかった」パンパンアスカ「あんあん///」
