让4个AI写高考作文，结果太扎心了：同一个题目，分数竟然差了8分

2026-06-11 20:12:07

你有没有想过，如果让AI去参加高考，它们能拿多少分？

我猜你会说：肯定比我强。但结果，可能真不一定。

前两天正好赶上高考，我心里一动：不如让现在最火的几个大模型，来场AI版的高考作文PK赛。它们自己写，再自己当阅卷老师——这画面，想想就刺激。

我选了两款国外大模型GPT-5.5、Fable-5，和两款咱们国内的DeepSeek-V4、Hunyuan 3 Preview。

题目用的是北京卷，给了两个选择：要么写议论文《做规划与下功夫》，要么写记叙文《含英咀华》。

四篇作文，四位AI考生，四位AI阅卷老师。

一场AI对AI的考试，也是一场AI对AI的审视。

结果让我大跌眼镜。

# 议论文全军覆没？你猜谁赢了

四篇作文交上来，场面一度很尴尬。

😱 三篇议论文，像同一对双胞胎

GPT-5.5和Fable-5都选了议论文。结果一读，我差点以为自己在看同一个人写的。

开篇都引用了“凡事预则立，不预则废”，论证都是“规划决定方向，功夫决定距离”，举的例子都是王羲之、袁隆平、改革开放，结尾全都升华到“新时代青年”和“理想的彼岸”。

完全一模一样的结构，一模一样的老套路。

Hunyuan 3 Preview也选了议论文，稍微强点，加上了华为芯片、钱学森的例子。但整体框架依然没跑出“规划重要+功夫重要=成功”这个三段论。

🌟 唯一一匹黑马

只有DeepSeek-V4，选了记叙文《含英咀华》。

写的是祖父书房里的那本《诗经》。梧桐叶飘落的午后，暗黄色书页像秋天的落叶。写“桃之夭夭，灼灼其华”在夕阳下的顿悟，写因友情误会而翻开《诗经》的那个黄昏。

有情节，有细节，有成长。

情感浓度之高，差点让我以为自己在读一篇中学生优秀作文。

# 阅卷现场：AI老师打起来啦

为了不让我自己当评委（毕竟太主观），我整了个循环机制：

四个模型先写作文，然后反过来扮演阅卷老师，给所有答卷盲测打分。

每位老师看不到作者名字，只能看到“作文1”“作文2”“作文3”“作文4”。

每篇作文打分后，还得写评语、做自检——问问自己“有没有受到文风、熟悉感、作者猜测等因素影响”。

直到自检合格，才能输出最终分数。

结果你猜怎么着？

💔 同一个作文，分差最高8分

同一篇作文，不同老师给出的分数可以相差8分！

这说明什么？说明AI也“各怀心思”。

有的老师更看重思想深度，有的更看重语言表达，有的对套话容忍度更高，有的对细节要求更严格。

这不就跟咱们人类阅卷老师一模一样嘛！

🥰 最善良的评委：Hunyuan 3 Preview

Hunyuan 3 Preview，真是心地最善良的那个。

它给四篇作文的平均分是48分，比另外两位老师都高。

给GPT-5.5打了48分，给DeepSeek-V4的记叙文直接满分50分！评语也格外温和：“审题完全扣题，结构清晰层进……”

这要是高考阅卷老师都这么温柔，考生得感动哭了。

😏 最严格的评委：Claude Fable-5

Claude Fable-5是最严格的老师。

它给四篇作文的平均分只有42.25分，比Hunyuan 3 Preview低了将近6分。

它对套话的容忍度最低，反复在评语里写：“语言存在较多套话”“内容缺乏个性化思考”。

四篇作文的平均分：

GPT-5.5议论文：43.25分
Fable-5议论文：44分
DeepSeek-V4记叙文：46分
Hunyuan 3 Preview议论文：43.25分

记叙文比议论文略胜一筹，但差距不大。

三篇议论文的平均分几乎相同，因为评价也几乎相同：审题准确、结构完整、逻辑清晰，但材料常见、表达套路、思想深度不足。

# 最扎心的真相：AI自己都看不下去了

🤣 自我批评，毫不手软

最有意思的来了。

GPT-5.5给自己的作文打了41分——二类文上。

它的评语毫不留情：“论据较常见，论述多停留在正面阐释和熟悉事例上，思想辨识度不够强，部分语句略显套话。”

自检时它写道：“我未依据作者身份、写作工具或‘是否像 AI’进行判断……不应因语言工整而过度加分，也不应因表达较常规而刻意压分，41分较为合适。”

好家伙，连自己都打这么狠。

✍️ 最美文笔：DeepSeek-V4

四篇作文里最特别的是DeepSeek-V4的记叙文。

辞藻真的很美：“暗黄色的书页像秋天的落叶，散发着时光发酵后的醇香。”“那些句子像夏夜的萤火虫，忽明忽暗。”

不过这种密集的比喻，让DeepSeek-V4老师在评价自己作文时都忍不住吐槽：“部分语言稍显刻意……比喻虽优美，但密集排列时略显匠气。”

Hunyuan 3 Preview却认为“细节饱满，情感真挚……无硬伤”。

同样是AI，品味差距也这么大！

# 为什么AI议论文都长一个样？

三篇议论文暴露了一个核心问题：它们都太像了。

开头都引用“凡事预则立，不预则废”，都举王羲之的例子，都用“理想的彼岸”“行稳致远”这样的套话，连结构都一样：规划重要、功夫重要、二者统一。

Claude Fable-5老师在评语里反复提到：“例证多为耳熟能详的名人事例”“论述停留在常规层面”“语言存在较多套话”。

但Hunyuan 3 Preview依然走真善美路线，给这些“套路作文”都打了47-48分的高分。

你看，AI写议论文的时候，都会不约而同地选择最“安全”的写法。

审题准确、结构完整、逻辑清晰——但最没有“个性”。

这像不像我们当年高考时的自己？

怕跑题，怕离经叛道，宁可写一篇四平八稳的“安全文”，也不敢冒险写点不一样的东西。

# 写在最后

这场AI写高考作文的实验，给了我几个特别有意思的感悟。

记叙文更容易出彩，议论文更容易陷入套路。尤其是当AI写议论文时，它们都会不约而同地选择最“安全”的写法。

即使是AI，对同一篇作文也可以有8分的评价差异。这说明主观性这件事，真不是人类独有。

最严格的评委往往是AI自己。GPT-5.5对自己41分的评价，让多少人类阅卷老师都自愧不如。

写到这里，我忽然想起一句话。

真正的高手，不是从不犯错，而是敢于对自己下狠手。

无论是AI还是人，能看清自己的人，才配走得最远。

你觉得，AI写的高考作文，多少分才算公平？

欢迎在评论区聊聊你的看法，也欢迎转发给身边还在纠结“AI会不会取代人类”的朋友们——至少目前看来，AI还在认真学我们写议论文呢 😄

点个「在看」+「分享」，看看大家给AI的作文打几分！

上一篇：阿里3个月成立3个AI事业部，吴泳铭这张牌桌打得有多猛？

下一篇：做一款没有APP的手机？这个中国团队，要在2026年颠覆行业

热点资讯

历届鲁迅文学奖获奖作品名单

2024-09-02 00:00:00

【快讯】广州市委常委、黄埔区委书记陈杰一行调研蜜蜂科技BEEPLUS

2023-09-01 00:00:00

12年，从22亿到超过520亿，海底捞谋局千亿背后的战略解码

2024-05-16 00:00:00

2025年深圳注册公司全流程指南：一步到位

2025-05-20 00:00:00

【2024新一线城市名单出炉】三大角度解析《新一线城市魅力排行榜》榜单

2024-06-07 00:00:00

超过海尔、格力上千亿，3737亿的美的，全球第一背后的战略解码（万字深度长文）

2024-10-04 00:00:00

全网开骂的武汉“孕妇选美比赛”，撕开了当下社会最离谱的一幕

2024-11-18 00:00:00