

你有没有想过,如果让AI去参加高考,它们能拿多少分?
我猜你会说:肯定比我强。但结果,可能真不一定。
前两天正好赶上高考,我心里一动:不如让现在最火的几个大模型,来场AI版的高考作文PK赛。它们自己写,再自己当阅卷老师——这画面,想想就刺激。
我选了两款国外大模型GPT-5.5、Fable-5,和两款咱们国内的DeepSeek-V4、Hunyuan 3 Preview。
题目用的是北京卷,给了两个选择:要么写议论文《做规划与下功夫》,要么写记叙文《含英咀华》。
四篇作文,四位AI考生,四位AI阅卷老师。
一场AI对AI的考试,也是一场AI对AI的审视。
结果让我大跌眼镜。
四篇作文交上来,场面一度很尴尬。
GPT-5.5和Fable-5都选了议论文。结果一读,我差点以为自己在看同一个人写的。
开篇都引用了“凡事预则立,不预则废”,论证都是“规划决定方向,功夫决定距离”,举的例子都是王羲之、袁隆平、改革开放,结尾全都升华到“新时代青年”和“理想的彼岸”。
完全一模一样的结构,一模一样的老套路。
Hunyuan 3 Preview也选了议论文,稍微强点,加上了华为芯片、钱学森的例子。但整体框架依然没跑出“规划重要+功夫重要=成功”这个三段论。
只有DeepSeek-V4,选了记叙文《含英咀华》。
写的是祖父书房里的那本《诗经》。梧桐叶飘落的午后,暗黄色书页像秋天的落叶。写“桃之夭夭,灼灼其华”在夕阳下的顿悟,写因友情误会而翻开《诗经》的那个黄昏。
有情节,有细节,有成长。
情感浓度之高,差点让我以为自己在读一篇中学生优秀作文。
为了不让我自己当评委(毕竟太主观),我整了个循环机制:
四个模型先写作文,然后反过来扮演阅卷老师,给所有答卷盲测打分。
每位老师看不到作者名字,只能看到“作文1”“作文2”“作文3”“作文4”。
每篇作文打分后,还得写评语、做自检——问问自己“有没有受到文风、熟悉感、作者猜测等因素影响”。
直到自检合格,才能输出最终分数。
结果你猜怎么着?
同一篇作文,不同老师给出的分数可以相差8分!
这说明什么?说明AI也“各怀心思”。
有的老师更看重思想深度,有的更看重语言表达,有的对套话容忍度更高,有的对细节要求更严格。
这不就跟咱们人类阅卷老师一模一样嘛!
Hunyuan 3 Preview,真是心地最善良的那个。
它给四篇作文的平均分是48分,比另外两位老师都高。
给GPT-5.5打了48分,给DeepSeek-V4的记叙文直接满分50分!评语也格外温和:“审题完全扣题,结构清晰层进……”
这要是高考阅卷老师都这么温柔,考生得感动哭了。
Claude Fable-5是最严格的老师。
它给四篇作文的平均分只有42.25分,比Hunyuan 3 Preview低了将近6分。
它对套话的容忍度最低,反复在评语里写:“语言存在较多套话”“内容缺乏个性化思考”。
四篇作文的平均分:
记叙文比议论文略胜一筹,但差距不大。
三篇议论文的平均分几乎相同,因为评价也几乎相同:审题准确、结构完整、逻辑清晰,但材料常见、表达套路、思想深度不足。
最有意思的来了。
GPT-5.5给自己的作文打了41分——二类文上。
它的评语毫不留情:“论据较常见,论述多停留在正面阐释和熟悉事例上,思想辨识度不够强,部分语句略显套话。”
自检时它写道:“我未依据作者身份、写作工具或‘是否像 AI’进行判断……不应因语言工整而过度加分,也不应因表达较常规而刻意压分,41分较为合适。”
好家伙,连自己都打这么狠。
四篇作文里最特别的是DeepSeek-V4的记叙文。
辞藻真的很美:“暗黄色的书页像秋天的落叶,散发着时光发酵后的醇香。”“那些句子像夏夜的萤火虫,忽明忽暗。”
不过这种密集的比喻,让DeepSeek-V4老师在评价自己作文时都忍不住吐槽:“部分语言稍显刻意……比喻虽优美,但密集排列时略显匠气。”
Hunyuan 3 Preview却认为“细节饱满,情感真挚……无硬伤”。
同样是AI,品味差距也这么大!
三篇议论文暴露了一个核心问题:它们都太像了。
开头都引用“凡事预则立,不预则废”,都举王羲之的例子,都用“理想的彼岸”“行稳致远”这样的套话,连结构都一样:规划重要、功夫重要、二者统一。
Claude Fable-5老师在评语里反复提到:“例证多为耳熟能详的名人事例”“论述停留在常规层面”“语言存在较多套话”。
但Hunyuan 3 Preview依然走真善美路线,给这些“套路作文”都打了47-48分的高分。
你看,AI写议论文的时候,都会不约而同地选择最“安全”的写法。
审题准确、结构完整、逻辑清晰——但最没有“个性”。
这像不像我们当年高考时的自己?
怕跑题,怕离经叛道,宁可写一篇四平八稳的“安全文”,也不敢冒险写点不一样的东西。
这场AI写高考作文的实验,给了我几个特别有意思的感悟。
记叙文更容易出彩,议论文更容易陷入套路。尤其是当AI写议论文时,它们都会不约而同地选择最“安全”的写法。
即使是AI,对同一篇作文也可以有8分的评价差异。这说明主观性这件事,真不是人类独有。
最严格的评委往往是AI自己。GPT-5.5对自己41分的评价,让多少人类阅卷老师都自愧不如。
写到这里,我忽然想起一句话。
真正的高手,不是从不犯错,而是敢于对自己下狠手。
无论是AI还是人,能看清自己的人,才配走得最远。
你觉得,AI写的高考作文,多少分才算公平?
欢迎在评论区聊聊你的看法,也欢迎转发给身边还在纠结“AI会不会取代人类”的朋友们——至少目前看来,AI还在认真学我们写议论文呢 😄
点个「在看」+「分享」,看看大家给AI的作文打几分!