我把 ChatGPT 们拉到一起来了轮高考作文大乱斗_网络安全检测|网络安全服务|网络安全扫描-香港墨客投资

我把 ChatGPT 们拉到一起来了轮高考作文大乱斗

网络渗透测试 | 2023-03-23 00:11

ChatGPT-3.5 发布。。。New Bing 发布。。。ChatGPT-4 发布。。。文心一言发布。。。

一波又一波的 AI 新闻，让人感觉《黑客帝国》就快要照进现实世界了。

我把 ChatGPT 们拉到一起来了轮高考作文大乱斗

关于它们的测评，相信大家已经看过不少。

但不知道大家有没有好奇过：理工向内容，对错明确，一看就懂这些 AI 啥水平，但创作类的，尤其是文本写作，总让人摸不着头脑。

——看起来写得都挺像回事，但感觉都差不多？

今天世超就想整个活：邀请他们同写一篇高考作文，然后请一位高考作文判卷老师来批改一番 ~

虽然高考作文题目不能代表一切，但这是一个相对公允、而且大家都熟悉的衡量标准。

我们挑选的试题为，2022 年天津卷高考作文，满分为 60 分↓ ↓

我把 ChatGPT 们拉到一起来了轮高考作文大乱斗

邀请的判卷老师是一位资深的天津高考作文判卷老师。

接下来，世超会先展示 AI 作文，然后展示老师评分，感兴趣的差友看例文的时候，也可以自己给他们打个分 ~

1 号选手：

我把 ChatGPT 们拉到一起来了轮高考作文大乱斗

老师解析：文章截取生活中的平常瞬间和场景，阐述了烟火气代表的寻常生活的珍贵，文笔流畅优美。结尾主旨升华为珍惜当下的生活，体会平凡之美，立意贴切。文中在勇于担当和奉献的论述时略显脱离主题。本文已基本达到高考作文的二类水平，为一般考生写作的中上水平。从 AI 创作角度看，文章质量优于一般考生的 50%。

老师评分：45

2 号选手：

我把 ChatGPT 们拉到一起来了轮高考作文大乱斗

老师解析：文章以作者自身的经历来阐发烟火气，切入点可取，但在行文中对烟火气与自身生活的联系的表述略显生硬，最后的升华也应围绕烟火气的主题来展开。本文为高考作文二类下水平，基本达到高考作文的平均分值，但以 AI 写作来看，在文章倒数第二段出现了明显不符合日常写作的语言表达，是较明显的扣分点。

老师评分：42

3 号选手：

我把 ChatGPT 们拉到一起来了轮高考作文大乱斗

老师解析：本文对 " 烟火气 " 的理解出现问题。审题有误。将烟火气与烟花燃放混同，因此判定为跑题。此文因明显对题目关键词理解有误，故判定为不及格一档，明显 AI 在某些情况下对语言中的相近词或有隐含意的词语的分析上仍与人存在偏差。

老师评分：28

4 号选手：

我把 ChatGPT 们拉到一起来了轮高考作文大乱斗

老师解析：文章的开头基本符合题目要求，符合对烟火气的理解。但在后文中出现了段落首句主题句与后面的论证完全脱离的情况，主旨句合题，但论述部分跑题。这种情况影响整体文章的评分，属跑题套题作文。

老师评分：38

好了，现在各位差友可以猜一下对应的 AI 都是谁了。

一号选手：GPT-4；二号选手：New Bing

三号选手：GPT-3.5 四号选手：文心一言

不知道各位猜的咋样呢？

GPT-4 的分数果不其然拿到了最高，New Bing 其次，文心一言再次，最后得分最低的是 GPT-3.5。

世超也跟这位老师简单聊了下对 AI 作文的看法。

首先，高考中如果考生没有大的跑题和偏题现象，但也没有特别出彩的地方，一般会在 42 分左右上下浮动，文笔好一点，能在这个基础上加个 1-2 分，也就是说 42 分是大部分人类考生的平均水平。

那么，想要拿高分的话，这几位 AI 主要是欠缺了什么能力呢？

我把 ChatGPT 们拉到一起来了轮高考作文大乱斗

老师告诉世超，这几篇作文主要还是围绕题目本身来写，而想要变成比较优秀的高考作文（接近 50 或 50 分以上），就要对烟火气做引申，比如引申到日常身边微小的瞬间，往更深度的地方去说。

AI 创作的这几篇文章中有一个共性，就是已经比较符合高考作文结构要求。

前面先给个帽子，后面分几段论述，最后有个升华的结尾，这也是比较常见的写法，这几篇文章中，这个格式是基本符合的。

但是评阅作文时，结构只是一个方面。

AI 在这几篇创作中也有一个比较明显的问题：概念混淆。