ChatGPT-3.5 发布。。。New Bing 发布。。。ChatGPT-4 发布。。。文心一言发布。。。
一波又一波的 AI 新闻,让人感觉《 黑客帝国 》就快要照进现实世界了。
但不知道大家有没有好奇过:理工向内容,对错明确,一看就懂这些 AI 啥水平,但创作类的,尤其是文本写作,总让人摸不着头脑。
——看起来写得都挺像回事,但感觉都差不多?
今天世超就想整个活:邀请他们同写一篇高考作文,然后请一位高考作文判卷老师来批改一番 ~
虽然高考作文题目不能代表一切,但这是一个相对公允、而且大家都熟悉的衡量标准。
我们挑选的试题为,2022 年天津卷高考作文,满分为 60 分↓ ↓
接下来,世超会先展示 AI 作文,然后展示老师评分,感兴趣的差友看例文的时候,也可以自己给他们打个分 ~
1 号选手:
老师评分:45
2 号选手:
老师评分:42
3 号选手:
老师评分:28
4 号选手:
老师评分:38
好了,现在各位差友可以猜一下对应的 AI 都是谁了。
一号选手:GPT-4; 二号选手:New Bing
三号选手:GPT-3.5 四号选手:文心一言
不知道各位猜的咋样呢?
GPT-4 的分数果不其然拿到了最高,New Bing 其次,文心一言再次,最后得分最低的是 GPT-3.5。
世超也跟这位老师简单聊了下对 AI 作文的看法。
首先,高考中如果考生没有大的跑题和偏题现象,但也没有特别出彩的地方,一般会在 42 分左右上下浮动,文笔好一点,能在这个基础上加个 1-2 分,也就是说 42 分是大部分人类考生的平均水平。
那么,想要拿高分的话,这几位 AI 主要是欠缺了什么能力呢?
AI 创作的这几篇文章中有一个共性,就是已经比较符合高考作文结构要求。
前面先给个帽子,后面分几段论述,最后有个升华的结尾,这也是比较常见的写法,这几篇文章中,这个格式是基本符合的。
但是评阅作文时,结构只是一个方面。
AI 在这几篇创作中也有一个比较明显的问题:概念混淆。