欢迎来到淘宝彩票下载_淘宝彩票官方版免费下载_淘宝彩票网官网首页! 联系我们 网站地图

淘宝彩票下载_淘宝彩票官方版免费下载_淘宝彩票网官网首页

0379-65557469

淘宝彩票网官网首页
全国服务热线
0379-65557469

电话: 0379-65557469
0379-63930906
0379-63900388 
0379-63253525   
传真: 0379-65557469
地址:洛阳市洛龙区开元大道219号2幢1-2522、2501、2502、2503、2504、2505室 

淘宝彩票网官网首页

淘宝彩票下载-GRE作文用AI打分,现已20周年了:AI给我国考生的分数,远高于人类打分

作者:admin 发布时间:2019-10-08 19:30:55 浏览次数:298
打印 收藏 关闭
字体【
视力保护色

栗子 发自 凹非寺

量子位 报道 | 公众号 QbitAI

GRE作文用了AI打分。

这原本不能算个新闻。

但由于美媒VICE发布的一项调查,这件事又成了热烈讨论的焦点。

VICE调查了美国的50个州,发现有至少21个州 (包括加州) 的教育系统,已经把AI当成作文打分的主要/第二主要工具,用在标准化考试里。

蓝=AI打分,浅蓝=有试点,红=无AI打分,桃红=看学区,灰=未回应

这21个州里,只有3个州表示,人类也会参与作文打分;余下18个州,只会随机抽出5%-20%的作文,交给人类复核一下AI给的成绩。

问题是,标准化考试常常作为选拔依据,左右人类前途。AI打分的话,命运就在AI手里了。

这时,人们不免想起了GRE,这个20年前就开始用AI判作文的大前辈。

有有不少研究表淘宝彩票下载-GRE作文用AI打分,现已20周年了:AI给我国考生的分数,远高于人类打分明,包括GRE打分机器e-rater在内,许多AI评判文章的机制,都有明显的缺陷。

不过经年累月,AI不但没有被各种作文考试抛弃,反而越发受欢迎了。

于是,Hacker News网友开启了激烈的讨论,不到一日热度便有了330+。

G淘宝彩票下载-GRE作文用AI打分,现已20周年了:AI给我国考生的分数,远高于人类打分RE:机器比人更偏爱中国考生

早在1999年,主办GRE的美国教育考试服务中心 (ETS) ,就开始用e-rater给作文打分了。

跟据官方信息,这个自然语言处理 (NLP) 模型,评分标准有以下8条:

基于词汇考量的内容分析 (Content Analysis Based on Vocabulary Measures)

词汇复杂度/措辞 (Lexical Comlexity/Diction)

语法错误比例 (Proportion of Grammar Errors)

用法错误比例 (Proportion of Usage Errors)

机械错误比例 (Proportion of Mechanics Errors)

指拼写错、大小写错、标点错等等技术问题。

风格评论比例 (Proportion of Style Comments)

比如,某个短语出现过多,太短的句子过多,太长的句子过多等等。

文章组织和发展分 (Organization and Development Scores)

地道用语 (Features Rewarding Idiomatic Phraseology)

基于词汇考量的内容分析 (Content Analysis Based on Vocabu淘宝彩票下载-GRE作文用AI打分,现已20周年了:AI给我国考生的分数,远高于人类打分lary Measures)

词汇复杂度/措辞 (Lexical Comlexity/Diction)

语法错误比例 (Proportion of Grammar Errors)

用法错误比例 (Proportion of Usage Errors)

机械错误比例 (Proportion of Mechanics Errors)

指拼写错、大小写错、标点错等等技术问题。

风格评论比例 (Proportion of Style Comments)

比如,某个短语出现过多,太短的句子过多,太长的句子过多等等。

文章组织和发展分 (Organization and Development Scores)

地道用语 (Features Rewarding Idiomatic Phraseology)

当然,这只AI不止服务GRE。至少,托福和GRE一样,也是ETS出品的考试。

至于这套算法的缺陷都出在哪,ETS官方就做过不少研究,且从不避讳研究结果。

在1999、2004、2007、2008、2012和2018年的作文里,都能发现AI给中国大陆考生的分数,普遍比人类打分要高。

相反,在非裔美国人身上,AI常常比人类给分要低。在母语是阿拉伯语、西班牙语和印地语的考生那里,也有相似的情况。即便团队一直改进算法,也没有消除这个问题。

ETS的一位高级研究员说:

如果我们想让算法对某个国家的某个群体友好一些,那就很可能会伤害到其他群体了。

如果我们想让算法对某个国家的某个群体友好一些,那就很可能会伤害到其他群体了。

再进一步,分单项来观察AI的打分情况。

会发现在全部考生里面,e-rater给中国大陆考生的语法(Grammar) 和写作技巧(Mechanics) 分,整体偏低;

而在文章长度和复杂单词的选用上,中国大陆考生的AI打分超过平均。最终,AI给大陆考生的总分,整体比人类打分更高。GRE作文满分6分,AI比人类打分平均高出1.3分

相比之下,在非裔美国人身上,AI比人类打分平均要低0.81分。以及,这只是平均数据,在许多考生那里,差异来得比这更剧烈。

不论是1.3还是0.81,在6分制的考试里都不是小数字,可能严重影响考生的成绩。

不止如此,MIT的小伙伴们开发过一个叫BABEL的算法,把复杂的词句拼贴在一起,得出的文章没有任何实在的意义,却被GRE的线上评分工具ScoreItNow!打出了4分的好成绩。

但ETS说,AI不是单独判卷,每篇AI打分的作文,都有一个人类同时打分。然后,把人机打分之间的差异,交给第二个人类去判断,得出最终的分数。

所以,ETS认为考生并不会受到AI缺陷的不利影响。

不过对比一下,传统方法是两个人类同时给一篇文章打分;而当AI替代其中一人打分,相当于这个人的职责变成了复核。

成本大概下降了不少,对结果的影响有多大就很难说,至少打分机制和AI参与之前有差别了。

另外,AI的存在不止影响评分,也直接影响考生的应试策略。这些年,讨好AI的攻略越来越多:

来自ChaseDream论坛@竹林中人

还好,GRE有人类和AI一起打分。

可还有许多考试是直接交给AI判作文的:

不止GRE算法有问题

比如,VICE调查发现,犹他州把AI作为主要 (Primary) 作文评分工具,已经有些年头了。

州内的一位官员解释了原因:

手动打分除了耗费时间之外,也是本州一项重大开支。

手动打分除了耗费时间之外,也是本州一项重大开支。

所以,用AI来为写作评分,在降低成本的同时,能不能做到公平公正?

美国研究协会 (American Institutes of Research,AIR) 是一间非盈利机构,也是犹他州最主要的考试提供方。

关于交给AI打分的是怎样的题目,AIR给出了一个范本:

这道题目是,看到一张海牛图像,考生要写出一个观察 (A) ,和一个推理 (B) 。

而AIR每年都会做出一份报告,评估一些新题目的公平性。

评估的一个重点就是:女生和少数族裔学生,在特定考题上,是不是比男性/白人的表现要差。这个指标叫做“差异试题功能 (DIF) ”。

报告显示,2017-2018学年、三至八年级的写作考题里,有348题被判定为,对女生和少数族裔学生有轻微DIF;相比之下,对男生和白人学生有轻微DIF的题目有40

另外,还有3道题被判定为:对女生和少数族裔学生有严重DIF。这些题目会交由专门的委员会审核。

可能造成DIF的原因有多种,而算法偏见是大家最关心的因素。

一位来自犹他州的家长 (@dahart) ,占据了Hacker News讨论版的顶楼。

他很不喜欢听那些官员讲“成本”。他觉得,教育本来就是费时费力的,不可能又快又便宜。

他说,孩子的作文是机器打分,全家不满意AI给的分数,爱人和孩子都会哭。

One More Thing

当然,AI判作文也不止美国才有。

去年,《南华早报》说国内已经有6万所学校靠AI批改作业,分布在全国各地。

其中,学生提交的英文作业,也是机器打分。作文批改系统来自酷句批改网,要理解文字的一小规模纳税人和一般纳税人的区别般逻辑和意思,对作文的整体质量做出像人一样合理的评判,还要在写作风格、淘宝彩票下载-GRE作文用AI打分,现已20周年了:AI给我国考生的分数,远高于人类打分结构、主题等方面给出建议。

据说,AI和人类教师对一篇作文的评分,在92%的情况下是一致的。

但从评论来看,同学们也像美国的小伙伴一样,受了不少委屈:



这样的情感,还是不分国界的。

参考资料:

https://www.vice.com/en_us/article/pa7dj淘宝彩票下载-GRE作文用AI打分,现已20周年了:AI给我国考生的分数,远高于人类打分9/flawed-algorithms-are-grading-millions-of-students-essay淘宝彩票下载-GRE作文用AI打分,现已20周年了:AI给我国考生的分数,远高于人类打分s

https://www.washingtonpost.com/news/answer-sheet/wp/2016/05/05/should-you-trust-a-computer-to-grade-your-childs-writing-on-common-core-tests/

ETS发的许多NLP论文:

https://www.ets.org/research/topics/as_nlp/writing_quality/

大会启幕!预见智能科技新未来

量子位MEET 2020智能未来大会启幕,将携手优秀AI企业、杰出科研人员呈现一场高质量行业盛会!详情可点击图片:

榜单征集!三大奖项,锁定AI Top玩家

2019中国人工智能年度评选启幕,将评选领航企业、商业突破人物、最具创新力产品3大奖项,并于MEET 2020大会揭榜,欢迎优秀的AI公司扫码报名!

量子位 QbitAI 头条号签约作者

'ᴗ' 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

版权所有:洛阳市建设工程咨询有限责任公司 联系人:李经理 电话: 地址:洛阳市洛龙区开元大道219号2幢1-2522、2501、2502、2503、2504、2505室
版权所有 淘宝彩票下载 琼ICP备149797968号-6