點(diǎn)擊加載圖片
又一年高考開(kāi)始了,4000余萬(wàn)份高考試卷成績(jī),還有背后1078萬(wàn)考生的命運(yùn),都在各位閱卷組老師手中。
自1978年恢復(fù)高考,至今已有43年,高考閱卷拋棄了上世紀(jì)傳統(tǒng)的手改手核的方式,換上電腦開(kāi)始無(wú)紙化閱卷。近幾年,全國(guó)多省陸續(xù)試點(diǎn)人工智能閱卷。未來(lái),高考或許會(huì)拋棄人工,讓機(jī)器獨(dú)立閱卷。
這40多年里,技術(shù)是怎么改變了閱卷方式,高考閱卷有沒(méi)有變得更容易,考生有沒(méi)有得到公正對(duì)待?
故事得從1977年講起。
一個(gè)人的“審判”
1977年,全國(guó)恢復(fù)了中斷十年的高考。
彼時(shí)的高考,保密工作并不完善。一門考試結(jié)束,監(jiān)考老師把收上來(lái)的答題紙摞好,用針線和牛皮紙裝訂起來(lái),遮擋考生信息,封進(jìn)密封袋。等到批改的時(shí)候,再發(fā)給閱卷老師。
點(diǎn)擊加載圖片
閱卷老師拿到答題紙,直接在答題紙上批改、核分。
那時(shí)的閱卷制度也不完善,沒(méi)有“雙批”“三批”的要求。一份試卷由一位閱卷老師手改手核,就決定了考生的命運(yùn)。
但人工閱卷是個(gè)累活,一場(chǎng)高考下來(lái),每個(gè)閱卷老師要批改逾千份試卷,頻繁翻頁(yè)導(dǎo)致的肩膀酸痛,讓常年伏案工作的閱卷老師們身體狀況雪上加霜。
后來(lái),為了減輕老師負(fù)擔(dān),也為了減少人為誤判,山東大學(xué)和重慶大學(xué)推出了一種自動(dòng)閱卷設(shè)備,并在1988年應(yīng)用于高考閱卷。
這種名為光標(biāo)閱讀機(jī)(Optical Mark Reader,即OMR)的設(shè)備,能夠通過(guò)光學(xué)掃描和石墨感應(yīng)技術(shù)[,識(shí)別答題卡上的客觀題答案,自動(dòng)給考生打分。
點(diǎn)擊加載圖片
1990年,高考實(shí)行標(biāo)準(zhǔn)化考試,把考題分成客觀題和主觀題兩部分??陀^題的答案寫(xiě)在答題卡上,交給光標(biāo)閱讀機(jī)處理,而主觀題仍然由老師手改手核。
點(diǎn)擊加載圖片
可手改手核的方式過(guò)于落后,不僅卷子流轉(zhuǎn)效率慢,批改、傳閱、核分環(huán)節(jié)費(fèi)時(shí)費(fèi)力,而且泄密風(fēng)險(xiǎn)更高。曾任職于某省閱卷組的Z老師在接受放大燈團(tuán)隊(duì)采訪時(shí)表示,試卷從考場(chǎng)轉(zhuǎn)移到閱卷老師手中,有許多環(huán)節(jié),保不齊會(huì)出什么岔子。
直到世紀(jì)之交,計(jì)算機(jī)技術(shù)改變了生活,也改變了高考的閱卷制度,評(píng)卷進(jìn)入無(wú)紙化階段。
眼藥水換來(lái)公平
1997年,山東大學(xué)起草了光標(biāo)閱讀機(jī)行業(yè)第一個(gè)行業(yè)標(biāo)準(zhǔn)。第二年,苦于尋不到合適的生產(chǎn)商,山東大學(xué)決定自立門戶——成立山東山大鷗瑪信息產(chǎn)業(yè)有限公司。新成立的山大鷗瑪,不僅生產(chǎn)光標(biāo)閱讀機(jī),還涉足研發(fā)閱卷系統(tǒng),將全部考生的答題卡上傳至電腦,實(shí)現(xiàn)網(wǎng)上閱卷,又稱無(wú)紙化閱卷。
1999年高考,廣西率先在英語(yǔ)試卷上試點(diǎn)網(wǎng)上閱卷??忌芽陀^題答案涂在答題卡上,由光標(biāo)閱讀機(jī)判卷,而主觀題則寫(xiě)在另一張答題紙上,送進(jìn)掃描儀掃描,傳給后方閱卷老師。而閱卷老師只需要坐在電腦前點(diǎn)點(diǎn)鼠標(biāo)、敲敲鍵盤(pán),就能完成評(píng)卷。
次年,廣西又把試點(diǎn)范圍從英語(yǔ)擴(kuò)大到語(yǔ)文作文。云南、江西、遼寧等地也效仿廣西,在保送生能力測(cè)試等考試中嘗試網(wǎng)上閱卷。
隨著先進(jìn)閱卷技術(shù)的普及,行業(yè)很快進(jìn)入了光標(biāo)閱讀機(jī)的時(shí)代。
到2005年,各地中高考、公務(wù)員考試、司法考試,以及各類國(guó)家職業(yè)資格考試和技術(shù)職稱考試,紛紛采用標(biāo)準(zhǔn)化試卷、機(jī)讀閱卷,給光標(biāo)閱讀機(jī)帶來(lái)大量需求。
山大鷗瑪是國(guó)內(nèi)光標(biāo)閱讀機(jī)的先驅(qū),但國(guó)內(nèi)龐大的考試閱卷市場(chǎng),可不是它一家獨(dú)享。同一時(shí)期成立的科大訊飛子公司廣東訊飛啟明、拓維信息子公司深圳海云天,還有以河北南昊為代表的衡水系公司,均得益于此,拿到大量政府和學(xué)校訂單,快速發(fā)展起來(lái)。
轉(zhuǎn)變發(fā)生在2013年,全國(guó)高考實(shí)行網(wǎng)上閱卷,市場(chǎng)也發(fā)生了新的變化。
一方面,高考實(shí)行全部無(wú)紙化閱卷,主觀題與客觀題均在網(wǎng)上批改,而傳統(tǒng)的光標(biāo)閱讀機(jī)卻只“認(rèn)識(shí)”選擇題,無(wú)法滿足閱卷要求。
另一方面,光標(biāo)閱讀機(jī)的速度已顯得捉襟見(jiàn)肘。因技術(shù)路線不同,光標(biāo)閱讀機(jī)的讀卡速度為每小時(shí)5000張A4答題卡,而掃描儀每小時(shí)掃描上萬(wàn)張A3答題卡也綽綽有余。
點(diǎn)擊加載圖片
所以,2013年以后,光標(biāo)閱讀機(jī)的銷量開(kāi)始下滑,高速掃描儀登臺(tái)亮相。
高考答題卡也從原本主觀題與客觀題分開(kāi)的兩張合二為一,變成了一張大尺寸的A3答題卡。
掃描儀會(huì)掃描整個(gè)卷面,在后臺(tái)按區(qū)切割圖片。客觀題直接機(jī)讀打分,主觀題通過(guò)網(wǎng)絡(luò)發(fā)給閱卷老師。
點(diǎn)擊加載圖片
這種由“掃描儀+網(wǎng)上閱卷軟件”組成的無(wú)紙化閱卷系統(tǒng),被各地教育考試院一直用到今天。
這與無(wú)紙化閱卷的優(yōu)點(diǎn)分不開(kāi)。
無(wú)紙化閱卷系統(tǒng)能夠簡(jiǎn)化閱卷流程。
掃描過(guò)的考卷,以照片的形式存檔,以網(wǎng)絡(luò)途徑傳輸,試卷的分發(fā)、評(píng)分、核分環(huán)節(jié)在線上自動(dòng)完成,不需要繁重的保密運(yùn)輸。
無(wú)紙化閱卷還能減少評(píng)分誤差。
中國(guó)教育網(wǎng)認(rèn)為,無(wú)紙化閱卷在簡(jiǎn)化閱卷流程的同時(shí),還能防止老師交換意見(jiàn),“從而減少評(píng)分誤差,確保評(píng)卷的質(zhì)量和公正”。
此外,閱卷軟件還能夠以程序的方式控制閱卷質(zhì)量,如:通過(guò)彈窗提醒的方式,提示閱卷人增減批改速度;把已經(jīng)評(píng)過(guò)的卷子隨機(jī)抽出重批,評(píng)估老師閱卷準(zhǔn)確率等。
更重要的是,由于閱卷現(xiàn)場(chǎng)看不到考生的試卷,也給保密工作帶來(lái)諸多便利。
無(wú)紙化閱卷固然方便,但電腦屏幕的加入,又加重了閱卷老師的用眼負(fù)擔(dān)。
全國(guó)高考統(tǒng)一網(wǎng)上閱卷的2013年,河北閱卷組要在9天時(shí)間里批完44.98萬(wàn)考生的試卷。據(jù)《燕趙都市報(bào)》的報(bào)道,2100名閱卷老師每天要在電腦前坐足8個(gè)小時(shí),9天時(shí)間共用掉了幾千瓶眼藥水。
既然老師閱卷辛苦,何不多聘請(qǐng)幾個(gè)老師分擔(dān)工作?
Z老師認(rèn)為這不太現(xiàn)實(shí),當(dāng)?shù)亻喚砝蠋煹难a(bǔ)貼是按件計(jì)費(fèi)的形式,為了保證老師的收入可觀,就必然要控制閱卷老師的總數(shù)?!翱紤]到閱卷工作對(duì)體力的要求,教育考試院一般只選擇年齡在50歲以下的老師閱卷?!盳老師補(bǔ)充。
近年來(lái),人工智能技術(shù)快速發(fā)展,或許會(huì)成為解救閱卷老師的希望。
誰(shuí)在雇傭AI閱卷?
人工智能閱卷的歷史,最早可以追溯到1996年。
美國(guó)杜克大學(xué)的埃利斯·佩奇設(shè)計(jì)開(kāi)發(fā)出一款名為PEG的作文評(píng)分系統(tǒng),是世界上最早智能評(píng)分系統(tǒng)。
到2005年,美國(guó)一家非盈利性考試服務(wù)中心Educational Testing Service(簡(jiǎn)稱ETS)便推出了一個(gè)名為E-rater的機(jī)器評(píng)分系統(tǒng),應(yīng)用于GRE、TOFEL等考試。
該組織官網(wǎng)資料,該系統(tǒng)用到了人工智能技術(shù)給試卷打分。這個(gè)AI系統(tǒng)不光能指出考生的語(yǔ)法、用詞和拼寫(xiě)錯(cuò)誤,在作文題中還可以評(píng)價(jià)考生的文章立意、組織結(jié)構(gòu)和語(yǔ)言風(fēng)格。
2016年,日本文部科學(xué)省宣布,考慮引入AI為日本高考判卷。
而國(guó)內(nèi)涉足AI評(píng)卷的科技公司,有兩家。
一家是阿里。2017年,浙江外國(guó)語(yǔ)學(xué)院在一次考試中,用阿里的人工智能系統(tǒng)給11為外國(guó)留學(xué)生的中文試卷閱卷,并宣稱AI閱卷準(zhǔn)確率已超過(guò)人類。
次年9月,阿里又發(fā)起一場(chǎng)全球數(shù)學(xué)比賽,“閱卷老師”同樣是阿里自研的人工智能。
另一家,則是發(fā)跡于教育的科大訊飛。
科大訊飛在早年便開(kāi)發(fā)出口語(yǔ)測(cè)評(píng)系統(tǒng),為多地普通話考試提供智能評(píng)分服務(wù)。后來(lái),訊飛又把注意力從口語(yǔ)轉(zhuǎn)向文字,研究智能批改技術(shù)。
2015年11月,科大訊飛曾在安慶、合肥等地的學(xué)校試點(diǎn)用AI批改作文;一個(gè)月后的科大訊飛年度發(fā)布會(huì)上,董事長(zhǎng)劉慶峰又推出智學(xué)網(wǎng),宣稱能實(shí)現(xiàn)全科閱卷、智能批改。
點(diǎn)擊加載圖片
2017年中考,湖北襄陽(yáng)首次引入訊飛的人工智能閱卷系統(tǒng)。一年后,安徽首次把該系統(tǒng)應(yīng)用于高考。
茲事體大,安徽教育考試院沒(méi)敢讓AI在高考中挑大梁,該系統(tǒng)主要用于作文題輔助閱卷,給老師“打打下手”。中安在線曾報(bào)道,“它在后臺(tái)對(duì)試卷進(jìn)行評(píng)判,與老師的閱卷結(jié)果進(jìn)行對(duì)照,如果偏差較大,會(huì)進(jìn)行提醒。”
雖然人工智能暫時(shí)還是“輔助”角色,但并不影響各地教育考試院的采購(gòu)熱情。自2018年起,科大訊飛先后中標(biāo)安徽、河北、湖北等地的采購(gòu)需求??拼笥嶏w智慧教育公眾號(hào)文章中稱,該技術(shù)每年服務(wù)的中高考考生,已超過(guò)600萬(wàn)。
點(diǎn)擊加載圖片
Z老師也表示,當(dāng)?shù)馗呖茧m然未曾使用過(guò)人工智能閱卷,但教育考試院的技術(shù)部門確實(shí)在對(duì)接相關(guān)事宜。
雖然暫時(shí)派不上什么用處,但往好處看,這些系統(tǒng)的采購(gòu)價(jià)格都不貴:
2018年8月,安徽省教育招生考試院采購(gòu)智能閱卷網(wǎng)評(píng)質(zhì)量控制服務(wù),價(jià)格為15.8萬(wàn)元;
2020年7月,湖北省教育考試院采購(gòu)高考人工智能評(píng)卷服務(wù)和研考人工智能評(píng)卷檢測(cè)服務(wù),價(jià)格為20.3萬(wàn)元;
2020年10月,河北省教育考試院采購(gòu)人工智能AI質(zhì)檢技術(shù)測(cè)試服務(wù),價(jià)格為19.76萬(wàn)元。
若按照每個(gè)高考閱卷老師補(bǔ)貼2000元計(jì)算,20萬(wàn)元不過(guò)是100個(gè)老師的成本。一旦投入使用,將給教育考試院節(jié)省大量人力支出。
誰(shuí)更有資格決定考生命運(yùn)?
從前,考生的命運(yùn)掌握在閱卷老師手心,他們答個(gè)卷都得想著閱卷老師的體驗(yàn):
答卷要用黑色簽字筆,閱卷老師看得更清楚;
寫(xiě)字要寫(xiě)楷體(至少要整潔),方便閱卷老師分辨;
答題卡要嚴(yán)格分區(qū),讓閱卷老師理解作答順序。
即便如此,人工閱卷仍然不盡人意。
2014年高考,有浙江閱卷老師反映閱卷速度過(guò)快,“主觀題平均用時(shí)9秒,作文平均1分鐘判閱完成”。上海交通大學(xué)教授、21世紀(jì)教育研究院副院長(zhǎng)熊丙奇稱此類問(wèn)題普遍存在,甚至有人直言高考閱卷是“草菅人命”。
2020年,一篇名為《生活在樹(shù)上》的滿分作文引發(fā)爭(zhēng)議,浙江語(yǔ)文評(píng)卷組作文組組長(zhǎng)被舉報(bào)開(kāi)課賣書(shū),“既做教練,又當(dāng)裁判”。
把閱卷任務(wù)交給AI,對(duì)考生來(lái)說(shuō)就是好事嗎?
與人工閱卷相比,AI不知疲倦、閱卷速度快,而且有標(biāo)準(zhǔn)統(tǒng)一,犯錯(cuò)幾率也小。但是,AI“眼中”的標(biāo)準(zhǔn),一定適用于高考嗎?
一方面,AI的偏見(jiàn)在閱卷中已有先例。
Vice曾指出,前述ETS的智能評(píng)分系統(tǒng)E-rater存在算法偏見(jiàn)——它更傾向于給中國(guó)學(xué)生高分,而給非裔美國(guó)學(xué)生、阿拉伯學(xué)生和西班牙學(xué)生低分。后經(jīng)ETS研究,發(fā)現(xiàn)這是由于中國(guó)學(xué)生作文篇幅更長(zhǎng),使用的句式和詞匯更加復(fù)雜。但拗口的句子和華麗的辭藻,顯然不是高考作文的“金標(biāo)準(zhǔn)”。
另一方面,AI閱卷系統(tǒng)的“智能程度”,還有待檢驗(yàn)。
2020年,美國(guó)一款服務(wù)于兩萬(wàn)所學(xué)校的AI閱卷系統(tǒng)被指存在漏洞,考生只要列出相應(yīng)關(guān)鍵詞,就能被系統(tǒng)識(shí)別并獲得高分。事實(shí)上,在中國(guó)高三學(xué)生群體中,“高分作文模板”也已流行多年,AI到底能給高分還是判定“抄襲”?一旦再出一篇半文半白的文章,AI讀得懂嗎?
根據(jù)科大訊飛在2021年4月公布的數(shù)據(jù),人工智能評(píng)閱語(yǔ)文作文的人機(jī)評(píng)分一致率為99.33%[14]。但若全國(guó)均使用人工智能閱卷,今年上千萬(wàn)的考生中,最終也會(huì)有7.2萬(wàn)人受到AI的不公正對(duì)待,誰(shuí)來(lái)保證少數(shù)考生的利益?
2020年8月,教育部考試中心稱要“堅(jiān)決維護(hù)高考評(píng)卷和命題工作公平公正”,但是要做到絕對(duì)的公平,靠人很難,靠AI也很遙遠(yuǎn)。
聯(lián)系客服