用最少題目得出最精確的分?jǐn)?shù)
——GMAC測(cè)評(píng)研究部副總裁郭凡民分享GMAT的奧秘
作為全球唯一的專為商科和管理專業(yè)研究生招生設(shè)計(jì)的標(biāo)準(zhǔn)化考試,經(jīng)企管理研究生入學(xué)考試(GMAT)已被全球近6100個(gè)管理專業(yè)研究生項(xiàng)目采用,被稱為商科研究生課程學(xué)術(shù)成功的可靠預(yù)測(cè)指標(biāo)。近日,管理專業(yè)研究生入學(xué)考試委員會(huì)(GMAC)測(cè)評(píng)研究部副總裁郭凡民在接受本報(bào)采訪中分享了這項(xiàng)考試是如何用最少的題目給出考生最精確的能力判斷。
記者:這項(xiàng)考試每年幫助全球的商學(xué)院篩選申請(qǐng)者,為什么這個(gè)考試被如此認(rèn)可?
郭凡民:其實(shí),這項(xiàng)考試沒(méi)有把自己定義成一個(gè)承擔(dān)著向社會(huì)輸送各種高技能人才的考試。我們的目標(biāo)很現(xiàn)實(shí),作為一個(gè)入學(xué)考試,就是要為全球的商學(xué)院篩選出入學(xué)以后能夠很好地完成學(xué)業(yè)的優(yōu)秀學(xué)生。那么,什么樣的學(xué)生能夠達(dá)到這樣的要求?我可以確定,如果你的成績(jī)很高,那就意味著你入學(xué)以后可能會(huì)學(xué)得好,或者學(xué)得更好,或者說(shuō)你輟學(xué)的機(jī)會(huì)更少。
因此,它不是一個(gè)大學(xué)畢業(yè)生的結(jié)業(yè)考試,不是測(cè)試考生學(xué)了什么,學(xué)會(huì)了什么,學(xué)到什么程度,而是測(cè)試考生在學(xué)習(xí)的過(guò)程中有沒(méi)有養(yǎng)成一種能夠順利參與商學(xué)院研究生學(xué)習(xí)所需要的基本能力,例如推理能力、邏輯辨別能力、分析能力等。這些能力也是一個(gè)人未來(lái)從事管理專業(yè)或技術(shù)性工作的基本要求。因?yàn)樯虒W(xué)院申請(qǐng)者的專業(yè)背景是多樣的,有學(xué)管理的、學(xué)文學(xué)的、學(xué)理工的,所以,這項(xiàng)考試用數(shù)學(xué)和語(yǔ)言的基本概念和技巧來(lái)測(cè)試考生的能力,這樣也能保證對(duì)考生的公平。
記者:從測(cè)試內(nèi)容來(lái)講,這項(xiàng)考試是怎么樣從考題中、從學(xué)生答案中,來(lái)判斷考生的素質(zhì)和能力的?
郭凡民:試題中有一些題目是測(cè)試學(xué)科知識(shí),也有大部分題目是測(cè)試考生會(huì)不會(huì)通過(guò)現(xiàn)有知識(shí)進(jìn)行推理、判斷的能力,著重點(diǎn)是在于邏輯分析、推理方面,而不是在考查學(xué)科知識(shí)方面。
例如,在定量推理(quantitative reasoning)部分,我們的落腳點(diǎn)是在推理上面,所涉及的數(shù)學(xué)知識(shí)其實(shí)不深。個(gè)別題目是高中一年級(jí)水平,絕大部分都是初中二年級(jí)左右的數(shù)學(xué)知識(shí),中學(xué)的數(shù)學(xué)教學(xué)就能夠覆蓋了。但是對(duì)于考生來(lái)說(shuō),并不是會(huì)某個(gè)數(shù)學(xué)的運(yùn)算技能,就能夠解題,因?yàn)槲覀儗?shí)際上是利用數(shù)學(xué)的知識(shí)技能來(lái)考查推理能力。例如,一個(gè)考題類型叫“數(shù)據(jù)充分性判斷”(data sufficiency),每題給考生兩組已知條件,然后讓考生在5個(gè)選項(xiàng)中選擇正確的。第一個(gè)選項(xiàng)是“第一組給出的已知條件足夠進(jìn)行解題”;第二個(gè)選項(xiàng)是“第二組給出的已知條件足夠解題”;第三個(gè)選項(xiàng)是“兩組已知條件合起來(lái)可以解題,其中單個(gè)不夠”;第四個(gè)選項(xiàng)是“兩組中任意一組已知條件足夠解題”;第五個(gè)選項(xiàng)是“兩組合起來(lái)也不夠”。
所以,從某種角度來(lái)說(shuō),定量推理考查的是數(shù)學(xué)的一部分技能,我們只是借用了較基礎(chǔ)的數(shù)學(xué)技能來(lái)測(cè)試考生的邏輯推理能力。當(dāng)然,文本邏輯推理部分也一樣,我們會(huì)提供一篇文章,測(cè)試考生讀完了以后能不能得出某種結(jié)論,或者說(shuō)哪種結(jié)論是對(duì)的,哪種結(jié)論是不對(duì)的。而綜合推理部分則是從更高層次上考查邏輯推理的能力。
記者:從技術(shù)層面來(lái)講,這項(xiàng)考試如何測(cè)試出考生的真實(shí)能力?
郭凡民:它是一種自適應(yīng)考試??忌诳荚囉?jì)算機(jī)面前的時(shí)候,面對(duì)的是一個(gè)題庫(kù),計(jì)算機(jī)根據(jù)考生的答題水平,給出相應(yīng)的考題。
為什么這么做?舉例來(lái)說(shuō),考試中有人得200分,有人得800分,不應(yīng)該使用一套考卷來(lái)測(cè)試不同水平的群體。拿800分難度的考題給只有200分水平的考生完全是挫傷他的積極性。反過(guò)來(lái),800分的學(xué)生答200分難度的題目也浪費(fèi)考生的時(shí)間。
計(jì)算機(jī)自適應(yīng)考試就是這樣的一種考試,首先假定考生是一個(gè)中等水平的學(xué)生,先給出一道題,如果這道題答對(duì),那么計(jì)算機(jī)就會(huì)選一個(gè)比該題難度更高一點(diǎn)的題目。答完后,電腦將兩題合起來(lái)給考生評(píng)一次分,然后根據(jù)這個(gè)成績(jī)?cè)龠x第三題。再把三道題合起來(lái)給考生打一次分,四道題合起來(lái)打一次分,計(jì)算機(jī)每次選出的下一道題都是難度最適合考生當(dāng)前水平的題目。
實(shí)際上,自適應(yīng)考試是根據(jù)每一個(gè)人的實(shí)際水平出一套最合適他的考題。自適應(yīng)考試可以用最少的題目,在最短的時(shí)間內(nèi)得出考生最精確的分?jǐn)?shù)。有些考試是把試卷分成兩個(gè)或三個(gè)部分,計(jì)算機(jī)按考生水平選擇難度合適的下一部分考題,而且只能進(jìn)行一次或兩次自適應(yīng)選題。但經(jīng)企管理研究生入學(xué)考試是以試題為自適應(yīng)選題的單位,每一道題完了以后,計(jì)算機(jī)都給考生測(cè)分?jǐn)?shù),并根據(jù)分?jǐn)?shù)選下一道題,因此是效率最高的考試模式。
記者:那么,寫(xiě)作部分的閱卷如何進(jìn)行,如何給出合理的分?jǐn)?shù)?
郭凡民:經(jīng)企管理研究生入學(xué)考試是全世界高風(fēng)險(xiǎn)入學(xué)考試?yán)锩娴谝粋€(gè)采用計(jì)算機(jī)批閱作文的。在機(jī)器閱卷方面,我們做了很多研究。在我們分析計(jì)算機(jī)閱卷能夠給出可靠的分?jǐn)?shù)之后,我們把這一技術(shù)用于閱卷。一直以來(lái),我們采取人機(jī)閱卷結(jié)合的方式,計(jì)算機(jī)閱卷給出一個(gè)分?jǐn)?shù),閱卷考官再給出另外一個(gè)分?jǐn)?shù)。這兩個(gè)分?jǐn)?shù)相差如果在一分以上,我們會(huì)再請(qǐng)更高一個(gè)層次的,比如說(shuō)閱卷組長(zhǎng)再給一個(gè)分?jǐn)?shù)。在這種情況下,閱卷組組長(zhǎng)給的那個(gè)分?jǐn)?shù)會(huì)替代其他兩個(gè)分?jǐn)?shù)。
記者:計(jì)算機(jī)能測(cè)評(píng)考生文章的語(yǔ)法、結(jié)構(gòu)和表達(dá)藝術(shù)嗎?
郭凡民:考試技術(shù)正在發(fā)生突破性或顛覆性變化,我們正處在這個(gè)變化之中。因?yàn)?,早期的機(jī)器閱卷是從語(yǔ)法開(kāi)始的。計(jì)算機(jī)閱卷一方面可以考查語(yǔ)法,也可以考查段落之間的修辭手法。比如一共要給三個(gè)論據(jù),這三個(gè)論據(jù)是否一致,這三個(gè)論據(jù)之間是否有過(guò)渡詞、關(guān)聯(lián)詞。從某種角度來(lái)說(shuō),當(dāng)前的計(jì)算機(jī)閱卷已經(jīng)超越了純語(yǔ)法的考查。從語(yǔ)言學(xué)角度來(lái)看,有相當(dāng)一部分超段落,若干個(gè)段落組成的大段之間,機(jī)器可以考查文章內(nèi)部的過(guò)渡、連接等。
記者:您剛才提到現(xiàn)在對(duì)于機(jī)器閱卷來(lái)說(shuō)是關(guān)鍵的轉(zhuǎn)折期,為什么?
郭凡民:一些人工智能研究,特別是一些深層學(xué)習(xí)的研究,一旦獲得成功就很可能會(huì)給機(jī)器閱卷帶來(lái)革命性變化。人工智能從某種角度上來(lái)說(shuō),有可能超越對(duì)詞匯、語(yǔ)法、段落的分析,在語(yǔ)義分析上有重大突破。機(jī)器閱卷很可能在新的層面上,利用這些新技術(shù)。未來(lái)的機(jī)器閱卷,很可能會(huì)出現(xiàn)質(zhì)的變化。它不但能夠判斷,還能一邊學(xué)習(xí),一邊判斷。人工智能的引入,很可能會(huì)引起機(jī)器閱卷顛覆性的變化。
其實(shí),我們的測(cè)試也在不斷地更新和發(fā)展。因?yàn)槟壳皢渭兝脭?shù)學(xué)和文字語(yǔ)言來(lái)做考試介質(zhì),已經(jīng)不能適應(yīng)能力考查的需求,特別是商界管理所需要的技能。作為管理者,需要對(duì)多種數(shù)據(jù)進(jìn)行分析,例如大數(shù)據(jù)、調(diào)查報(bào)告、圖表、錄像、錄音等多重信息。對(duì)于這些元素的綜合分析和考查,傳統(tǒng)的多項(xiàng)選擇試題類型很難做到。這也是我們?cè)?012年增加了綜合推理部分的原因。(本報(bào)記者 張東)
《中國(guó)教育報(bào)》2016年12月23日第5版
聯(lián)系客服