在評價科學化方面,我們一方面要注重評價人才隊伍建設,評價專家要兼有基礎研究和應用研究的經(jīng)驗,同時還要專門培養(yǎng)教育政策評價方向的研究生;另一個方面要加強實證研究及教育數(shù)據(jù)庫的建設。美國教育評價研究的發(fā)展離不開健全的、數(shù)據(jù)詳實且及時更新的、公開的數(shù)據(jù)庫資源。
■嚴文蕃
有人存在的地方就有競爭,有競爭就需要有評價。然而,對人進行評價并不是一件容易的事,在高等教育領域中也不例外。教師評職稱、評頭銜要數(shù)論文,引人才又要看頭銜……論文不夠怎么辦?學術(shù)“造假注水”便滋生出來。
這樣的惡性循環(huán),引起了黨中央的注意,在2018年的兩院院士大會上,習近平總書記就指出,“人才評價制度不合理,唯論文、唯職稱、唯學歷的現(xiàn)象仍然嚴重”。近年來,為解決這一問題,中共中央、國務院和教育部等部門發(fā)布的系列重大政策將“四唯”“五唯”清理作為突破口,推動著我國高校和科研院所科研評價制度由一元走向多元的重大轉(zhuǎn)型與改革。
下面,筆者就將通過中美比較的視角,在對中美高等教育科研評價相關問題的優(yōu)劣特征進行分析比較的基礎上,探尋各自特點,力求促進和實現(xiàn)中美高等教育相互取長補短。
理解評價的本質(zhì)
要對中美高等教育科研評價相關問題的優(yōu)劣特征進行分析比較,明確評價概念在中美語境下的差異是前提。
教育評價在西方主要對應三個英文概念:Testing、Assessment和Evaluation。Testing,即考核、考試。Assessment,即各種能力測評。依據(jù)美國三大權(quán)威教育組織(美國教育研究會、美國心理學會、美國教育測量全國理事會)聯(lián)合編制的《教育與心理測試標準》,Testing即通過一種系統(tǒng)的方法,獲取有關人或項目的樣本信息,從而推斷出學生的知識、特征或傾向。Evaluation則側(cè)重對教育干預效果的測定,包括微觀層面教學策略效果的測定,以及宏觀層面國家教育政策效果的測定。
這三者間,考試為評價提供收集證據(jù)的工具,測評是各項考試的綜合,而考試和測評等多方面形成的證據(jù)可以支持有效的評價,三個概念間相互聯(lián)系,環(huán)環(huán)相扣。因此,一個完整的教育評價過程包括了考試、測評和評價三個階段。
那么,被人們廣泛討論、糾結(jié)的評價究竟是什么?該如何理解、剖析?
事實上,評價的本質(zhì)是基于材料和證據(jù)的搜集與分析,對教育各個環(huán)節(jié)及其特征和結(jié)果進行判斷的過程。比如,一所企業(yè)要想招聘一個人才,它需要該應聘者的簡歷,此外還要進行筆試、面試等,這都是根據(jù)材料和證據(jù)進行判斷的環(huán)節(jié)。
評價有三個基本要素,分別是判斷、標準、利益相關者。其中,作出判斷是評價過程的終端環(huán)節(jié);評價標準則是進行判斷的根本依據(jù)。而評價標準的制定往往很難統(tǒng)一,它取決于價值觀。因此,價值觀的不同是導致評價標準產(chǎn)生爭議的根源所在。
另外,任何評價過程都關涉多元的具有相互利益關系的主體。由于利益相關群體的多樣化和差異化、資源及時間的有限性,教育評價往往很難同時滿足各方利益訴求。但教育評價必須明確主要利益相關者,才能確定評價的價值導向、制定出符合利益相關主體需求的評價標準,繼而作出合理的服務利益相關主體的價值判斷。
評價工具——考試的誕生
在2300多年前的中國,科舉考試制度誕生了。沒有人能夠預想到,由此誕生的考試制度竟一直延續(xù)至今。而西方在教育測評領域的歷史則要比中國晚得多,以桑代克在1904年出版的教材《教育測量》和1923年出版的第一個斯坦福成就測驗(SATest)為其教育測評領域最早的里程碑式的標志。
除了考試產(chǎn)生先后的差異外,美國考試發(fā)展的歷程也與中國很不相同。
美國自上世紀30年代開始實施SAT考試,上世紀50年代開始實施區(qū)一級的標準化考試,上世紀70年代開始實施州一級的標準化考試,上世紀80年代擴大到全國考試,上世紀90年代后開始嘗試國際考核。SAT在發(fā)展至今的八十余年里,其形式和內(nèi)容基本上沒有改變,僅在寫作題目方面有所增添。考試發(fā)展的總體趨勢是實施的范圍和規(guī)模越來越大?梢,美國考試發(fā)展呈現(xiàn)自下而上的特征。
與之相反,中國考試的發(fā)展路徑則呈現(xiàn)自上而下的特征,往往始于國家統(tǒng)一考試,繼而逐漸放權(quán)到省和市。
雖然,中美教育和歷史文化背景不同,但是不同的考試發(fā)展路徑?jīng)]有優(yōu)劣之分,它們均服務于學生的發(fā)展和考試制度的不斷完善,也是完成評價的工具之一。
面向問責的教育評價
教育評價的主要功能之一是問責。以美國為例,其最重要的教育法案——《不讓一個孩子落后法案(NCLB)》即規(guī)定以考試結(jié)果作為問責的依據(jù)。根據(jù)NCLB法律要求,各州開發(fā)了州級統(tǒng)一考試,要求所有學生參加,并以測評結(jié)果為依據(jù)對教育管理者進行問責。以麻州為例,這一考試即馬薩儲塞州(以下簡稱麻州)綜合評估系統(tǒng)。依據(jù)這一系統(tǒng)的測評結(jié)果,麻州學校被評定為五個等級:1級代表優(yōu)異;2級代表合格;3級和4級代表較差(排名后20%的學校);5級代表 “長期表現(xiàn)不佳”。其中,3~4等級的學校會獲得額外支持與援助,5級學校將由麻州基礎教育部接管。同時,各個學校的管理者會接受相應的問責。
事實上,基于評價的問責制度對于教育質(zhì)量的提高有較為顯著的效果。通過波士頓公立學校NCLB問責結(jié)果統(tǒng)計(2013~2016),我們或許可以有更加直觀的感受。根據(jù)該統(tǒng)計,2013年,波士頓地區(qū)被統(tǒng)計的公立學校中1級21所、2級12所、3級59所、4級7所、5級2所;2014年,被統(tǒng)計的公立學校中,1級14所、2級22所、3級54所、4級7所、5級2所;2015年,被統(tǒng)計的公立學校中,1級14所、2級23所、3級53所、4級8所、5級2所;2016年,被統(tǒng)計的公立學校中,1級21所、2級24所、3級46所、4級9所、5級2所。從統(tǒng)計數(shù)據(jù)中可見,實行問責制度后,波士頓地區(qū)1級和2級的合格與優(yōu)質(zhì)公立學?倲(shù)基本呈現(xiàn)逐年增加的趨勢,3級和4級需要改進的學?倲(shù)逐漸減少,可見,以測評驅(qū)動問責可在一定程度上提高教育質(zhì)量。同時,測評也是實現(xiàn)教育公平的重要手段。考核不合格的學校多是弱勢群體學生集中的學校,通過考核問責,這些學校被動提高了學生的學業(yè)成績和教育質(zhì)量。
學業(yè)考試是評價的重要組成部分和依據(jù),但并不等同于評價。中美兩國的考試在綜合評價中占據(jù)的權(quán)重具有顯著的差別,按照學習階段(幼兒園、小學、初中、高中、大學),根據(jù)相關數(shù)據(jù),將中美學生考試在評價中的權(quán)重做成函數(shù)分布圖(如圖1所示),差異一目了然。
從圖中不難看出,中國學生在接受高等教育前各級考試、考核隨學段增長而逐年加碼,到了高中達到頂峰,大學后卻降下來,呈緩慢下降趨勢。相比之下,美國一直呈持續(xù)上升趨勢,直到博士研究生階段,其中,雖然在高中及以前一直低于中國,但是到大學以后高于中國。
由此可見,考評應符合人的發(fā)展規(guī)律,即隨年齡增長,對學生的考試要求、責任心期望等應相對增加。然而,在中國高等教育階段,考試沒有嚴格執(zhí)行或者效果沒有充分發(fā)揮,這可能是造成滿意度偏低的原因之一。
科學化的教育評價設計
除了在現(xiàn)行的考評上存在顯著差異外,在對于構(gòu)建科學化的教育評價設計上,中美兩國側(cè)重也不盡相同。
筆者基于對八本中國權(quán)威教育類綜合期刊篩選出的近三年評價主題相關論文的分析來看,大多數(shù)文獻側(cè)重于評價的基本理論探索和理論框架的構(gòu)建、引介及運用。這與美國相關文獻側(cè)重于以評價解決實際教育問題,及教育政策和干預效果評價的實證研究有一定的差異。
為了了解美國當前教育評價的目的與內(nèi)容、主要功能和科學方法,筆者對從美國教育評價領域最權(quán)威的學術(shù)期刊《教育評價與政策分析》中篩選的近三年來的81篇實證論文進行了分析。
從搜集的81篇論文來看,當前美國評價的主要內(nèi)容有:NCLB執(zhí)行效果的深入評價和持續(xù)問責、弱勢群體學生數(shù)學成績的提升、低收入家庭學生大學入學機會、校園突發(fā)事件對學生學業(yè)成績的影響等。這些文章也反映了美國教育評價中存在的兩個鐘擺現(xiàn)象:一是質(zhì)量和公平之間的平衡,另一個是知識和能力之間的均衡。評價的直接目的在于衡量學生的能力水平,而其終極目的是服務政策和教育公平。因此,美國教育評價更重視對政策干預效果的評價,探尋國家資助項目對教育公平起了多大作用,尤其是對弱勢學生群體(移民學生、西班牙裔學生、黑人學生、英語非母語的學生、特殊教育的對象、來自低收入家庭的學生、學業(yè)成就低的學生、女學生等)的干預效果如何。
若說,美國教育評價的核心內(nèi)容是質(zhì)量與公平,那么其主要功能則是問責和改進。
依據(jù)對81篇論文的分析,筆者發(fā)現(xiàn)59%的教育評價旨在完善政策和干預措施,32%的評價指向問責,其他9%的評價則意在引起政府關注、促進管理加強。例如,布萊恩·雅各布等學者對密歇根優(yōu)秀課程(MMC)的效果進行了評價與問責,發(fā)現(xiàn)MMC所包含的較高期望對學生的學習成績影響不大。
事實上,在美國教育評價的問責和改進功能往往是同時實現(xiàn)的。《每個學生都成功法案(ESSA)》就要求各州通過評價問責找出陷入困境的學校,繼而通過制定以證據(jù)為基礎的資助政策,扭轉(zhuǎn)其弱勢局面。
在美國,教育評價的科學化設計是學者們關注的重點之一。
依據(jù)篩選的文獻可見,美國教育評價科學化設計有兩個特點。一是由于教育的滯后性特征,美國所有教育干預都要做到長期跟蹤,否則教育效果不能顯現(xiàn)。二是強調(diào)使用實驗方法(隨機實驗和準實驗法)。所謂隨機實驗,就是將研究對象隨機分組,對不同組實施不同的干預,以對照效果的差異,具有能夠最大程度地避免實驗設計、實施中可能出現(xiàn)的各種偏倚,平衡混雜因素,提高統(tǒng)計學檢驗的有效性等諸多優(yōu)點,被公認為是評價干預措施的金標準。例如:凱瑟琳· M·布羅頓等學者利用一項隨機實驗發(fā)現(xiàn),威斯康星州的低收入家庭學生獲得額外助學金后,可以改善學生的學術(shù)成績和發(fā)展前景,從而得出了經(jīng)濟資助促進大學成功的方式之一是通過資助來減少學生兼職工作的時間從而提升其學習效果的結(jié)論。
而常用的準實驗研究設計則有標準或目標比較、等組對照、統(tǒng)計控制(前測和后測或只后測)、統(tǒng)計控制—后測控制組設計、其他前測—后測控制組設計、其他后測,僅從單個受試者設計中選取對照組的設計等。由于教育實驗對象是學生,要符合倫理原則,很難嚴格控制所有無關變量,因此常常采用準實驗法,即在實驗中未按隨機原則來選擇和分配被試,只把已有的研究對象作為被試,且只對無關變量作盡可能控制的實驗。筆者篩選的文獻中,也是此類研究較多。
事實上,不論采用何種評價方法,評價最核心的還是提供證據(jù)。美國教育研究院按照是否采用對比的科學研究方法、是否有真正的控制組和實驗組、是否隨機、是否能復制等標準區(qū)分了對“證據(jù)”“可能是證據(jù)”“沒有證據(jù)”的判定(詳見表1)。
在美國教育部和國家自然研究基金的每一個項目規(guī)劃中,必不可少的就是評價,且是第三方評價,重點是通過評價搜集數(shù)據(jù)以衡量項目干預的效果。干預的效果可以用效應量來表達,效應量越大說明效果越好。影響效應量的因素包括:干預的時間、參與者數(shù)量、開始時間(在學前班或幼稚園、一年級或以上)、結(jié)束時間(從干預結(jié)束到評價之間的時間間隔)、干預主題(閱讀、數(shù)學、語言、拼寫、其他科目)等。這值得中國學者借鑒,在評價設計中要注意控制好上述因素,最大程度地提高效應量。
總之,在筆者看來,美國的經(jīng)驗要批判性地借鑒。
首先,美國在對教育干預的及時性、過程性、客觀性、第三方評價方面的經(jīng)驗可以為我們提供有益借鑒。尤其對于一些中美共存的教育問題,如能力分班等,美國已經(jīng)做了半個多世紀的探索和研究,并對每一種干預都進行了評價,其成果非常值得我們參考。
其次,在評價科學化方面,我們一方面要注重評價人才隊伍建設,評價專家要兼有基礎研究和應用研究的經(jīng)驗,同時還要專門培養(yǎng)教育政策評價方向的研究生;另一個方面要加強實證研究及教育數(shù)據(jù)庫的建設。美國教育評價研究的發(fā)展離不開健全的、數(shù)據(jù)詳實且及時更新的、公開的數(shù)據(jù)庫資源。
最后,筆者建議我國不妨也創(chuàng)辦一本權(quán)威的、國際化的教育評價期刊,這將有利于集中中國教育評價的成果,同時也有利于國際交流與傳播。
(作者系美國馬薩諸塞大學波士頓分校終身教授、教育領導學系主任)
圖1中美學生考試在評價中的權(quán)重對比示意圖
表1關于證據(jù)質(zhì)量的分類
中國-博士人才網(wǎng)發(fā)布
聲明提示:凡本網(wǎng)注明“來源:XXX”的文/圖等稿件,本網(wǎng)轉(zhuǎn)載出于傳遞更多信息及方便產(chǎn)業(yè)探討之目的,并不意味著本站贊同其觀點或證實其內(nèi)容的真實性,文章內(nèi)容僅供參考。