Standard Setting
/ 6 min read
การประเมินผลทุกชนิด จะต้องตอบคำถาม Six Question ดังกล่าวนี้ให้ได้ Who/Why/What/How/When/Where
The assessment’s Six Questions
Who should assess the students?
คำถามแรกมีความสำคัญคือ ใครควรจะเป็นผู้ประเมินนักเรียน?
เมื่อดูตามการเรียนหลักสูตรแพทยศาสตร์ ของนักศึกษาแพทย์แล้วจะพบว่ามีผู้เกี่ยวข้อง (Steakholders) จำนวนมาก เช่น
- International accrediting bodies เช่น WFME ผู้รับรองหลักสูตร อาจจะไม่ได้ประเมินผ่านนักเรียนโดยตรง
- National accreditation bodies เช่น TMC, CMA, ศรว. เป็นผู้รับรองความรู้ความสามารถในการประกอบวิชาชีพก็จำเป็นจะต้องทำการประเมินนักเรียนแพทย์
- Professional bodies เช่น The royal colleges in Thailand ราชวิทยาลัยต่างๆ บทบาทจะคล้ายคลึงกันคือรับรองความรู้ความสามารถในการประกอบวิชาชีพเฉพาะทางของราชวิทยาลัยนั้นๆ
- The affiliated universities เช่น มหาวิทยาลัย ต้องประเมินว่ามีความสามารถสำเร็จการศึกษาตามหลักสูตรของมหาวิทยาลัยหรือไม่
- The department, course committee เช่น ภาควิชา ประเมินในระดับรายวิชาว่าบรรลุผลตามที่รายวิชากำหนดหรือไม่
- The individual teacher ประเมินในเรื่องที่ตนเองรับผิดชอบ ว่านักเรียนบรรลุวัตถุประสงค์ตามต้องการได้หรือไม่
- Other healthcare professionals การประเมินโดยสหวิชาชีพเป็นสิ่งสำคัญ เพราะนักเรียนแพทย์จะต้องทำงานร่วมกับวิชาชีพอื่นๆ การแสดงออก หรือความสามารถในมุมมองของต่างวิชาชีพ จะช่วยพัฒนาให้นักศึกษาแพทย์สามารถทำงานร่วมกับวิชาชีพอื่นๆ ได้ดียิ่งขึ้น
- The public and patients ผู้ได้รับผลกระทบโดยตรงคือ ผู้ป่วยและสังคมจากการกระทำของนักศึกษาแพทย์ควรมีสิทธิในการร่วมประเมินผล
- The students themselves สุดท้ายแล้วนักเรียนเองควรจะประเมินตนเอง เพื่อให้นักเรียนรู้ถึงสถานะของตนเองตลอดเวลา
ผู้ที่ประเมินได้ไม่แม่นยำมากที่สุด คือ การประเมินตนเองหรือ Self-assessment จนมีคำกล่าวว่า
The worst accuracy in self-assessment among physicians who were the least skilled and those who were the most confident… - Davis DA (2006)1
สนับสนุนเรื่องการประเมิน Self-assessment ด้วยทฤษฏีที่เรียกว่า Dunning-Kruger Effect
รูปภาพจาก 2
เมื่อพิจารณาจาก ทฤษฏีที่นำเสนอโดย Justin Kruger และ David Dunning ในปีค.ศ. 1999 พบว่าช่วงแรกเมื่อมีความรู้ในเรื่องใดน้อยๆ จะมีความมั่นใจที่สูงมากแต่พอเรียนรู้มากขึ้นเรื่อยจะพบว่าความมั่นใจจะลดลงเรื่อยๆ จนถึงจุดต่ำสุด ถ้ายังคงเรียนรู้ต่อไปเรื่อยๆ ความมั่นใจจะเริ่มกลับมาแต่ยังคงไม่สูงเกินไปกว่าความมั่นใจตอนที่ความรู้ยังไม่มาก เปรียบเสมือนนักศึกษาแพทย์ที่เพิ่งเรียนรู้เรื่องใหม่ๆ อาจจะเข้าใจว่ารู้เรื่องนั้นๆ ได้ดีแล้ว ความมั่นใจจะสูงมาก แต่พอตนเองได้เรียนรู้มากขึ้นกลับพบว่าจริงๆ ยังไม่รู้อะไรอีกมากมายจนความมั่นใจลดลง เมื่อเรียนรู้ต่อไปเรื่อยๆ จึงเริ่มสร้างความมั่นใจกลับมาได้3
Dove VS Hawk
ลักษณะของผู้ประเมินจะแบ่งได้ชัดเจนเป็น 2 ลักษณะ เปรียบเทียบได้กับ นกพิราบ (Dove) และ นกเหยี่ยว (Hawk)
- Dove ใจดี ให้คะแนนเกือบเต็ม
- Hawk ต่อให้ทำดีแค่ไหน ก็อาจจะได้คะแนนไม่เยอะ
Why assess the students?
มีวัตถุประสงค์ หรือเป้าหมายในการประเมินนักเรียนมากมายเช่น
- Fit for purpose เช่น เกณฑ์มาตรฐานการประกอบวิชาชีพ
- Assessing the students’ progress ประเมินความก้าวหน้าของนักเรียน
- Enhancing the student’s learning พัฒนาการเรียนรู้ของนักเรียนผ่านการประเมินการเรียน และประเมินผลลัพธ์การเรียนรู้
- Grading or ranking เพื่อค้นหานักเรียนที่ดีที่สุด (norm-referenced)
- Motivate learners ใช้การประเมินเพื่อผลักดันให้นักเรียนมีแรงกระตุ้นในการเรียนรู้
- Information for decision-making ใช้ผลการประเมินเพื่อประกอบการตัดสินใจเรื่องต่าง ๆ
- Certification of competence ออกเอกสารรับรองความสามารถ
- Providing feedback, Faculty evaluation ให้ feedback หรือประเมินสถาบัน
- Curriculum evaluation/improvement ประเมินและพัฒนาหลักสูตร
- Bringing about assessment-led innovation
What should be assessed?
อ้างอิงตาม Miller’s Pyramid of Clinical competency จะพบว่าสามารถประเมินทาง Clinical competency ได้ 3 domain คือ Knowledge, Skills และ Attitude
รูปภาพจาก4
นอกจากนี้ยังอาจจะประเมินด้านอื่น ๆ ได้อีกเช่น Professionalism, Independent learning และ Self-assessment skills
How should the student be assessed?
Qualities of a good assessment
- ตรง,แม่นยำ (Validity or coherence)
- ประเมินกี่ครั้งก็ถูกต้อง (Reproducibility or consistency)
- เท่าเทียมกัน (Equivalence)
- ทำได้ (Feasibility)
- มีผลต่อการเรียน (Educational effect)
- เป็นที่ยอมรับ (Acceptability)
Validity and Reliability5
รูปภาพจาก5
Valid คือตรงตามเป้า ประเมินในสิ่งที่ต้องการประเมินได้ Reliable คือทำกี่ครั้งก็ได้ผลเหมือนเดิมตลอด
Value of assessment6
Utility = Reliability x Validity x Feasibility x Educational impact
When should the student be assessed?
รูปภาพจาก7
จากภาพ The learning curve ข้างต้น เราสามารถใช้การประเมินประกอบไปได้ในทุกๆ ขั้นตอนของการเรียนรู้ เช่นการประเมิน In-course สามารถประเมินเพื่อการพัฒนาระหว่างการเรียนได้ End of course เพื่อประเมินผลลัพธ์การเรียนรู้ และ The Progress Test สามารถดู Pregression เปรียบเทียบกับในปีที่ผ่านมา เช่นข้อสอบ Resident ที่มีเกณฑ์การวัดผลไม่เหมือนกันแต่ละชั้นปี
Where should the student be assessed
ขึ้นกับลักษณะข้อสอบ และรูปแบบการประเมิน
- Exam hall จัดการสอบโดยเฉพาะ
- Simulation center เป็นการจัดการประเมินผ่าน Simulation
- WPBA Work place based assessment ประเมินขณะที่ทำงาน
Types of assessment
- Diagnostic
- Formative
- Summative
Diagnostic assessment ประเมินเพื่อดูว่าต้องการ Educational intervention อะไรบ้าง เช่นการวัดระดับความรู้ภาษาอังกฤษเพื่อแบ่งกลุ่มก่อนทำการเรียน แต่ละกลุ่มเรียนด้วยกันตามระดับความรู้
Formative assessment การประเมินระหว่างที่มีการเรียนการสอน หัวใจคือ “การ Feedback” ไม่มีการตัดสินว่าตกหรือผ่าน เพียงแค่ประเมินว่า จะพัฒนาอะไรได้อีก หรือทำอะไรได้ดีแล้ว ส่งผลให้เกิดการเรียนรู้มากขึ้น พบเห็นได้บ่อยๆ คือ WPBA: mini-CEX, DOPS
Summative assessment การสอบ ว่าจะตกหรือผ่าน เช่นการสอบลงกองของแต่ละรายวิชา
Standard setting
On a test, a standard or cutpoint is a special score that serves as the boundary between those who perform well enough and those who do not. - Norcini, J. J. (2003)8
Standard ในที่นี้จะหมายถึงคะแนนที่บอกว่าคนนี้ดี หรือไม่ดี ผ่านหรือไม่ผ่าน
Type
- Norm - Referenced (Relative) มีความสัมพันธ์กันระหว่างนักเรียนแต่ละคน เช่น การเอาคะแนนของนักเรียนทุกคนมาเรียงกันแล้วตัดเกรดตามลำดับ ปัจจุบันยังมีการใช้งาน เช่น ระบบ admission เนื่องจากมีจำนวนที่ให้เข้าเรียนได้จำกัด
- Criterion-Referenced มีการกำหนดเกณฑ์ไว้ชัดเจน ว่าจะผ่านหรือไม่ มักเอาไว้ใช้ในการทดสอบความสามารถ (การเรียนการสอนจะต้องเป็น criterion referenced)
Norm vs Criterion
Norm
- บอกได้แค่เล็กน้อยว่ารู้หรือไม่รู้ในสิ่งที่วัด
- Cut-score บอกได้ยากเนื่องจาก มีความหลากหลายของคะแนนสูง ขึ้นอยู่กับกลุ่มที่มารวมกันตัดเกรด
- Cut-score ในกรณีที่เป็น Norm -referenced จะสามารถหาเหตุผลการตั้งเกณฑ์ได้ยาก
- เหมาะสำหรับการคัดเลือกเท่านั้น
Criterion
- เหมาะสำหรับการตัดสินเช่น การสอบผ่านการเรียน ถ้าผ่านคือผ่าน ตกคือตก
- วัด skill และ knowledge ได้ชัดเจน
Standard Setting
Standard setting คือ กระบวนการเพื่อจะได้มาซึ่ง standard (จะบอกว่า cutpoint ตรงไหนถึงจะ มีความสามารถ)
Stand setting methods 4 categories
- Test-centered methods ดูที่ตัวข้อสอบ แล้วมาดูนักเรียนที่เป็นกลุ่มผ่านพอดี (คาบเส้น) แล้วมาดูว่าจะทำได้ดีแค่ไหนในแต่ละ item (Angoff, Ebel, Nedelsky, Jaeger)
- Examinee-centerd methods ใช้คะแนนผู้สอบมาตัดสิน ร่วมกัน
- Compromise methods จะรวมทั้ง norm และ Criterion
- Statistical methods ใช้ Linear regression ตามสถิติ
Standard setters คือ คนที่กำหนด standard จะต้องมีคุณสมบัติดังนี้
- เข้าใจวัตถุประสงค์การสอบ
- เหตุผลที่จะกำหนดเกณฑ์
- รู้เนื้อหา
- รู้จักนักเรียน
Test-centered methods
เป็นการตั้ง Standard ที่ใช้บ่อยที่สุด เพราะใช้การตั้ง cut-point จากข้อสอบ
Angoff’s method
เป็นวิธีที่นิยมใช้มากที่สุด มีขั้นตอนดังนี้
- Individual อาจารย์แต่ละคนประเมินว่านักเรียน borderline จะมีโอกาสตอบถูกข้อนี้กี่ % คะแนนแต่ละข้อจะเป็น 0-1
- Discussion with others ใช้คะแนนแต่ละข้อมาคุยกัน ใช้อาจารย์กี่คนก็ได้ ไม่มีตัวเลขตายตัว 6-8 คน
- Free to change เปลี่ยนคะแนนแต่ละข้อได้
- Repeated process for all items on the test ทำซ้ำให้ครบทุกข้อ
Standard (Cut score) คะแนนรวมของ mean ในแต่ละข้อ
ตัวอย่าง การคำนวณ
Judge | 1 | 2 | 3 |
---|---|---|---|
Item 1 | 0.65 | 0.60 | 0.75 |
Item 2 | 0.60 | 0.40 | 0.60 |
Item 3 | 0.25 | 0.10 | 0.35 |
Item 4 | 0.10 | 0.05 | 0.55 |
Item 5 | 0.30 | 0.20 | 0.40 |
Overall | 1.9 (2/5) | 1.35 (1/5) | 2.65 (3/5) |
MPL = 1.9 + 1.35 + 2.65 = 5.9/3 = 1.97 or 2/5
จากตารางตัวอย่างมีกรรมการ 3 ท่าน ประเมิน ข้อสอบ 5 ข้อ MPL 1.97 หรือต้องตอบถูก 2 ใน 5 ข้อ
- ได้ความน่าจะเป็นที่ นักเรียนที่เป็น Borderline ทำข้อสอบ 5 ข้อนี้จะมีโอกาสผ่านในแต่ละข้อร้อยละเท่าไร (อาจารย์แต่ละท่านประเมิน)
- รวมคะแนนความน่าจะเป็นของอาจารย์แต่ละท่านให้ครบทุกข้อ
- รวมคะแนนรวมของอาจารย์ทุกท่าน
- นำคะแนนรวมของอาจารย์ทุกท่านมาหารจำนวนอาจารย์ผู้ประเมินทั้งหมด
Advantage
- ใช้ง่าย ตรงไป ตรงมา
- ขึ้นกับคุณภาพข้อสอบ
- มี evidence based
- ดีสำหรับ competency หรือ licensing exams
Disadvantages
- การตัดสินใจของกรรมการไม่ตรงกัน
- ใช้เวลาเยอะ
Modified-Angoff’s method
ปรับจาก Angoff’s Method ในเรื่องของความน่าจะเป็นที่กลุ่ม Borderline จะตอบถูก เป็น 1 ในกรณีที่คิดว่าตอบถูก และ 0 ในกรณีที่คิดว่าจะตอบไม่ได้
ตัวอย่าง จาก Angoff’s Method ข้างต้น ปรับมาเป็น Modified-Angoff’s Method
Judge | 1 | 2 | 3 |
---|---|---|---|
Item 1 | 1 | 1 | 1 |
Item 2 | 1 | 0 | 1 |
Item 3 | 0 | 0 | 0 |
Item 4 | 0 | 0 | 1 |
Item 5 | 0 | 0 | 0 |
Overall | 2 (2/5) | 1 (1/5) | 3 (3/5) |
วิธีคิด MPL ให้นับจำนวนข้อที่อาจารย์ผู้ประเมินแต่ละคนคิดว่า Borderline จะตอบได้ทั้งข้อสอบ รวมทุกคน แล้วหารจำนวนอาจารย์ผู้ประเมินข้อสอบ จากตัวอย่างจะได้ 2 ใน 5 ข้อเช่นกัน
Ebel’s method
Classify ข้อสอบเป็น 2 มิติ
- ความยากง่าย: easy, average, difficult
- Content relevance: ตรงกับรายวิชาหรือไม่ สำคัญหรือจำเป็นหรือไม่ Essential, Important, Acceptable, Questionable
Score ใช้ Angoff ในแต่ละข้อ แล้วนำ content มาแบ่งย่อย คะแนนรวม expected score
วิธีทำ
- ใช้ Angoff’s Method ในแต่ละข้อเพื่อหาคะแนนความน่าจะเป็น
- Classify ตามความยากง่าย ว่ามีจำนวนข้อที่ Easy, Average, Difficult จำนวนทั้งหมดกี่ข้อ
- Classify ตาม Relevance อีกครั้ง ว่าอยู่ในกลุ่ม Essential, Important, Acceptable หรือ Questionable
- หาค่า Mean ของ คะแนนความน่าจะเป็นใน Angoff แต่ละช่อง
- เอาค่า Mean ที่หาได้ในแต่ละช่อง x จำนวนข้อในแต่ละช่อง
- นำค่าที่ได้จากข้อที่แล้วในแต่ละช่องมารวมกันแล้วหารจำนวนข้อสอบทั้งหมด จะได้ค่า MPL
ตัวอย่างตารางเมื่อสิ้นสุดขั้นตอนที่ 4
Easy (items) | Average (items) | Difficult (items) | |
---|---|---|---|
Essential | 0.85 (5) | 0.65 (10) | 0.25 (5) |
Important | 0.75 (5) | 0.55 (5) | 0.15 (5) |
Acceptable | 0.65 (3) | 0.45 (4) | 0.10 (3) |
Questionable | 0.65 (2) | 0.40 (2) | 0.05 (1) |
ตัวอย่างการคำนวณจากตารางในขั้นตอนที่ 5
(0.85 x 5) + (0.65 x 10) + (0.25 x 5) + (0.75 x 5) + (0.55 x 5) + (0.15 x 5) + (0.65 x 3) + (0.45 x 4) + (0.10 x 3) + (0.65 x 2) + (0.40 x 2) + (0.05 x 1) = 25.45
เมื่อนำมาหารจำนวนข้อทั้งหมด 50 ข้อ จะได้ MPL = 25.45/50 = 50%
Modified-Ebel’s method
ปรับจาก Ebel ในส่วนของ Classify Relevance เหลือเพียงแค่ Must know (Essential) , should know (Important), good to know (indicate)
ใช้วิธีการคำนวณ หา AI เพื่อมา Classify พิจารณาจากตัวเลือกของคำตอบในแต่ละข้อ โดย
- ตัวเลือกที่ถูกต้องให้ 2 คะแนน
- พิจารณาตัวลวงที่เหลือ ให้วิเคราะห์ว่านักเรียน Borderline จะมีโอกาสเลือกตัวลวงนี้เท่าไร ตั้งแต่โอกาสน้อยหรือไม่เลือกเลย 0 คะแนน และโอกาสที่จะเลือกตัวลวงนี้มากที่สุด < 2 คะแนน
- คำนวณค่า AI ในแต่ละข้อคือ ให้นำ 2 หารจำนวนผลรวมของน้ำหนักตัวเลือกทุกตัวในข้อที่ 2
- Classify ตามตาราง (ข้อสอบยิ่งยากค่า AI ยิ่งต่ำ ข้อสอบง่าย ค่า AI จะสูง)
ตารางระดับค่า AI และข้อสสอบ
AI | |
---|---|
Must know | 0.6 - 0.8 |
Should know | 0.4 - 0.59 |
Good to know | 0.2 - 0.39 |
หลังจากนั้นให้อาจารย์แต่ละท่านประเมินว่าข้อสอบแต่ละระดับ (Relevance) นักเรียน Borderline จะทำได้กี่ข้อ ทุกระดับความยากง่าย
MPL ที่ได้คือผลรวมคะแนนจำนวนข้อทั้งหมดที่นักเรียน Borderline ควรจะทำได้
Nedelsky Method
ใช้วิธีตัดตัวเลือก โดยให้คิดว่านักเรียน Borderline จะตัดตัวเลือกได้เท่าไร เช่น หากเป็นข้อสอบ MCQ ที่มี 5 ตัวเลือก
- Eliminate 1/5 = remaining 4 >> 1/4 = 0.25
- Eliminate 2/5 = remaining 3 >> 1/3 = 0.33
- Eliminate 3/5 = remaining 2 >> 1/2 = 0.5
- Eliminate 4/5 = remaining 1 >> 1/1 = 1
แล้วนำคะแนนที่ได้มาคิดคล้ายวิธี Angoff’s Method
ตัวอย่างตารางการให้คะแนนตาม Nedelsky Method
Judge | 1 | 2 | 3 |
---|---|---|---|
Item 1 | 0.50 | 0.33 | 1.0 |
Item 2 | 0.50 | 0.33 | 0.50 |
Item 3 | 0.25 | 0.20 | 0.33 |
Item 4 | 0.33 | 0.20 | 0.50 |
Item 5 | 0.33 | 0.20 | 0.33 |
Overall | 1.91 (2/5) | 1.26 (1/5) | 2.66 (3/5 |
MPL คือ คะแนนรวมของกรรมการทุกคนในทุกข้อ หารจำนวนกรรมการ จากตาราง MPL = 1.91 + 1.26 + 2.66 = 5.83/3 = 1.94 or 2/5 (ต้องตอบถูก 2 ใน 5 ข้อ)
Bookmark Method
วิธีคิดแบบใช้การกำหนดตำแหน่ง มีวิธีดังนี้
- ทำ AI Angoff’s method ทั้งข้อสอบ แล้วเรียงข้อสอบตามลำดับ AI จากง่ายไปยาก
- ให้ผู้เชี่ยวชาญประเมินว่ากลุ่ม Borderline จะสามารถตอบได้ถึงข้อไหน
- กำหนดค่า X คือค่าเฉลี่ยของคะแนน ในข้อที่ผู้เชี่ยวชาญกำหนดไว้ข้างต้น
- คำนวณค่า MPL = X x 100 (%) หารจำนวนข้อทั้งหมด
Examinee-centered Method
Borderline group Method
มักใช้ในข้อสอบ OSCE โดยใช้ Item Checklist และ Global rating scale
วีธีคำนวณ
- กำหนด Borderline จาก Global rating scale
- คำนวณค่าเฉลี่ยคะแนน (Mean) เฉพาะกลุ่มผู้เข้าสอบที่เป็น Borderline
- เอาคะแนนนักเรียนทุกคนมาทำ Curve score
- เอาเฉพาะกลุ่ม Borderline มาทำ Curve score อีก 1 curve
- ใช้ Mean ของ Borderline มาเป็น MPL
Contrasting group Method
ใช้วิธีการวาดการกระจายตัวของ กลุ่มคะแนน 2 กลุ่มคือ กลุ่มที่ตก และ กลุ่มที่ผ่าน โดยค่าที่เส้นสองกลุ่มนี้ตัดกันคือค่าคะแนนที่เป็นคะแนน Cutpoint
จากรูปกลุ่มเส้นสีฟ้าเป็นคะแนนกลุ่มที่ตก และกลุ่มเส้นสีส้มคือคะแนนกลุ่มที่ผ่าน จุดที่ตัดกันพอดีจะเป็น MPL 9
Borderline regression Method
ใช้กับข้อสอบ OSCE เพราะมีการนำทั้ง Global rating scale และ check list score มาคำนวณ10
วิธีการคำนวน
- นำคะแนนของแต่ละคนมา Plot ลง Graph แยกตาม กลุ่ม Global rating scale (แกน X)
- คำนวณ Regression line ที่ผ่านกลุ่มคะแนนทั้ง 5 กลุ่ม
- MPL คือ เส้นที่ลากจากกลุ่ม Borderline ไปชนกับเส้น Regression line แล้วตัดที่แกน Y
รูปตัวอย่างการคำนวณหา MPL
Compromise Method: Hofstee Method
ก่อนจะคิด MPL ได้จะต้องคิดหาค่า 4 อย่างต่อไปนี้
- อัตราตกสูงสุดที่รับได้ max accept failure rate
- อัตราตกต่ำสุดที่รับได้ min accept failure rate
- Max cut score
- Min cut score
วิธีการคำนวณ MPL
- วาดกราฟโดยแกน X เป็นคะแนน และ แกน Y เป็นจำนวนนักเรียน (สะสม)
- ลากเส้นตรงจากจุดตัด Min pass score กับ Max accept failure rate ไปยัง Max pass score กับ Min accept failure rate
- จุดที่จำนวนนักเรียนสะสมตัดกับเส้นสมมติในข้อ 2 ในแกน X คือ MPL
จากตัวอย่าง MPL ประมาณ 38% 11
Footnotes
-
Accuracy of physician self-assessment compared with observed measures of competence: a systematic review ↩
-
Educational theories you must know. Miller’s pyramid. St.Emlyn’s ↩
-
Assessing professional competence: from methods to programmes ↩
-
Contrasting groups’ standard setting for consequences analysis in validity studies: reporting considerations ↩
-
Designing and developing an app to perform Hofstee cut-off calculations ↩