skip to content
B L O G

Standard Setting

/ 6 min read

การประเมินผลทุกชนิด จะต้องตอบคำถาม Six Question ดังกล่าวนี้ให้ได้ Who/Why/What/How/When/Where

The assessment’s Six Questions

Who should assess the students?

คำถามแรกมีความสำคัญคือ ใครควรจะเป็นผู้ประเมินนักเรียน?

เมื่อดูตามการเรียนหลักสูตรแพทยศาสตร์ ของนักศึกษาแพทย์แล้วจะพบว่ามีผู้เกี่ยวข้อง (Steakholders) จำนวนมาก เช่น

  • International accrediting bodies เช่น WFME ผู้รับรองหลักสูตร อาจจะไม่ได้ประเมินผ่านนักเรียนโดยตรง
  • National accreditation bodies เช่น TMC, CMA, ศรว. เป็นผู้รับรองความรู้ความสามารถในการประกอบวิชาชีพก็จำเป็นจะต้องทำการประเมินนักเรียนแพทย์
  • Professional bodies เช่น The royal colleges in Thailand ราชวิทยาลัยต่างๆ บทบาทจะคล้ายคลึงกันคือรับรองความรู้ความสามารถในการประกอบวิชาชีพเฉพาะทางของราชวิทยาลัยนั้นๆ
  • The affiliated universities เช่น มหาวิทยาลัย ต้องประเมินว่ามีความสามารถสำเร็จการศึกษาตามหลักสูตรของมหาวิทยาลัยหรือไม่
  • The department, course committee เช่น ภาควิชา ประเมินในระดับรายวิชาว่าบรรลุผลตามที่รายวิชากำหนดหรือไม่
  • The individual teacher ประเมินในเรื่องที่ตนเองรับผิดชอบ ว่านักเรียนบรรลุวัตถุประสงค์ตามต้องการได้หรือไม่
  • Other healthcare professionals การประเมินโดยสหวิชาชีพเป็นสิ่งสำคัญ เพราะนักเรียนแพทย์จะต้องทำงานร่วมกับวิชาชีพอื่นๆ การแสดงออก หรือความสามารถในมุมมองของต่างวิชาชีพ จะช่วยพัฒนาให้นักศึกษาแพทย์สามารถทำงานร่วมกับวิชาชีพอื่นๆ ได้ดียิ่งขึ้น
  • The public and patients ผู้ได้รับผลกระทบโดยตรงคือ ผู้ป่วยและสังคมจากการกระทำของนักศึกษาแพทย์ควรมีสิทธิในการร่วมประเมินผล
  • The students themselves สุดท้ายแล้วนักเรียนเองควรจะประเมินตนเอง เพื่อให้นักเรียนรู้ถึงสถานะของตนเองตลอดเวลา

ผู้ที่ประเมินได้ไม่แม่นยำมากที่สุด คือ การประเมินตนเองหรือ Self-assessment จนมีคำกล่าวว่า

The worst accuracy in self-assessment among physicians who were the least skilled and those who were the most confident… - Davis DA (2006)1

สนับสนุนเรื่องการประเมิน Self-assessment ด้วยทฤษฏีที่เรียกว่า Dunning-Kruger Effect

The Dunning-Kruger Effect รูปภาพจาก 2

เมื่อพิจารณาจาก ทฤษฏีที่นำเสนอโดย Justin Kruger และ David Dunning ในปีค.ศ. 1999 พบว่าช่วงแรกเมื่อมีความรู้ในเรื่องใดน้อยๆ จะมีความมั่นใจที่สูงมากแต่พอเรียนรู้มากขึ้นเรื่อยจะพบว่าความมั่นใจจะลดลงเรื่อยๆ จนถึงจุดต่ำสุด ถ้ายังคงเรียนรู้ต่อไปเรื่อยๆ ความมั่นใจจะเริ่มกลับมาแต่ยังคงไม่สูงเกินไปกว่าความมั่นใจตอนที่ความรู้ยังไม่มาก เปรียบเสมือนนักศึกษาแพทย์ที่เพิ่งเรียนรู้เรื่องใหม่ๆ อาจจะเข้าใจว่ารู้เรื่องนั้นๆ ได้ดีแล้ว ความมั่นใจจะสูงมาก แต่พอตนเองได้เรียนรู้มากขึ้นกลับพบว่าจริงๆ ยังไม่รู้อะไรอีกมากมายจนความมั่นใจลดลง เมื่อเรียนรู้ต่อไปเรื่อยๆ จึงเริ่มสร้างความมั่นใจกลับมาได้3

Dove VS Hawk

ลักษณะของผู้ประเมินจะแบ่งได้ชัดเจนเป็น 2 ลักษณะ เปรียบเทียบได้กับ นกพิราบ (Dove) และ นกเหยี่ยว (Hawk)

  • Dove ใจดี ให้คะแนนเกือบเต็ม
  • Hawk ต่อให้ทำดีแค่ไหน ก็อาจจะได้คะแนนไม่เยอะ

Why assess the students?

มีวัตถุประสงค์ หรือเป้าหมายในการประเมินนักเรียนมากมายเช่น

  • Fit for purpose เช่น เกณฑ์มาตรฐานการประกอบวิชาชีพ
  • Assessing the students’ progress ประเมินความก้าวหน้าของนักเรียน
  • Enhancing the student’s learning พัฒนาการเรียนรู้ของนักเรียนผ่านการประเมินการเรียน และประเมินผลลัพธ์การเรียนรู้
  • Grading or ranking เพื่อค้นหานักเรียนที่ดีที่สุด (norm-referenced)
  • Motivate learners ใช้การประเมินเพื่อผลักดันให้นักเรียนมีแรงกระตุ้นในการเรียนรู้
  • Information for decision-making ใช้ผลการประเมินเพื่อประกอบการตัดสินใจเรื่องต่าง ๆ
  • Certification of competence ออกเอกสารรับรองความสามารถ
  • Providing feedback, Faculty evaluation ให้ feedback หรือประเมินสถาบัน
  • Curriculum evaluation/improvement ประเมินและพัฒนาหลักสูตร
  • Bringing about assessment-led innovation

What should be assessed?

อ้างอิงตาม Miller’s Pyramid of Clinical competency จะพบว่าสามารถประเมินทาง Clinical competency ได้ 3 domain คือ Knowledge, Skills และ Attitude

Miller's Pyramid of Clinical competency รูปภาพจาก4

นอกจากนี้ยังอาจจะประเมินด้านอื่น ๆ ได้อีกเช่น Professionalism, Independent learning และ Self-assessment skills

How should the student be assessed?

Qualities of a good assessment

  • ตรง,แม่นยำ (Validity or coherence)
  • ประเมินกี่ครั้งก็ถูกต้อง (Reproducibility or consistency)
  • เท่าเทียมกัน (Equivalence)
  • ทำได้ (Feasibility)
  • มีผลต่อการเรียน (Educational effect)
  • เป็นที่ยอมรับ (Acceptability)

Validity and Reliability5

Reliability and Validity รูปภาพจาก5

Valid คือตรงตามเป้า ประเมินในสิ่งที่ต้องการประเมินได้ Reliable คือทำกี่ครั้งก็ได้ผลเหมือนเดิมตลอด

Value of assessment6

Utility = Reliability x Validity x Feasibility x Educational impact

When should the student be assessed?

The Learning curve รูปภาพจาก7

จากภาพ The learning curve ข้างต้น เราสามารถใช้การประเมินประกอบไปได้ในทุกๆ ขั้นตอนของการเรียนรู้ เช่นการประเมิน In-course สามารถประเมินเพื่อการพัฒนาระหว่างการเรียนได้ End of course เพื่อประเมินผลลัพธ์การเรียนรู้ และ The Progress Test สามารถดู​ Pregression เปรียบเทียบกับในปีที่ผ่านมา เช่นข้อสอบ Resident ที่มีเกณฑ์การวัดผลไม่เหมือนกันแต่ละชั้นปี

Where should the student be assessed

ขึ้นกับลักษณะข้อสอบ และรูปแบบการประเมิน

  • Exam hall จัดการสอบโดยเฉพาะ
  • Simulation center เป็นการจัดการประเมินผ่าน Simulation
  • WPBA Work place based assessment ประเมินขณะที่ทำงาน

Types of assessment

  1. Diagnostic
  2. Formative
  3. Summative

Diagnostic assessment ประเมินเพื่อดูว่าต้องการ Educational intervention อะไรบ้าง เช่นการวัดระดับความรู้ภาษาอังกฤษเพื่อแบ่งกลุ่มก่อนทำการเรียน แต่ละกลุ่มเรียนด้วยกันตามระดับความรู้

Formative assessment การประเมินระหว่างที่มีการเรียนการสอน หัวใจคือ “การ Feedback” ไม่มีการตัดสินว่าตกหรือผ่าน เพียงแค่ประเมินว่า จะพัฒนาอะไรได้อีก หรือทำอะไรได้ดีแล้ว ส่งผลให้เกิดการเรียนรู้มากขึ้น พบเห็นได้บ่อยๆ คือ WPBA: mini-CEX, DOPS

Summative assessment การสอบ ว่าจะตกหรือผ่าน เช่นการสอบลงกองของแต่ละรายวิชา

Standard setting

On a test, a standard or cutpoint is a special score that serves as the boundary between those who perform well enough and those who do not. - Norcini, J. J. (2003)8

Standard ในที่นี้จะหมายถึงคะแนนที่บอกว่าคนนี้ดี หรือไม่ดี ผ่านหรือไม่ผ่าน

Type

  1. Norm - Referenced (Relative) มีความสัมพันธ์กันระหว่างนักเรียนแต่ละคน เช่น การเอาคะแนนของนักเรียนทุกคนมาเรียงกันแล้วตัดเกรดตามลำดับ ปัจจุบันยังมีการใช้งาน เช่น ระบบ admission เนื่องจากมีจำนวนที่ให้เข้าเรียนได้จำกัด
  2. Criterion-Referenced มีการกำหนดเกณฑ์ไว้ชัดเจน ว่าจะผ่านหรือไม่ มักเอาไว้ใช้ในการทดสอบความสามารถ (การเรียนการสอนจะต้องเป็น criterion referenced)

Norm vs Criterion

Norm

  • บอกได้แค่เล็กน้อยว่ารู้หรือไม่รู้ในสิ่งที่วัด
  • Cut-score บอกได้ยากเนื่องจาก มีความหลากหลายของคะแนนสูง ขึ้นอยู่กับกลุ่มที่มารวมกันตัดเกรด
  • Cut-score ในกรณีที่เป็น Norm -referenced จะสามารถหาเหตุผลการตั้งเกณฑ์ได้ยาก
  • เหมาะสำหรับการคัดเลือกเท่านั้น

Criterion

  • เหมาะสำหรับการตัดสินเช่น การสอบผ่านการเรียน ถ้าผ่านคือผ่าน ตกคือตก
  • วัด skill และ knowledge ได้ชัดเจน

Standard Setting

Standard setting คือ กระบวนการเพื่อจะได้มาซึ่ง standard (จะบอกว่า cutpoint ตรงไหนถึงจะ มีความสามารถ)

Stand setting methods 4 categories

  1. Test-centered methods ดูที่ตัวข้อสอบ แล้วมาดูนักเรียนที่เป็นกลุ่มผ่านพอดี (คาบเส้น) แล้วมาดูว่าจะทำได้ดีแค่ไหนในแต่ละ item (Angoff, Ebel, Nedelsky, Jaeger)
  2. Examinee-centerd methods ใช้คะแนนผู้สอบมาตัดสิน ร่วมกัน
  3. Compromise methods จะรวมทั้ง norm และ Criterion
  4. Statistical methods ใช้ Linear regression ตามสถิติ

Standard setters คือ คนที่กำหนด standard จะต้องมีคุณสมบัติดังนี้

  • เข้าใจวัตถุประสงค์การสอบ
  • เหตุผลที่จะกำหนดเกณฑ์
  • รู้เนื้อหา
  • รู้จักนักเรียน

Test-centered methods

เป็นการตั้ง Standard ที่ใช้บ่อยที่สุด เพราะใช้การตั้ง cut-point จากข้อสอบ

Angoff’s method

เป็นวิธีที่นิยมใช้มากที่สุด มีขั้นตอนดังนี้

  1. Individual อาจารย์แต่ละคนประเมินว่านักเรียน borderline จะมีโอกาสตอบถูกข้อนี้กี่ % คะแนนแต่ละข้อจะเป็น 0-1
  2. Discussion with others ใช้คะแนนแต่ละข้อมาคุยกัน ใช้อาจารย์กี่คนก็ได้ ไม่มีตัวเลขตายตัว 6-8 คน
  3. Free to change เปลี่ยนคะแนนแต่ละข้อได้
  4. Repeated process for all items on the test ทำซ้ำให้ครบทุกข้อ

Standard (Cut score) คะแนนรวมของ mean ในแต่ละข้อ

ตัวอย่าง การคำนวณ

Judge123
Item 10.650.600.75
Item 20.600.400.60
Item 30.250.100.35
Item 40.100.050.55
Item 50.300.200.40
Overall1.9 (2/5)1.35 (1/5)2.65 (3/5)

MPL = 1.9 + 1.35 + 2.65 = 5.9/3 = 1.97 or 2/5

จากตารางตัวอย่างมีกรรมการ 3 ท่าน ประเมิน ข้อสอบ 5 ข้อ MPL 1.97 หรือต้องตอบถูก 2 ใน 5 ข้อ

  1. ได้ความน่าจะเป็นที่ นักเรียนที่เป็น Borderline ทำข้อสอบ 5 ข้อนี้จะมีโอกาสผ่านในแต่ละข้อร้อยละเท่าไร (อาจารย์แต่ละท่านประเมิน)
  2. รวมคะแนนความน่าจะเป็นของอาจารย์แต่ละท่านให้ครบทุกข้อ
  3. รวมคะแนนรวมของอาจารย์ทุกท่าน
  4. นำคะแนนรวมของอาจารย์ทุกท่านมาหารจำนวนอาจารย์ผู้ประเมินทั้งหมด

Advantage

  • ใช้ง่าย ตรงไป ตรงมา
  • ขึ้นกับคุณภาพข้อสอบ
  • มี evidence based
  • ดีสำหรับ competency หรือ licensing exams

Disadvantages

  • การตัดสินใจของกรรมการไม่ตรงกัน
  • ใช้เวลาเยอะ

Modified-Angoff’s method

ปรับจาก Angoff’s Method ในเรื่องของความน่าจะเป็นที่กลุ่ม Borderline จะตอบถูก เป็น 1 ในกรณีที่คิดว่าตอบถูก และ 0 ในกรณีที่คิดว่าจะตอบไม่ได้

ตัวอย่าง จาก Angoff’s Method ข้างต้น ปรับมาเป็น Modified-Angoff’s Method

Judge123
Item 1111
Item 2101
Item 3000
Item 4001
Item 5000
Overall2 (2/5)1 (1/5)3 (3/5)

วิธีคิด MPL ให้นับจำนวนข้อที่อาจารย์ผู้ประเมินแต่ละคนคิดว่า Borderline จะตอบได้ทั้งข้อสอบ รวมทุกคน แล้วหารจำนวนอาจารย์ผู้ประเมินข้อสอบ จากตัวอย่างจะได้ 2 ใน 5 ข้อเช่นกัน

Ebel’s method

Classify ข้อสอบเป็น 2 มิติ

  1. ความยากง่าย: easy, average, difficult
  2. Content relevance: ตรงกับรายวิชาหรือไม่ สำคัญหรือจำเป็นหรือไม่ Essential, Important, Acceptable, Questionable

Score ใช้ Angoff ในแต่ละข้อ แล้วนำ content มาแบ่งย่อย คะแนนรวม expected score

วิธีทำ

  1. ใช้ Angoff’s Method ในแต่ละข้อเพื่อหาคะแนนความน่าจะเป็น
  2. Classify ตามความยากง่าย ว่ามีจำนวนข้อที่ Easy, Average, Difficult จำนวนทั้งหมดกี่ข้อ
  3. Classify ตาม Relevance อีกครั้ง ว่าอยู่ในกลุ่ม Essential, Important, Acceptable หรือ Questionable
  4. หาค่า Mean ของ คะแนนความน่าจะเป็นใน Angoff แต่ละช่อง
  5. เอาค่า Mean ที่หาได้ในแต่ละช่อง x จำนวนข้อในแต่ละช่อง
  6. นำค่าที่ได้จากข้อที่แล้วในแต่ละช่องมารวมกันแล้วหารจำนวนข้อสอบทั้งหมด จะได้ค่า MPL

ตัวอย่างตารางเมื่อสิ้นสุดขั้นตอนที่ 4

Easy (items)Average (items)Difficult (items)
Essential0.85 (5)0.65 (10)0.25 (5)
Important0.75 (5)0.55 (5)0.15 (5)
Acceptable0.65 (3)0.45 (4)0.10 (3)
Questionable0.65 (2)0.40 (2)0.05 (1)

ตัวอย่างการคำนวณจากตารางในขั้นตอนที่ 5

(0.85 x 5) + (0.65 x 10) + (0.25 x 5) + (0.75 x 5) + (0.55 x 5) + (0.15 x 5) + (0.65 x 3) + (0.45 x 4) + (0.10 x 3) + (0.65 x 2) + (0.40 x 2) + (0.05 x 1) = 25.45

เมื่อนำมาหารจำนวนข้อทั้งหมด 50 ข้อ จะได้ MPL = 25.45/50 = 50%

Modified-Ebel’s method

ปรับจาก Ebel ในส่วนของ Classify Relevance เหลือเพียงแค่ Must know (Essential) , should know (Important), good to know (indicate)

ใช้วิธีการคำนวณ หา AI เพื่อมา Classify พิจารณาจากตัวเลือกของคำตอบในแต่ละข้อ โดย

  1. ตัวเลือกที่ถูกต้องให้ 2 คะแนน
  2. พิจารณาตัวลวงที่เหลือ ให้วิเคราะห์ว่านักเรียน Borderline จะมีโอกาสเลือกตัวลวงนี้เท่าไร ตั้งแต่โอกาสน้อยหรือไม่เลือกเลย 0 คะแนน และโอกาสที่จะเลือกตัวลวงนี้มากที่สุด < 2 คะแนน
  3. คำนวณค่า AI ในแต่ละข้อคือ ให้นำ 2 หารจำนวนผลรวมของน้ำหนักตัวเลือกทุกตัวในข้อที่ 2
  4. Classify ตามตาราง (ข้อสอบยิ่งยากค่า AI ยิ่งต่ำ ข้อสอบง่าย ค่า AI จะสูง)

ตารางระดับค่า AI และข้อสสอบ

AI
Must know0.6 - 0.8
Should know0.4 - 0.59
Good to know0.2 - 0.39

หลังจากนั้นให้อาจารย์แต่ละท่านประเมินว่าข้อสอบแต่ละระดับ (Relevance) นักเรียน Borderline จะทำได้กี่ข้อ ทุกระดับความยากง่าย

MPL ที่ได้คือผลรวมคะแนนจำนวนข้อทั้งหมดที่นักเรียน Borderline ควรจะทำได้

Nedelsky Method

ใช้วิธีตัดตัวเลือก โดยให้คิดว่านักเรียน Borderline จะตัดตัวเลือกได้เท่าไร เช่น หากเป็นข้อสอบ MCQ ที่มี 5 ตัวเลือก

  • Eliminate 1/5 = remaining 4 >> 1/4 = 0.25
  • Eliminate 2/5 = remaining 3 >> 1/3 = 0.33
  • Eliminate 3/5 = remaining 2 >> 1/2 = 0.5
  • Eliminate 4/5 = remaining 1 >> 1/1 = 1

แล้วนำคะแนนที่ได้มาคิดคล้ายวิธี Angoff’s Method

ตัวอย่างตารางการให้คะแนนตาม Nedelsky Method

Judge123
Item 10.500.331.0
Item 20.500.330.50
Item 30.250.200.33
Item 40.330.200.50
Item 50.330.200.33
Overall1.91 (2/5)1.26 (1/5)2.66 (3/5

MPL คือ คะแนนรวมของกรรมการทุกคนในทุกข้อ หารจำนวนกรรมการ จากตาราง MPL = 1.91 + 1.26 + 2.66 = 5.83/3 = 1.94 or 2/5 (ต้องตอบถูก 2 ใน 5 ข้อ)

Bookmark Method

วิธีคิดแบบใช้การกำหนดตำแหน่ง มีวิธีดังนี้

  1. ทำ AI Angoff’s method ทั้งข้อสอบ แล้วเรียงข้อสอบตามลำดับ AI จากง่ายไปยาก
  2. ให้ผู้เชี่ยวชาญประเมินว่ากลุ่ม Borderline จะสามารถตอบได้ถึงข้อไหน
  3. กำหนดค่า X คือค่าเฉลี่ยของคะแนน ในข้อที่ผู้เชี่ยวชาญกำหนดไว้ข้างต้น
  4. คำนวณค่า MPL = X x 100 (%) หารจำนวนข้อทั้งหมด

Examinee-centered Method

Borderline group Method

มักใช้ในข้อสอบ OSCE โดยใช้ Item Checklist และ Global rating scale

วีธีคำนวณ

  1. กำหนด Borderline จาก Global rating scale
  2. คำนวณค่าเฉลี่ยคะแนน (Mean) เฉพาะกลุ่มผู้เข้าสอบที่เป็น Borderline
  3. เอาคะแนนนักเรียนทุกคนมาทำ Curve score
  4. เอาเฉพาะกลุ่ม Borderline มาทำ Curve score อีก 1 curve
  5. ใช้ Mean ของ Borderline มาเป็น MPL

Contrasting group Method

ใช้วิธีการวาดการกระจายตัวของ กลุ่มคะแนน 2 กลุ่มคือ กลุ่มที่ตก และ กลุ่มที่ผ่าน โดยค่าที่เส้นสองกลุ่มนี้ตัดกันคือค่าคะแนนที่เป็นคะแนน Cutpoint

Contrasting group method

จากรูปกลุ่มเส้นสีฟ้าเป็นคะแนนกลุ่มที่ตก และกลุ่มเส้นสีส้มคือคะแนนกลุ่มที่ผ่าน จุดที่ตัดกันพอดีจะเป็น MPL 9

Borderline regression Method

ใช้กับข้อสอบ OSCE เพราะมีการนำทั้ง Global rating scale และ check list score มาคำนวณ10

วิธีการคำนวน

  1. นำคะแนนของแต่ละคนมา Plot ลง Graph แยกตาม กลุ่ม Global rating scale (แกน X)
  2. คำนวณ Regression line ที่ผ่านกลุ่มคะแนนทั้ง 5 กลุ่ม
  3. MPL คือ เส้นที่ลากจากกลุ่ม Borderline ไปชนกับเส้น Regression line แล้วตัดที่แกน Y

รูปตัวอย่างการคำนวณหา MPL

Borderline Regression Method

Compromise Method: Hofstee Method

ก่อนจะคิด MPL ได้จะต้องคิดหาค่า 4 อย่างต่อไปนี้

  1. อัตราตกสูงสุดที่รับได้ max accept failure rate
  2. อัตราตกต่ำสุดที่รับได้ min accept failure rate
  3. Max cut score
  4. Min cut score

วิธีการคำนวณ MPL

  1. วาดกราฟโดยแกน X เป็นคะแนน และ แกน Y เป็นจำนวนนักเรียน (สะสม)
  2. ลากเส้นตรงจากจุดตัด Min pass score กับ Max accept failure rate ไปยัง Max pass score กับ Min accept failure rate
  3. จุดที่จำนวนนักเรียนสะสมตัดกับเส้นสมมติในข้อ 2 ในแกน X คือ MPL
Hofstee Chart

จากตัวอย่าง MPL ประมาณ 38% 11

Footnotes

  1. Accuracy of physician self-assessment compared with observed measures of competence: a systematic review

  2. Dunning-Kruger effect and journey of a Software engineer

  3. Dunning–Kruger effect

  4. Educational theories you must know. Miller’s pyramid. St.Emlyn’s

  5. RELIABILITY VS VALIDITY 2

  6. Assessing professional competence: from methods to programmes

  7. The Learning Curve

  8. Setting standards on educational tests

  9. Contrasting groups’ standard setting for consequences analysis in validity studies: reporting considerations

  10. Standard setting simplified – Borderline Regression

  11. Designing and developing an app to perform Hofstee cut-off calculations