skip to content
B L O G

Assessment Tools part 1 (MCQ)

/ 5 min read

เครื่องมือในการประเมินผลไม่ว่าจะเป็น Formative หรือ Summative มีเครื่องมือต่างๆ มากมายให้เลือกนำไปใช้ได้ ความยากจะเกิดขึ้นเมื่ออาจารย์ผู้สอนจะต้องเป็นผู้เลือกเครื่องมือในการประเมินผล และสร้างเครื่องมือขึ้นมาทดสอบ

Learning Domain

ตามทฤษฏีการเรียนรู้ ของ Bloom’s taxonomy ที่แบ่งประเภทการเรียนรู้ออกเป็น 3 ด้านคือ Cognitive, Psychomotor และ Affective Domain การจะทำการประเมินแต่ละด้านจำเป็นที่จะต้องใช้เครื่องมือในการประเมินที่แตกต่างกัน เครื่องมือทุกชนิดไม่สามารถประเมินได้ทั้ง 3 ด้าน และในแต่ละด้านเอง เครื่องมือชนิดนั้นๆ อาจจะไม่สามารถประเมินได้ทุกระดับการเรียนรู้

ตัวอย่างการใช้เครื่องมือในการประเมิน

DomainsTools
CognitiveWritten examination, MCQ, MEQ
PsychomotorOSCE, DOPs ต้องประเมินทักษะโดยการแสดงให้ดู
AffectivePortfolio, MSF (Multi-source feedback) ตัวอย่างการใช้งานเช่น เคยได้รับคำชมเชยจากผู้ป่วย หรือผู้ร่วมงานหรือไม่

ปัญหาการประเมินตาม Learning Domain ในยุคแรกๆ นั้นจะไม่ได้แยกประเมินในแต่ละด้าน จะนำทุกด้านมาคิดคะแนนรวมกันแล้วตัดสินว่าจะผ่าน หรือไม่ เช่นตั้งเกณฑ์ผ่านคะแนนรวมที่ 60% ทำให้ผู้เรียนอาจจะเลือกไม่สนใจ Domain บางอย่างที่มีสัดส่วนน้อย ซึ่งไม่ควรจะให้เกิดเหตุการณ์เช่นนี้ เพราะการผ่านการประเมินในแต่ละเรื่องจำเป็นจะต้องผ่านการประเมินในทุกๆ ด้านของ Domain ตามทฤษฏีนี้ การแก้ไขจึงเป็นการกำหนดเกณฑ์การผ่านขั้นต่ำของแต่ละ Domain ก่อนแล้วจึงคิดคะแนนรวมกันอีกครั้งหนึ่ง

The terms

เพื่อให้เกิดความเข้าใจมากยิ่งขึ้นมีคำศัพท์ต่างๆ ที่ควรจะทำความเข้าใจเพื่อป้องกันการสับสนเช่น

  • Critical thinking การใช้ความรู้ของตนเอง
  • Clinical reasoning นำความรู้มาใช้ในการวิเคราะห์สถานการณ์ทางคลินิก
  • Problem lists เป็นภาวะสุขภาพที่เป็น list เช่น illness, injuries, หรือ condition
  • Pertinent data ข้อมูลสำคัญของผู้ป่วย มีทั้ง subjective และ objective
  • Illness script ประกอบด้วย patient problem presentation เป็นประโยค 2-3 บรรทัด รวม pertinent data ให้เหลือแต่ clinical problem แล้วมาตั้ง problem list เป็น differential diagnosis กระบวนการเน้นมุ่งไปที่ diagnosis เพื่อลด diagnostic error
  • Decision making มีกระบวนการในการตัดสิน ทุกกระบวนการตั้งแต่ Management, Investigation

Assessment

หลักการเลือกใช้และสร้างเครื่องมือการประเมินผลประกอบด้วย

  • Validity เป็นการวัดสิ่งที่ต้องการจะวัด เช่นจะประเมินว่ามีความรู้หรือไม่ ใช้ MCQ ได้, หรือหากจะประเมินเรื่องการสื่อสารอาจจะต้องใช้วิธีการสอบ OSCE หรือ Observe แทน
  • Reliabilty การให้คะแนนต้องไม่ขึ้นกับผู้ให้คะแนน MCQ จะมี Reeliability สูง เนื่องจาก ไม่จำเป็นต้องใช้ judement ของผู้ตรวจในการให้คะแนน
  • Feasibility ความสะดวกของผู้สอบ และการจัดการ เช่นการสอบ OSCE บางครั้งอาจจะไม่สามารถบริหารจัดการได้ในกรณีที่มีผู้จำเป็นต้องเข้ารับการทดสอบในจำนวนมาก

Formative vs Summative

เปรียบเทียบกับการเรียนขับรถ Formative คือการที่มีคนประเมินเราตอนเรียนขับรถ จะคอยบอกว่าต้องพัฒนาตรงไหน ส่วนถ้าเป็น Summative จะเป็นการที่เราเรียนขับรถเสร็จแล้วต้องการไปสอบใบขับขี่ เพื่อทดสอบความสามารถ

Formative assessment = The assessment for learning การประเมินกระบวนการของการเรียนรู้ ใช้เพื่อประเมินความก้าวหน้าของการเรียน เน้นที่การพัฒนากระบวนการเรียนรู้ สามารถทำซ้ำได้หลายๆ ครั้งเพื่อติดตามความก้าวหน้า มีจุดที่พึงระวังคือ

  • ต้องประเมินในสถานที่ที่ปฏิบัติงานจริง หรือประเมินขณะที่กำลังอยู่ในระหว่างการเรียนรู้
  • เน้นให้เกิดการพัฒนากระบวนการเรียนรู้ของผู้เรียน

Summative assessment = The assessment of learning การประเมินผลลัพธ์การเรียนรู้ ใช้เป็นตัวตัดสินว่าผ่านหรือไม่ผ่าน ความรู้ที่ได้อยู่ในระดับใด เป็นผลลัพธ์ที่เกิดขึ้นจากการเรียนรู้ มีข้อควรระวังคือ ความน่าเชื่อถือเนื่องจากเป็นเครื่องมือที่ใช้ตัดสินผลลัพธ์สำคัญ

MCQ

Multiple choices question

อ้างถึง [Miller’s Pyramid](https://www.wasin.me/posts/ecme-procedural-skills-teaching/#Miller’s pyramid) เป็นการประเมินด้าน Cognitive Domain เป็นหลัก สามารถใช้ประเมินได้เพียงแค่ Knows หรือ Knows How กล่าวคือ MCQ ใช้ประเมินความรู้ประเภท Recall หรือ Application ได้ตามข้อจำกัดของลักษณะเครื่องมือ

Types of MCQ

สามารถแบ่งลักษณะตามประเภทของข้อสอบได้เป็นสองแบบใหญ่ๆ คือ One-Best Answer, True-False (T/F)

One-Best Answer

ยังสามารถแบ่งได้เป็นอีกหลายประเภทที่พบได้บ่อย เช่น

  • Conventional ส่วนคำถามจะถามว่าข้อใดถูกที่สุด
  • Matching เป็นการจับคู่ เช่นให้จับคู่ เมืองหลวงกับประเทศ เป็นต้น
  • Extended-matching อาจจะมีหลายๆ ตัวเลือกเพื่อใช้ในการจับคู่ที่ซับซ้อนขึ้น เช่น ให้จับคู่ ชื่อเมืองกับ จังหวัดหรืออำเภอ เป็นต้น

True-False

  • Simple T-F คำถามจะเป็นลักษณะจริงหรือไม่ ซึ่งไม่แนะนำให้ใช้ในการประเมินผลแบบ Summative สามารถใช้ในการประเมิน Formative ได้ เพราะในทางการแพทย์ และปัจจุบันเราย่อมทราบดีว่าในชีวิตจริงไม่มีอะไรที่ชัดเจนว่าถูกหรือผิด 100%
  • Complex or multiple T-F ซับซ้อนกว่าแบบแรกคือจะต้องจับคู่ เพิ่มเติมกับตัวเลือกถูกผิด ปัจจุบันไม่นิยมใช้แล้วเพราะซับซ้อนเกินไป ใช้ทักษะในการทำข้อสอบมากเกินไปจนอาจจะไม่ได้ประเมินความรู้ตามที่ต้องการ

องค์ประกอบของข้อสอบ MCQ

องค์ประกอบของข้อสอบ MCQ ในอดีตจะมีลักษณะดังนี้ ตัวอย่างเช่น

Which of the following vaccines is effective in prevention, if given to non-immunized person within 24 hours of exposure?
1. Cholera
2. Measles
3. Poliomyelitis
4. Tetanus toxoid
5. Japanese encephalitis 

เมื่อแตกองค์ประกอบจากโจทย์ตัวอย่างจะประกอบด้วย

Stem and Question

Which of the following vaccines is effective in prevention, if given to non-immunized person within 24 hours of exposure?

Options

1. Cholera
2. Measles
3. Poliomyelitis
4. Tetanus toxoid
5. Japanese encephalitis 

Correct answer

2.Measles

Distractors

1.Cholera

3.Poliomyelitis
4.Tetanus toxoid
5.Japanese encephalitis 

จะเห็นว่าเดิม มีองค์ประกอบสำคัญอยู่ 4 ส่วนคือ

  1. Stem and Question เป็นส่วนที่มีเนื้อหา ข้อมูล และการถามคำถาม
  2. Options ตัวเลือกทั้งหมด
  3. Correct answer ตัวเลือกที่ถูกต้องที่สุด
  4. Distractors ตัวเลือกหลอกที่ทดสอบความรู้ของผู้เข้ารับการทดสอบ

ในการออกแบบข้อสอบ MCQ ในยุคหลังปี ค.ศ. 2000 เป็นต้นมาจะมีการเปลี่ยนแปลงองค์ประกอบหลักๆ ที่ Stem คือจะต้องมีรายละเอียดเพื่อให้สามารถนำข้อมูลมาแปลผลได้ และมี Lead-in ในการเข้าสู่คำถาม เช่น

A 2 year-old boy has a 1-week history of edema. Blood pressure is 100/60 mmHg, and there is generalized edema and ascites. Serum concentrations are: creatinine 0.4 mg/dl, albumin 14 g/L, and cholesterol 570 mg/dl. Urinalysis shows 4+ protein and no blood.

Which of the following is the most likely diagnosis?

1. Hemolytic-uremic syndrome
2. Minimal change nephrotic syndrome
3. Acute post streptococcal glomerulonephritis
4. Focal and segmental glomerulosclerosis

แยกองค์ประกอบจากตัวอย่างได้ดังนี้

Stem

A 2 year-old boy has a 1-week history of edema. Blood pressure is 100/60 mmHg, and there is generalized edema and ascites. Serum concentrations are: creatinine 0.4 mg/dl, albumin 14 g/L, and cholesterol 570 mg/dl. Urinalysis shows 4+ protein and no blood.

Lead-in

Which of the following is the most likely diagnosis?

Options

1. Hemolytic-uremic syndrome
2. Minimal change nephrotic syndrome
3. Acute post streptococcal glomerulonephritis
4. Focal and segmental glomerulosclerosis

Correct answer

2.Minimal change nephrotic syndrome

Distractors

1.Hemolytic-uremic syndrome

3.Acute post streptococcal glomerulonephritis
4.Focal and segmental glomerulosclerosis

ข้อดีของข้อสอบ MCQ

หากมีการออกข้อสอบที่ได้รับการออกแบบมาอย่างดีจะส่งผลให้มีข้อดีต่างๆ ดังนี้

  • สามารถทดสอบความรู้ด้าน Clinical reasoning และ Problem-solving ได้
  • ใช้ในกรณีที่ต้องการทดสอบความรู้ในหลากหลายด้านในครั้งเดียว เนื่องจากสามารถออกได้หลายข้อ และเลือกความรู้ที่จะทดสอบได้จากเนื้อหาต่างๆ
  • เป็นตัววัด Clinical competency ได้ดี
  • สามารถตรวจข้อสอบได้ง่าย ใช้คอมพิวเตอร์ตรวจแทนได้
  • ความน่าเชื่อถือของการให้คะแนนสูงมาก เมื่อเทียบกับเครื่องมือการทดสอบแบบอื่นๆ เนื่องจากมีการกำหนดคำตอบที่ชัดเจนไว้ล่วงหน้าเป็นตัวเลือกแล้ว

ข้อเสียของข้อสอบ MCQ

นอกจากข้อดีแล้ว MCQ ยังมีข้อเสียต่างๆ ที่พึงระวัง เช่น [^1]

  • ไม่สามารถวัดทักษะในการจัดระบบความคิด หรือการตัดสินใจ_ด้วยตนเอง_ เนื่องจากมีคำตอบให้เลือก
  • ไม่สามารถแสดงความคิดเห็น หรือเหตุผลในการตอบได้
  • การเลือกตอบถูกจำกัดเฉพาะตัวเลือก
  • มีแนวโน้มจะถูกวัดเป็นระดับความจำ (Recall) เนื่องจากข้อสอบมักจะออกง่ายกว่า
  • การสร้างข้อสอบที่มีคุณภาพดีจะต้องใช้ความตั้งใจและความใส่ใจ เสียเวลาและอาศัยความร่วมมือของผู้สร้างข้อสอบ
  • สามารถเดาข้อสอบได้ (หากข้อสอบไม่ดี)
  • ข้อสอบมีโอกาสถูกใช้ซ้ำ ในทางกลับกันผู้เข้าสอบสามารถจดจำทั้งข้อสอบได้

Guidelines for writing good MCQ

ต้องประกอบด้วยสิ่งต่างๆ เหล่านี้

Good stem

ควรจะเชื่อมโยงทาง Clinic มีข้อมูลที่จำเป็น และเหมาะสม ให้ลองดูว่าตัดข้อมูลออกไปคำตอบเหมือนเดิมหรือไม่ หากตัดได้ ให้ตัดออก ควรจะใช้ stem 1 ข้อต่อ 1 คำถาม

stem ที่ดีจะต้องตอบคำถามได้เลยโดยไม่ต้องดู option

ตัวอย่างข้อมูลที่อาจจะใส่ใน Stem

  • Age, gender
  • Site of care ถ้าจำเป็นเช่น ER, Ward เป็นต้น
  • Presenting complaint
  • Duration
  • Patient History
  • Physical findings อาจจะมี lab หรือ assessment ต่างๆ
Lead-In

ตัวอย่างคำถามที่สามารถนำไปสร้าง Lead-in question ตามเรื่องต่างๆ เช่น

  • Health and health maintenance
    • Which of the following immunization should be administered at this time?
    • Which of the following is the most appropriate screening test?
    • Which of the following tests would have predicted these findings?
    • Which of the following is the most appropriate intervention?
    • For which of the conditions is the patient at greatest risk?
    • Which of the following is most likely to have prevented this condition?
  • Mechanism of disease
    • Which of the following is the most likely explanation for these findings?
    • Which of the following is the most likely location of the patient’s lesion?
    • Which of the following is the most likely pathogen?
    • Which of the following findings is most likely to be increased/decreased?
    • A biopsy is most likely to show which of the following?
  • Diagnosis
    • Which of the following is the most likely diagnosis?
    • Which of the following is the most appropriate next stop in diagnosis?
    • Which of the following is the most likely to confirm diagnosis?
  • Management
    • Which of the following is the most effective management?
    • Which of the following is the most appropriate initial or next step in patient care?
    • Which of the following is the most appropriate pharmacotherapy?
Writing the options
  • โดยทั่วไปควรมี 5 options แต่ถ้าคิดไม่ออก ให้เหลือ 4 ตัวเลือกได้ ไม่ควรใส่ตัวเลือกที่ไม่ดีเข้ามา
  • ตัวเลือกทุกข้อควรจะมีความ Homogenous เช่นถามเกี่ยวกับยา ควรเป็นยาทั้งหมด, ถ้าถาม lab ต้อง lab ทั้งหมด
  • ควรจะสั้นและไม่ซับซ้อน
  • ควรจะเป็น Logical order
  • ระวังตัวเลือกที่ทับซ้อนกัน
General guideline for item construction
  • ข้อสอบที่ได้รับการออกแบบมาดีจะต้องอ่านโจทย์แล้วสามารถตอบได้เลย ไม่จำเป็นต้องมองหาตัวเลือก
  • ระวังข้อมูลใน stem เยอะเกินความจำเป็น
  • หลีกเลี่ยง Tricky เพราะเน้นวัดความรู้ ไม่ได้วัดเชาว์ปัญญา ในการออกแบบให้นึกไว้เสมอว่าต้องการวัดความรู้ ไม่ใช่วัดความสามารถในการทำข้อสอบ
  • เรียงความยาว, ลำดับ ให้เหมาะสม
  • ไม่ควรใช้ Absolute term เพราะ จะไม่ถูกต้องอยู่แล้ว ทำให้ผู้เข้าสอบสามารถตัดตัวเลือกได้ (Absolute term เช่น แน่นอน, ต้อง)
  • หลีกเลี่ยงคำที่ไม่สามารถระบุความถี่ได้ชัดเจนเช่น usually, frequent เป็นต้น เนื่องจากความไม่ชัดเจนของภาษา ทำให้แต่ละคนตัดสินใจไม่เหมือนกัน กล่าวง่ายๆ คือความถี่ที่ว่า “บ่อย” ของแต่ละคนไม่เท่ากัน
  • หลีกเลี่ยงคำ negative เช่น except, not เนื่องจากสร้างความสับสน ตัวอย่างเช่น ตั้งคำถามว่า ข้อต่อไปนี้ไม่ถูกต้อง ยกเว้น…
  • Focus ที่ความรู้ที่สำคัญจำเป็นต้องรู้ตามมาตรฐาน ไม่ควรออกข้อสอบที่ยากเกินไป

Technical item flaws

  • Testwiseness ใช้ skill ในการทำข้อสอบมากกว่าความรู้ในการตอบคำถาม
  • Irrelevant difficulty ข้อสอบยากเกินไป ไม่เหมาะสมกับผู้สอบ ยากแบบไร้สาระ

เทคนิคการออกข้อสอบ Parallel Question

เป็นการใช้ข้อสอบที่มีลักษณะประเภทเดียวกัน หรือคล้ายคลึงกันในการสร้างคลังข้อสอบ เพื่อให้สามารถนำไปใช้ซ้ำได้ ไม่จำเป็นต้องออกใหม่ทั้งหมด ตัวอย่างเช่น

A 3-year-old girl has had high intermittent fever for 7 weeks, associated with generalized maculopapular rash which appeared only during fever. For the past 2 weeks she has developed pain and swelling of the left wrist and right ankle.

Which of the following is the most likely diagnosis?

1. Rheumatic fever
2. Septic arthritis
3. Acute leukemia
4. Juvenile rheumatoid arthritis
5. Systemic lupus erythematosus

สามารถเปลี่ยน Stem เป็นโรคอื่น โดยใช้กลุ่่มโรคเดิมเป็นตัวเลือกได้เช่น

An 8-year-old girl has had fever with pain and swelling of right knee and right ankle for 5 days. The ASO titer is 450 Todd units and ESR 80 mm/hr.

Which of the following is the most likely diagnosis?

1. Rheumatic fever
2. Septic arthritis
3. Acute leukemia
4. Juvenile rheumatoid arthritis
5. Systemic lupus erythematosus

[^1] : การสร้างข้อสอบแบบเลือกตอบ