การรู้จำคำพูด

การรู้จำคำพูด ใช้หลักของการออกเสียงเข้ามาเกี่ยวข้อง โดยการรู้จำของระบบคอมพิวเตอร์นั้นจะต้องใช้ศาสตร์ทางด้านปัญญาประดิษฐ์โดยวิธีการเรียนรู้ของระบบคอมพิวเตอร์จะจำเอารูปแบบเสียง ๆ นั้น มาสร้างเป็นฟังก์ชันที่จะใช้ในการคำนวณของระบบคอมพิวเตอร์เมื่อได้รับเสียงเข้ามาก็จะเอาเสียงไปเทียบกับฟังก์ชันที่ได้สร้างขึ้น

บทความเทคโนโลยี หรือ สิ่งประดิษฐ์นี้ยังเป็นโครง คุณสามารถช่วยวิกิพีเดียได้โดยการเพิ่มเติมข้อมูล

เทคโนโลยีรู้จำเสียงพูด (Automatic Speech Recognition: ASR)

เป็นสาขาย่อยของ วิชาภาษาศาสตร์คอมพิวเตอร์ที่พัฒนาวิธีการและเทคโนโลยีที่ช่วยให้การรับรู้และการแปลภาษาพูดเป็นข้อความโดยคอมพิวเตอร์ ซอฟต์แวร์รู้จำเสียงพูดขั้นพื้นฐานมีคำศัพท์ที่จำกัด องคำและวลีและอาจระบุสิ่งที่พูดอย่างชัดเจน ซึ่งประเภทของระบบรู้จำเสียงพูดสามารถแบ่งได้ เป็น 3ประเภท ดังนี้

1.เทคโนโลยีรู้จำเสียงพูดแบบคำโดด (Isolated speech) คือระบบที่รู้จำคำสั้นๆเพียงไม่กี่คำสั่ง เพื่อให้ระบบบสามารถตอบโต้ได้อย่างรวดเร็ว

2.เทคโนโลยีรู้จำเสียงพูดแบบต่อเนื่อง (Continuous speech) คือระบบรู้จำคำจากเสียงอย่างต่อเนื่อง แล้วทำการพิจารณาตัดเสียงพูด

3.เทคโนโลยีรู้จำที่จำเสียงเพียงบ้างส่วน (Spontaneous speech) คือระบบที่จดจำเสียงที่ตรวจหาคำสำคัญเพียงคำเดียวในประโยคเพื่อหาใจความสำคัญ

Speech Recognition คือระบบโปรแกรมคอมพิวเตอร์ที่สามารถแปลงเสียงพูด (Audio File) เป็นข้อความตัวอักษร (Text) โดยสามารถแจกแจงคำพูดต่างๆ ที่มนุษย์สามารถพูดใส่ไมโครโฟน โทรศัพท์หรืออุปกรณ์อื่นๆ และเข้าใจคำศัพท์ทุกคำอย่างถูกต้องเกือบ 100% โดยเป็นอิสระจากขนาดของกลุ่มคำศัพท์ ความดังของเสียงและลักษณะการออกเสียงของผู้พูด โดยระบบจะรับฟังเสียงพูดและตัดสินใจว่าเสียงที่ได้ยินนั้นเป็นคำๆใด เทคโนโลยีที่เป็นส่วนสำคัญในการทำ ASR เรียกว่า Hidden Markov Model (HMM) เทคโนโลยีชนิดนี้สามารถที่จะเข้าใจคำพูด จากการจำแนกความแตกต่างและการประมาณการถึงความเป็นไปได้ของส่วนประกอบของหน่วยที่เป็นพื้นฐานของเสียงที่อยู่ติดๆกัน โดยอาศัยหลักการที่ว่าเสียงแต่ละเสียงจะมีขอบเขตของสัญญาณและลักษณะเฉพาะที่มีความแตกต่างกัน

โดยระบบรู้จำเสียงพูด มีส่วนประกอบหลัก 5 ส่วนคือ

1) ส่วนรับเสียง (Acoustic Front-end) เป็นส่วนที่ทำหน้าที่เกี่ยวกับการประมวลผลสัญญาณ (signal processing) และสกัดคุณลักษณะ (feature extraction)

2) โมเดลเสียง (Acoustic Model) เป็นส่วนที่จัดเก็บความรู้สำหรับระบบรู้จำเสียงพูด

3) โมเดลภาษา (Language Model) เป็นส่วนที่รวบรวมเงื่อนไขของลำดับคำในภาษา

4) ตัวตรวจจับ (Decoder) เป็นส่วนที่ค้นหาความคล้ายของลำดับคำจากเสียงที่ได้รับ

5) คลังศัพท์ (Lexicon) เป็นส่วนที่จัดเก็บคำศัพท์ทั้งหมด

บทบาทของเทคโนโลยีการรู้จำเสียงพูดที่สำคัญในปัจจุบัน คือ เป็นตัวเชื่อมประสานกับผู้ใช้งาน (User Interface) ซึ่งอำนวยความสะดวกในการติดต่อระหว่างมนุษย์กับคอมพิวเตอร์ ขณะที่มือไม่ว่าง ต้องการความคล่องตัว สายตาไม่ว่าง ไม่ต้องการใช้คีย์บอร์ด ทัศนวิสัยไม่ดี มีข้อจำกัดด้านร่างกาย ฯลฯ

ทั้งนี้ความท้าทายและทิศทางการพัฒนาเทคโนโลยีดังกล่าว มีดังต่อไปนี้

1) ความทนทาน (Robustness) เพื่อให้ได้ความถูกต้องของการรู้จำที่ไม่ลดลง เมื่อข้อมูลที่ส่งมาเกิดความผิดเพี้ยนหรือหายไปเนื่องจากสิ่งรบกวนต่างๆ

2) การเรียนรู้และปรับปรุงตัวเองโดยอัตโนมัติ (Automatic Training and Adaptation) เพื่อให้ระบบสามารถเรียนรู้และปรับปรุงตัวเองให้เข้ากับการทำงานในลักษณะต่างๆ ได้อย่างรวดเร็ว ประหยัด และเรียบง่าย

3) การรู้จำเสียงพูดที่เป็นธรรมชาติ (Spontaneous Speech) เพื่อให้ระบบสามารถรู้จำสำเนียงการพูด (Prosody) จังหวะการพูด อารมณ์ และพฤติกรรมการพูดรูปแบบแบบต่างๆ

4) การสนทนา (Dialogue Models) เพื่อให้ระบบสามารถเข้าใจบทสนทนาของผู้ใช้

5) การสร้างภาษาโต้ตอบ (Natural Language Response Generation) เพื่อให้ระบบ สามารถสร้างภาษาโต้ตอบกับผู้ใช้ โดยภาษาที่สร้างขึ้นต้องสอดคล้องและเหมาะสมกับเรื่องที่กำลังสนทนา

6) การสังเคราะห์และสร้างเสียงพูด (Speech Synthesis and Generation) เพื่อให้ระบบสามารถสังเคราะห์เสียงพูดและสนทนาโต้ตอบกับผู้ใช้

7) ร ะบบหลายภาษา (Multilingual Systems) เพื่อการเข้าถึงข้อมูลข้ามภาษาและการแปลภาษาแบบทันกาลจากเสียงพูด

8) ระบบแบบผสมผสาน (Multimodal Systems) เป็นการนำข้อมูลด้านอื่นที่นอกเหนือจากข้อมูลทางภาษาและเสียงพูด เช่น สีหน้า ฝีปาก ท่าทาง และลายมือ เข้ามาใช้เพื่อเพิ่มความถูกต้องของการรู้จำและความเข้าใจในภาษา

ตัวอย่าง รถเข็นคนพิการควบคุมด้วยระบบรู้จำเสียงพูด

ระบบรู้จำเสียงพูด (Speech Recognition) ใช้ในการควบคุมรถเข็นคนพิการให้เคลื่อนที่ไปในทิศทางต่างๆ โดยกำหนดด้วยคำสั่ง 9 คำสั่ง ประกอบด้วยคำว่า เดินหน้า ถอยหลัง เลี้ยวซ้าย เลี้ยวขวา กึ่งซ้าย กึ่งขวา เร็วขึ้น ช้าลง และหยุด ซึ่งจะเป็นคำสั่งที่ใช้เป็นสัญญาณอินพุตเข้าสู่ระบบ และระบบก็จะประมวลผลตัดสินใจและส่งค่าเอาท์พุต ออกไปควบคุมมอเตอร์เพื่อเคลื่อนรถเข็นคนพิการในทิศทางที่สั่ง

องค์ประกอบหลักๆ ของระบบรู้จำเสียงพูดแบ่งได้เป็น 3 ขั้นตอนดังนี้

1.การเตรียมสัญญาณขั้นต้น (Preprocessing)

เป็นขั้นตอนที่จะทำให้สัญญาณเสียงที่จะนำไปใช้ หรือรับเข้ามานั้น มีความสมบูรณ์มากที่สุด โดยจะทำการกำจัดสัญญาณรบกวน (Noise) และตัดส่วนที่ไม่ใช่สัญญาณเสียง (Unvoice) ออกซึ่งจะเหลือแต่เพียง ช่วงที่เป็นข้อมูลเสียง

2. การหาลักษณะสำคัญของเสียง (Feature Extraction)

เป็นขั้นตอนที่ใช้สำหรับหาองค์ประกอบสำคัญต่างๆ ของเสียงแต่ละเสียงที่รับเข้ามา ให้รู้ว่าคำแต่ละคำนั้นมีลักษณะเด่นอย่างไร

3. การรู้จำเสียงพูด (Speech Recognition)

เป็นขั้นตอนที่ให้ระบบทำการเรียนรู้โดยการนำสัญญาณเสียงเข้าสู่ระบบโครงข่ายประสาทเทียม (Neural Network System) เพื่อระบบจะทำการตัดสินใจ และให้ผลลัพธ์ตามสัญญาณเสียงที่แตกต่างกันได้ถูกต้อง

ด ค ก สาขาวิชาสำคัญด้านเทคโนโลยี
วิทยาศาสตร์ประยุกต์	เทคโนโลยีการสะสมพลังงาน เทคโนโลยีการเกษตร เทคโนโลยีคอมพิวเตอร์ เทคโนโลยีนิวเคลียร์ เทคโนโลยีสิ่งแวดล้อม นาโนเทคโนโลยี การประมงศาสตร์ ปัญญาประดิษฐ์ พลังงาน ฟิสิกส์วิศวกรรม พันธุวิศวกรรม ไมโครเทคโนโลยี วัสดุศาสตร์ วิศวกรรมเซรามิก วิศวกรรมทัศนศาสตร์ สัตวศาสตร์ อิเล็กทรอนิกส์ เครื่องมือวัด
สารสนเทศ และ การสื่อสาร	การรู้จำคำพูด เทคโนโลยีดนตรี เทคโนโลยีทางสายตา เทคโนโลยีการสื่อสาร เรขภาพ
อุตสาหกรรม	การก่อสร้าง การเงินเชิงคอมพิวเตอร์ การทำเหมืองแร่ การประมง การผลิต เครื่องกล
การทหาร	เทคโนโลยีและอุปกรณ์การทหาร นาวิกวิศวกรรม อาวุธปืนและเครื่องกระสุนปืน ระเบิด
คหกรรมศาสตร์	เครื่องใช้ไฟฟ้า เทคโนโลยีการศึกษา เทคโนโลยีในบ้าน เทคโนโลยีอาหาร
วิศวกรรมศาสตร์	วิศวกรรมชลประทาน วิศวกรรมทางหลวง วิศวกรรมต่อเรือ วัสดุศาสตร์ วิศวกรรมก่อสร้าง วิศวกรรมเกษตร วิศวกรรมการเงิน วิศวกรรมคอมพิวเตอร์ วิศวกรรมเคมี วิศวกรรมเครื่องกล วิศวกรรมโครงสร้าง วิศวกรรมชีวเคมี วิศวกรรมชีวเวช วิศวกรรมชีวะ วิศวกรรมซอฟต์แวร์ วิศวกรรมเซรามิก วิศวกรรมนิวเคลียร์ วิศวกรรมเนื้อเยื่อ วิศวกรรมประมง วิศวกรรมปิโตรเลียม วิศวกรรมไฟฟ้า วิศวกรรมแมคคาทรอนิกส์ วิศวกรรมเหมืองแร่ วิศวกรรมโยธา วิศวกรรมสำรวจ วิศวกรรมระบบควบคุม วิศวกรรมโลหการ วิศวกรรมสถาปัตย์ วิศวกรรมสารสนเทศ วิศวกรรมขนถ่ายวัสดุ วิศวกรรมสิ่งแวดล้อม วิศวกรรมสิ่งทอ วิศวกรรมหลังการเก็บเกี่ยวและแปรสภาพ วิศวกรรมการทำความเย็นและการปรับอากาศ วิศวกรรมการบินและอวกาศยาน วิศวกรรมอาหาร วิศวกรรมอิเล็กทรอนิกส์ วิศวกรรมอุตสาหการ อติสีตศาสตร์ วิศวกรรมการขนถ่ายวัสดุ วิศวกรรมอัตโนมัติ วิศวกรรมการวัดคุม วิศวกรรมโทรคมนาคม วิศวกรรมการขนส่ง วิศวกรรมสื่อประสม
สุขภาพ และ ความปลอดภัย	เคมีสารสนเทศศาสตร์ ชีวสารสนเทศศาสตร์ เทคโนโลยีชีวภาพ วิทยาศาสตร์สุขภาพ วิศวกรรมความปลอดภัยด้านอัคคีภัย วิศวกรรมความปลอดภัย วิศวกรรมชีวการแพทย์ วิศวกรรมสุขาภิบาล
การขนส่ง	การขนส่ง เครื่องยนต์ เทคโนโลยีอวกาศ วิศวกรรมทางทะเล วิศวกรรมการบินและอวกาศยาน อวกาศยาน