คลังข้อมูลภาษาแบ่งได้ตามหลักเกณฑ์ต่างๆดังนี้
2.1 แบ่งตามจำนวนของภาษา เช่น คลังข้อมูลภาษาเดียว (monolingual corpus) คลังข้อมูลหลายภาษา (multi-lingual corpus)
2.2 แบ่งตามลักษณะของภาษา เช่น คลังข้อมูลภาษาทั่วไป (general corpus) คลังข้อมูลภาษาเฉพาะด้าน (specialized corpus)
2.3 แบ่งตามลักษณะการเปรียบเทียบข้อมูล เช่น คลังข้อมูลภาษาเปรียบเทียบ (comparable corpus) ซึ่งเป็นการรวบรวมสร้างคลังข้อมูลของบทความหรือข้อความในหัวข้อเดียวกันในสองภาษา เช่น ข่าวหุ้นภาษาไทยกับข่าวหุ้นภาษาอังกฤษ หรือคลังข้อมูลภาษาคู่ขนาน (parallel corpus) ซึ่งเป็นการสร้างคลังข้อมูลภาษาต้นฉบับคู่กันกับภาษาในฉบับแปล เช่น ข่าวหุ้นภาษาอังกฤษและบทแปลข่าวชิ้นเดียวกันเป็นภาษาไทย
2.4 แบ่งตามลักษณะของการสื่อสาร เช่น คลังข้อมูลภาษาเขียน (written corpus) คลังข้อมูลภาษาพูด (spoken corpus)
วันพฤหัสบดีที่ 2 สิงหาคม พ.ศ. 2550
สมัครสมาชิก:
ส่งความคิดเห็น (Atom)
ไม่มีความคิดเห็น:
แสดงความคิดเห็น