วันพฤหัสบดีที่ 2 สิงหาคม พ.ศ. 2550

ประเภทของคลังข้อมูลภาษา

คลังข้อมูลภาษาแบ่งได้ตามหลักเกณฑ์ต่างๆดังนี้

2.1 แบ่งตามจำนวนของภาษา เช่น คลังข้อมูลภาษาเดียว (monolingual corpus) คลังข้อมูลหลายภาษา (multi-lingual corpus)

2.2 แบ่งตามลักษณะของภาษา เช่น คลังข้อมูลภาษาทั่วไป (general corpus) คลังข้อมูลภาษาเฉพาะด้าน (specialized corpus)

2.3 แบ่งตามลักษณะการเปรียบเทียบข้อมูล เช่น คลังข้อมูลภาษาเปรียบเทียบ (comparable corpus) ซึ่งเป็นการรวบรวมสร้างคลังข้อมูลของบทความหรือข้อความในหัวข้อเดียวกันในสองภาษา เช่น ข่าวหุ้นภาษาไทยกับข่าวหุ้นภาษาอังกฤษ หรือคลังข้อมูลภาษาคู่ขนาน (parallel corpus) ซึ่งเป็นการสร้างคลังข้อมูลภาษาต้นฉบับคู่กันกับภาษาในฉบับแปล เช่น ข่าวหุ้นภาษาอังกฤษและบทแปลข่าวชิ้นเดียวกันเป็นภาษาไทย

2.4 แบ่งตามลักษณะของการสื่อสาร เช่น คลังข้อมูลภาษาเขียน (written corpus) คลังข้อมูลภาษาพูด (spoken corpus)

ไม่มีความคิดเห็น: