ในความหมายแบบกว้าง คลังข้อมูลภาษาอาจหมายถึงการรวบรวมหรือสะสมข้อความ บทความ หรือข้อเขียนในภาษาใดภาษาหนึ่ง เช่น รวบรวมข่าวภาษาอังกฤษจากหนังสือพิมพ์ หรือการเก็บรวบรวมจดหมายธุรกิจที่เขียนเป็นภาษาอังกฤษ โดยทั่วไปไม่ได้ใช้อุปกรณ์หรือเครื่องมือทางอิเลคทรอนิคส์ที่ซับซ้อนในการสร้างฐานข้อมูลและสืบค้นข้อมูล และอาจมีจุดประสงค์ในการรวบรวมที่ชัดเจน เช่น ใช้ในการวิเคราะห์ลักษณะภาษาหรือผลิตตำราเอกสารการสอน หรืออาจไม่มีจุดประสงค์ที่ชัดเจนก็ได้
แต่คำว่าคลังข้อมูลภาษา (corpus) หรือรูปพหูพจน์ (corpora) ในความหมายเฉพาะทางภาษาศาสตร์ โดยเฉพาะภาษาศาสตร์คลังข้อมูลภาษา (corpus linguistics) หมายถึงการรวบรวมหรือสะสมข้อความ บทความ หรือข้อเขียนในภาษาใดภาษาหนึ่งโดยมีลักษณะเฉพาะของการเก็บข้อมูลดังนี้ (ในบทความนี้จะเน้นที่การสร้างคลังข้อมูลภาษาอังกฤษ)
1. ลักษณะของข้อมูลเป็นข้อความ (text) ซึ่งอาจเป็นภาษาเขียน (written English) เช่น ข่าว หรือ บทความทางวิชาการ หรือเป็นการถอดความจากภาษาที่มีลักษณะเป็นภาษาพูด (transcriptions of spoken English) เช่น จากบทภาพยนตร์หรือบทสัมภาษณ์
2. ข้อความดังกล่าวถูกเก็บเป็นข้อมูลในรูปแบบของไฟล์ข้อมูล (text files) ในคอมพิวเตอร์ เช่น ถ้าพบบทความที่น่าสนใจในหนังสือก็จะ scan และ save เป็น text file (นิยมใช้ไฟล์นามสกุล .txt เนื่องจากทำงานได้ดีกับโปรแกรมที่ใช้ในการวิเคราะห์หรือเรียกแสดงตัวอย่าง) หรือ ถ้าพบบทความที่น่าสนใจในอินเตอร์เน็ตก็จะ save เป็น text file เพื่อสร้างเป็นฐานข้อมูลภาษา
3.ใช้โปรแกรมพิเศษบางชนิดในการวิเคราะห์ข้อมูลและนำเสนอข้อมูล เช่น โปรแกรมคอนคอร์ด๊านซ์ (concordancing tools หรือ concordancer) ตัวอย่างเช่น ใช้โปรแกรมดังกล่าวในการเรียงลำดับคำในคลังข้อมูลตามความถี่ที่ปรากฏ หรือแสดงตัวอย่างของคำหรือวลีในรูปแบบของบรรทัดคอนคอร์ด๊านซ์หรือ concordance lines (จะอธิบายในหัวข้อต่อไป)
4. มีจุดประสงค์ในการสร้างคลังข้อมูลที่ชัดเจน เช่น เพื่อศึกษาและช่วยในการอธิบายลักษณะหรือการใช้ภาษาหรือคำทั่วไปหรือคำศัพท์เฉพาะทาง เพื่อนำไปการวิเคราะห์ที่ได้ไปประยุกต์ใช้ในการเขียนพจนานุกรม ศัพทานุกรม หรือใช้ในการสอนภาษา
5. ขนาดของคลังข้อมูลหรือฐานข้อมูลจะขึ้นกับจุดประสงค์ในการสร้าง เช่น ถ้าต้องการศึกษาวิเคราะห์ความหมายและรูปแบบการใช้คำทั่วไปเพื่อศึกษาวิจัยทางภาษาศาสตร์หรือเพื่อเขียนพจนานุกรมต้องสร้างคลังข้อมูลขนาดใหญ่ (เช่น 10 ล้านคำขึ้นไป) แต่ถ้าต้องการศึกษาลักษณะของศัพท์เฉพาะหรือสร้างศัพทานุกรมศัพท์เฉพาะอาจสร้างคลังข้อมูลขนาดเล็กได้ (เช่น 50,000 คำ)
2 ความคิดเห็น:
อาจารย์คะ ดิฉันสนใจศึกษาด้านคล้งข้อมูลภาษา จะรบกวนปรึกษาอาจารย์ไม่ทราบว่าจะสามารถติดต่ออาจารย์ได้อย่างไรคะ ขอบคุณค่ะ
อังคณา
อาจารย์คะ ดิฉันสนใจศึกษาด้านคล้งข้อมูลภาษา จะรบกวนปรึกษาอาจารย์ไม่ทราบว่าจะสามารถติดต่ออาจารย์ได้อย่างไรคะ ขอบคุณค่ะ
อังคณา
แสดงความคิดเห็น