วันพฤหัสบดีที่ 2 สิงหาคม พ.ศ. 2550
โปรแกรมวิเคราะห์คลังข้อมูลภาษา
1 การแสดงผลการสืบค้นในรูปแบบของบรรทัดคอนคอร์ด๊านซ์
เมื่อผู้ใช้พิมพ์คำหรือวลีที่ต้องการสืบค้นโดยได้เลือกแหล่งของคลังข้อมูลภาษาที่ต้องการแล้ว โปรแกรมจะทำหน้าที่เหมือนเครื่องมือค้นหา (search engine) ในการค้นหาตำแหน่งของคำหรือวลีที่ปรากฏทุกตำแหน่งในคลังข้อมูลภาษา และแสดงผลบนหน้าจอในรูปแบบของบรรทัดคอนคอร์ด๊านซ์ เช่น ตัวอย่างข้างล่างนี้เป็นการแสดงบรรทัดคอนคอร์ด๊านซ์ของการสืบค้นคำว่า ‘reason’
ual ledgers of the account. For some reason Barclays is keeping them under wraps
ft the BBC virtually unmolested, the reason being that politicians sent to tame
e in America".Now there's another reason for putting Vail at the top of the A
n the Bush Administration offered no reason for his surprise withdrawal. Mr Chen
fatter and fatter and that the only reason for his weight gain was that he was
tion. On Saturday, Fjortoft had more reason for satisfaction, emerging with nine
computer since 1988.One possible reason for this dearth of information is th
rpassable acoustic remains the prime reason for its musical pre-eminence. "Until
mpionship and I never wanted it. The reason for the change was to stop us going
Rail and a Government which for some reason has made it more expensive to go to
s at the Halifax, said: "There is no reason that we can see for raising interest
many a Scottish fortune has had good reason to thank Westminster ever since. I
vents. But it adds: "There is little reason to fear that a few suggestive questi
Tony Blair had every reason to be cheerful as he enjoyed a New Y
een fully vindicated. There is every reason to think that export-led output coul
for such a talented player. Another reason was that Caplan is such a doughty pl
in the DIY form, costs, there is no reason why the consumer should not be entit
committed suicide, I cannot see any reason why they should not go ahead now."
d techno fan as well.But the main reason why jungle has remained such a well-
จะสังเกตได้ว่าบรรทัดคอนคอร์ด๊านซ์จะมีลักษณะพิเศษดังนี้
คำที่ค้นหา (ในที่นีคือ ‘reason’) จะถูกจัดรูปแบบไว้ตรงกึ่งกลางของหน้าจอ โดยแสดงผลพร้อมกับบริบทของคำที่ปรากฏในด้านซ้ายและด้านขวาของคำที่สืบค้น
บรรทัดแต่ละบรรทัดคือตัวอย่างของคำที่ตัดมาจากตำแหน่งที่คำปรากฏในคลังข้อมูล ดังนั้นบรรทัดแต่ละบรรทัดจะไม่สามารถอ่านต่อเนื่องกันได้ เพราะมาจากคนละตำแหน่งหรือบางกรณีอาจจะมาจากคนละไฟล์หรือแหล่งข้อมูลก็ได้ เช่น บรรทัดที่ 1 อาจจะมาจากหนังสือพิมพ์เล่มหนึ่ง ส่วนบรรทัดที่ 2 อาจจะมาจากหนังสือพิมพ์อีกเล่มหนึ่ง
บรรทัดแต่ละบรรทัดมักจะไม่ใช่ประโยคที่สมบูรณ์เนื่องจากโปรแกรมจะตัดบรรทัดตามความยาวที่กำหนด ปกติจะกำหนดไว้ที่ 40 ตัวอักษรทางด้านซ้ายและ 40 ตัวอักษรทางด้านขวาของคำที่ค้นหา ดังนั้นบางครั้งอาจไม่เข้าใจเรื่องราวหรือบริบทที่ชัดเจนได้ (แต่โปรแกรมบางตัวสามารถเพิ่มขนาดของบริบทที่ตัดมาได้หรือเรียกดูบริบทที่ยาวขึ้นได้)
คำที่อยู่ในตำแหน่งต่างๆโดยนับจากคำหลักจะสามารถเรียงตามตัวอักษรได้ เช่น ในตัวอย่างข้างบนนี้เราสั่งให้โปรแกรมเรียงคำในตำแหน่งที่ 1 จากด้านขวา (for…have…that…to…was…why) เพื่อช่วยในการสังเกตคำปรากฏร่วม (collocation) หรือรูปแบบภาษา (pattern) ได้ชัดเจนขึ้น
2 เครื่องมืออื่นๆ
นอกจากนั้นโปรแกรมวิเคราะห์คลังข้อมูลภาษาบางตัวสามารถเรียงลำดับคำที่ปรากฏตามลำดับความถี่ (frequency list) หรือสามารถใช้ค่าทางสถิติในการคำนวณหาความสัมพันธ์ของคำต่างๆในคลังข้อมูลได้ เช่น หาคำที่ปรากฏร่วมกับคำที่ค้นหา (collocation list) หรือ หาค่าของความเป็นศัพท์เฉพาะของคลังข้อมูลภาษาที่ศึกษาเมื่อเทียบกับคลังข้อมูลภาษาอ้างอิงอื่นๆ (key word list)
แหล่งของคลังข้อมูลภาษา
3.2 ใช้แหล่งข้อมูลจากเวปไซด์ (web conconcordancing) ข้อดีคือไม่มีค่าใช้จ่าย ไม่ต้องศึกษาการใช้โปรแกรมวิเคราะห์คลังข้อมูลภาษา ใช้งานง่าย คือ เข้าไปที่เวปไซด์ พิมพ์คำที่ต้องการสืบค้น เลือกคลังข้อมูล จากนั้นเวปไซด์ก็จะแสดงผลการสืบค้น หรือตัวอย่างของคำที่ต้องการทันที แต่มีข้อจำกัดคือคลังข้อมูลมักมีขนาดเล็ก จึงอาจไม่พบตัวอย่างของคำหรือพบตัวอย่างค่อนข้างน้อยถ้าเลือกหาคำที่ไม่ได้เป็นคำที่พบบ่อย คลังข้อมูลจากเวปไซด์ที่แนะนำ คือ
http://www.lextutor.ca/concordancers/concord_e.html (คลังข้อมูลภาษาทั่วไป) http://vlc.polyu.edu.hk/concordance/WWWConcappE.htm (คลังข้อมูลภาษาทั่วไป)
http://ysomeya.hp.infoseek.co.jp (เฉพาะคลังข้อมูลจดหมายธุรกิจ)
http://sara.natcorp.ox.ac.uk/lookup.html (คลังข้อมูลภาษาทั่วไป)
http://www.collins.co.uk/Corpus/CorpusSearch.aspx (คลังข้อมูลภาษาทั่วไป)
3.3 สร้างคลังข้อมูลภาษาขึ้นเองในกรณีที่ต้องการศึกษาลักษณะภาษาหรือศัพท์เฉพาะ เช่น ต้องการศึกษาลักษณะภาษาของบทความทางวิทยาศาสตร์ หรือต้องการทำศัพทานุกรมศัพท์เฉพาะเรื่องใดเรื่องหนึ่ง สามารถสร้างคลังข้อมูลเองได้โดยบันทึกข้อมูลภาษาที่ต้องการในรูปแบบของไฟล์ข้อมูล (text file) หรือไฟล์ที่มีนามสกุล .txt และใช้โปรแกรมวิเคราะห์คลังข้อมูลภาษาในการสืบค้นและแสดงผลข้อมูล ข้อดีของแหล่งข้อมูลประเภทนี้คือสามารถสร้างคลังข้อมูลภาษาได้ตามจุดประสงค์ แต่มีข้อเสียคือต้องหาโปรแกรมวิเคราะห์ข้อมูลภาษาเองและต้องใช้เวลาศึกษาการใช้งานโปรแกรมดังกล่าว อย่างไรก็ตามในปัจจุบันมีโปรแกรมที่มีประสิทธิภาพและราคาไม่แพง เช่น
‘Wordsmith’ (http://www.lexically.net/wordsmith)
monoconc (http://www.athel.com/mono.html)
หรือโปรแกรมที่อาจมีลักษณะการใช้งานที่จำกัดแต่ไม่เสียค่าใช้จ่ายซึ่งอาจเหมาะกับผู้ที่เริ่มทดลองใช้หรือทำงานวิจัยขนาดเล็ก เช่น
Antconc’ (http://www.antlab.sci.waseda.ac.jp/software.html )
ประเภทของคลังข้อมูลภาษา
2.1 แบ่งตามจำนวนของภาษา เช่น คลังข้อมูลภาษาเดียว (monolingual corpus) คลังข้อมูลหลายภาษา (multi-lingual corpus)
2.2 แบ่งตามลักษณะของภาษา เช่น คลังข้อมูลภาษาทั่วไป (general corpus) คลังข้อมูลภาษาเฉพาะด้าน (specialized corpus)
2.3 แบ่งตามลักษณะการเปรียบเทียบข้อมูล เช่น คลังข้อมูลภาษาเปรียบเทียบ (comparable corpus) ซึ่งเป็นการรวบรวมสร้างคลังข้อมูลของบทความหรือข้อความในหัวข้อเดียวกันในสองภาษา เช่น ข่าวหุ้นภาษาไทยกับข่าวหุ้นภาษาอังกฤษ หรือคลังข้อมูลภาษาคู่ขนาน (parallel corpus) ซึ่งเป็นการสร้างคลังข้อมูลภาษาต้นฉบับคู่กันกับภาษาในฉบับแปล เช่น ข่าวหุ้นภาษาอังกฤษและบทแปลข่าวชิ้นเดียวกันเป็นภาษาไทย
2.4 แบ่งตามลักษณะของการสื่อสาร เช่น คลังข้อมูลภาษาเขียน (written corpus) คลังข้อมูลภาษาพูด (spoken corpus)
ความรู้เบื้องต้นเกี่ยวกับคลังข้อมูลภาษา
ในความหมายแบบกว้าง คลังข้อมูลภาษาอาจหมายถึงการรวบรวมหรือสะสมข้อความ บทความ หรือข้อเขียนในภาษาใดภาษาหนึ่ง เช่น รวบรวมข่าวภาษาอังกฤษจากหนังสือพิมพ์ หรือการเก็บรวบรวมจดหมายธุรกิจที่เขียนเป็นภาษาอังกฤษ โดยทั่วไปไม่ได้ใช้อุปกรณ์หรือเครื่องมือทางอิเลคทรอนิคส์ที่ซับซ้อนในการสร้างฐานข้อมูลและสืบค้นข้อมูล และอาจมีจุดประสงค์ในการรวบรวมที่ชัดเจน เช่น ใช้ในการวิเคราะห์ลักษณะภาษาหรือผลิตตำราเอกสารการสอน หรืออาจไม่มีจุดประสงค์ที่ชัดเจนก็ได้
แต่คำว่าคลังข้อมูลภาษา (corpus) หรือรูปพหูพจน์ (corpora) ในความหมายเฉพาะทางภาษาศาสตร์ โดยเฉพาะภาษาศาสตร์คลังข้อมูลภาษา (corpus linguistics) หมายถึงการรวบรวมหรือสะสมข้อความ บทความ หรือข้อเขียนในภาษาใดภาษาหนึ่งโดยมีลักษณะเฉพาะของการเก็บข้อมูลดังนี้ (ในบทความนี้จะเน้นที่การสร้างคลังข้อมูลภาษาอังกฤษ)
1. ลักษณะของข้อมูลเป็นข้อความ (text) ซึ่งอาจเป็นภาษาเขียน (written English) เช่น ข่าว หรือ บทความทางวิชาการ หรือเป็นการถอดความจากภาษาที่มีลักษณะเป็นภาษาพูด (transcriptions of spoken English) เช่น จากบทภาพยนตร์หรือบทสัมภาษณ์
2. ข้อความดังกล่าวถูกเก็บเป็นข้อมูลในรูปแบบของไฟล์ข้อมูล (text files) ในคอมพิวเตอร์ เช่น ถ้าพบบทความที่น่าสนใจในหนังสือก็จะ scan และ save เป็น text file (นิยมใช้ไฟล์นามสกุล .txt เนื่องจากทำงานได้ดีกับโปรแกรมที่ใช้ในการวิเคราะห์หรือเรียกแสดงตัวอย่าง) หรือ ถ้าพบบทความที่น่าสนใจในอินเตอร์เน็ตก็จะ save เป็น text file เพื่อสร้างเป็นฐานข้อมูลภาษา
3.ใช้โปรแกรมพิเศษบางชนิดในการวิเคราะห์ข้อมูลและนำเสนอข้อมูล เช่น โปรแกรมคอนคอร์ด๊านซ์ (concordancing tools หรือ concordancer) ตัวอย่างเช่น ใช้โปรแกรมดังกล่าวในการเรียงลำดับคำในคลังข้อมูลตามความถี่ที่ปรากฏ หรือแสดงตัวอย่างของคำหรือวลีในรูปแบบของบรรทัดคอนคอร์ด๊านซ์หรือ concordance lines (จะอธิบายในหัวข้อต่อไป)
4. มีจุดประสงค์ในการสร้างคลังข้อมูลที่ชัดเจน เช่น เพื่อศึกษาและช่วยในการอธิบายลักษณะหรือการใช้ภาษาหรือคำทั่วไปหรือคำศัพท์เฉพาะทาง เพื่อนำไปการวิเคราะห์ที่ได้ไปประยุกต์ใช้ในการเขียนพจนานุกรม ศัพทานุกรม หรือใช้ในการสอนภาษา
5. ขนาดของคลังข้อมูลหรือฐานข้อมูลจะขึ้นกับจุดประสงค์ในการสร้าง เช่น ถ้าต้องการศึกษาวิเคราะห์ความหมายและรูปแบบการใช้คำทั่วไปเพื่อศึกษาวิจัยทางภาษาศาสตร์หรือเพื่อเขียนพจนานุกรมต้องสร้างคลังข้อมูลขนาดใหญ่ (เช่น 10 ล้านคำขึ้นไป) แต่ถ้าต้องการศึกษาลักษณะของศัพท์เฉพาะหรือสร้างศัพทานุกรมศัพท์เฉพาะอาจสร้างคลังข้อมูลขนาดเล็กได้ (เช่น 50,000 คำ)