Korpus Bahasa
Korpus Bahasa
Korpus Bahasa
0 KORPUS BAHASA
Kamus dewan edisi keempat mentakrifkan korpus sebagai himpunan makalah (tulisan dan
sebagainya) mengenai sesuatu perkara tertentu atau kumpulan bahan untuk kajian (seperti
kumpulan contoh penggunaan kata dan lain-lain). Namun demikian, dalam linguistik moden,
korpus mempunyai pengertian tambahan sebagai bahan yang dibaca dan disempurnakan
dengan komputer. Ini bermakna korpus yang dikumpulkan dan diselenggarakan dalam
projek merupakan kumpulan teks digital yang boleh diproseskan dengan teknik dan kaedah
linguistik komputeran untuk menampilkan pola dan hubung kait sesuatu perkataan dengan
perkataan lain.
Asmah Haji Omar (1985) menyatakan bahawa perancangan korpus bahasa tidak lain
daripada pembinaan bahasa kerana perancangan bahasa itu meliputi penciptaan istilahistilah baharu, perubahan-perubahan yang dilakukan dalam sistem ejaan dan morfologi,
pengambilalihan sistem tulisan baharu dan sebagainya. Menurut Ismail Dahaman (2007),
usaha perancangan korpus bahasa merangkumi aktiviti pengayaan kosa kata umum dan
ilmu melalui pembentukan istilah baharu, penyusunan sistem ejaan rumi dan jawi, sebutan
baku, penyelidikan dan pendokumentasian korpus bahasa pada peringkat nasional dalam
pelbagai sektor kehidupan masyarakat.
Korpus terawal ialah korpus university brown. Korpus ini telah mencetuskan kajian linguistik
berasaskan korpus dan masih tersimpan sehingga sekarang. Beberapa penambahbaikan
telah dijalankan termasuk diberikan beberapa penandaan baru pada tahun 1979 dan kini
tersimpan dalam enam versi yang dikenal sebagai brown marc form yang dihasilkan oleh
university of Stanford.
Pada peringkat awal kewujudannya, korpus brown ini terdiri daripada sejuta
perkataan dalam bahasa Inggeris yang terbina daripada 500 sampel teks yang setiap satu
mengandungi 2000 patah perkataan dan dipetik daripada pelbagai genre. Bilangan sejuta
patah perkataan pada ketika itu bolehlah dianggap sangat besar memandangkan wujudnya
pelbagai masalah dan kekurangan peralatan dan tenaga untuk pemprosesan yang ada pada
ketika itu. Walau bagaimanapun, menjelang pertengahan 1970-an, wujud beberapa korpus
lain seperti Birmingham collection of English texts (BCET) yang berkembang daripada 7.3
juta perkataan kepada 20 juta menjelang tahun 1985. Ini diikuti dengan British National
Corpus yang jauh lebih besar dengan bilangan teks tulisan dan lisannya mencecah 100 juta
perkataan.
Dewan bahasa dan pustaka pula, usaha awal pemanfaatan himpunan teks dalam
penelitian bahasa melibatkan pembangunan pangkalan data pada 1983 di bawah projek
analisis teks secara komputer. Projek ini mensasarkan data teks sebanyak dua juta
perkataan melalui teknik pensampelan mirip korpus brown. Namun, tatkala saiznya belum
pun mencecah setengah juta, kriteria pensampelan diabaikan dan teks lengkap mula
dikumpulkan untuk mengambil kira keperluan perkamusan dan kajian bahasa yang
memerlukan konteks yang lebih luas dan wacana yang utuh.
Pangkalan data korpus atau singkatannya puk adalah merupakan sebuah pangkalan data
yang dibangunkan hasil daripada kerjasama antara dewan bahasa dan pustaka dengan
universiti sains Malaysia pada tahun 1993. Pangkalan ini merupakan satu-satunya
pangkalan data korpus bahasa Melayu yang terdapat di Malaysia yang menyimpan data
korpus bahasa Melayu dalam bentuk digital. PDK DBP-USM terdiri daripada sistem korpus
dan data korpus.
Sistem korpus ini dilengkapi kemudahan untuk mencapai bentuk-bentuk kata, kata terbitan
dan rangkai kata dan memaparkan hasil carian tersebut dalam bentuk baris-baris
konkordans dengan kata kunci carian tersusun dan tersisih di tengah-tengah baris.
Pencarian berdasarkan kata kunci ini boleh dibuat melalui pelbagai teknik carian, sesuai
dengan maklumat yang ingin dicari dan dipamerkan. Teknik carian yang biasa digunakan
ada dua, iaitu capaian melalui kata kunci dan capaian melalui kata kunci serta simbol bebas.
Capaian
melalui kata
kunci
Teknik carian
Capaian
melalui kata
kunci serta
simbol
bebas
Sementara itu, pencarian dengan kata kunci b?t?l akan memaparkan bentukbentuk seperti botol, batal, betul dan sebagainya. Sistem korpus ini juga dilengkapi
dengan modul untuk menganalisis teks yang dikenal sebagai mata (malay text analysis)
yang mampu menghasilkan statistik tentang sesebuah teks melibatkan bilangan perkataan,
kekerapan perkataan, bilangan serta senarai kata akar, bilangan serta senarai kata baru dan
bilangan serta senarai kata tak sahih.
Data korpus boleh bersumberkan bentuk tulisan atau lisan. Walau bagaimanapun, usaha
semasa program ini masih tertumpu pada bahan tulisan daripada buku, majalah, surat
khabar, monograf, dokumen, kertas kerja, surat, risalah dan sebagainya. Setiap jenis
wacana ini dikumpulkan dalam subkorpus yang berasingan. Sehingga 25 November 2008,
pangkalan data korpus adalah lebih kurang 135 juta perkataan yang terkandung dalam
sepuluh subkorpus.
Semua teks yang telah dikumpul akan distrukturkan mengikut kriteria-kriteria yang
telah ditetapkan untuk dijadikan pangkalan korpus bahasa Melayu yang seimbang dan
representatif bagi penelitian penggunaan sebenar bahasa Melayu. Seterusnya, semua teks
yang telah melalui proses pemilihan akan dibawa ke pangkalan korpus nahu Melayu praktis
atau pangkalan data korpus bahasa Melayu DBP untuk diklasifikasikan kepada dua, iaitu
maklumat statistik dan baris konkordans melalui dua sistem yang dikenal sebagai sistem
konkordans dan sistem analisis maklumat.
Selepas selesai sahaja proses pengumpulan data, tindakan seterusnya adalah menjalankan
kerja-kerja pengisihan dan pengabjadan data. Mengikut prosedur ini, setiap kata yang telah
dirakam akan disusun mengikut abjad, iaitu a hingga z. ini boleh dilakukan secara manual
atau penggunaan komputer. Data ini akan disimpan dala bank data untuk digunakan
sebagai rujukan apabila diperlukan kelak.
Setelah selesai pengisihan entri, penyusun kamus akan bergerak kepada prosedur
seterusnya,
iaitu
pengolahan
data.
Pada
peringkat
ini,
penyusun
kamus
akan
mengklasifikasikan kepada yang ditemui ke dalam kata baharu, kata yang lewah, kata yang
jarang digunakan (neologisme) dan kata yang mengalami perubahan makna. Kata lewah
akan
dibuang
dengan
menggunakan
pendekatan
semantik
dan
pragmatik,
Perancangan bahasa Melayu sebagai bahasa moden bergerak seiring dengan pemanfaatan
teknologi canggih seperti melalui program pengkomputeran. Ada dua bentuk yang
dilaksanakan oleh pihak DBP bagi tujuan ini. Pertama ialah pembinaan prasarana atau
sistem untuk penyelidikan bahasa Melayu, sementara yang kedua ialah penyelidikan dalam
bidang linguistik korpus dan linguistik komputeran. Setakat ini sebuah korpus bahasa
Melayu telah dibina untuk kegunaan penyelidik bahasa di dalam dan di luar negara. Di
peringkat kerjasama serantau, melalui MABBIM, telah mula diusahakan pembinaan gerbang
bahasa Melayu / Indonesia. Gerbang atau portal tersebut akan menjadi wadah bagi segala
kemudahan untuk pengajaran, pembelajaran, penyebaran dan penelitian bahasa Melayu.