Korpus Bahasa

12.
0 KORPUS BAHASA
12.1 Definisi dan Konsep
Kamus dewan edisi keempat mentakrifkan korpus sebagai himpunan makalah (tulisan dan
sebagainya) mengenai sesuatu perkara tertentu atau kumpulan bahan untuk kajian (seperti
kumpulan contoh penggunaan kata dan lain-lain). Namun demikian, dalam linguistik moden,
korpus mempunyai pengertian tambahan sebagai bahan yang dibaca dan disempurnakan
dengan komputer. Ini bermakna korpus yang dikumpulkan dan diselenggarakan dalam
projek merupakan kumpulan teks digital yang boleh diproseskan dengan teknik dan kaedah
linguistik komputeran untuk menampilkan pola dan hubung kait sesuatu perkataan dengan
perkataan lain.
Asmah Haji Omar (1985) menyatakan bahawa perancangan korpus bahasa tidak lain
daripada pembinaan bahasa kerana perancangan bahasa itu meliputi penciptaan istilahistilah baharu, perubahan-perubahan yang dilakukan dalam sistem ejaan dan morfologi,
pengambilalihan sistem tulisan baharu dan sebagainya. Menurut Ismail Dahaman (2007),
usaha perancangan korpus bahasa merangkumi aktiviti pengayaan kosa kata umum dan
ilmu melalui pembentukan istilah baharu, penyusunan sistem ejaan rumi dan jawi, sebutan
baku, penyelidikan dan pendokumentasian korpus bahasa pada peringkat nasional dalam
pelbagai sektor kehidupan masyarakat.
12.2 Sejarah Awal Korpus
Korpus terawal ialah korpus university brown. Korpus ini telah mencetuskan kajian linguistik
berasaskan korpus dan masih tersimpan sehingga sekarang. Beberapa penambahbaikan
telah dijalankan termasuk diberikan beberapa penandaan baru pada tahun 1979 dan kini
tersimpan dalam enam versi yang dikenal sebagai brown marc form yang dihasilkan oleh
university of Stanford.
Pada peringkat awal kewujudannya, korpus brown ini terdiri daripada sejuta
perkataan dalam bahasa Inggeris yang terbina daripada 500 sampel teks yang setiap satu
mengandungi 2000 patah perkataan dan dipetik daripada pelbagai genre. Bilangan sejuta
patah perkataan pada ketika itu bolehlah dianggap sangat besar memandangkan wujudnya
pelbagai masalah dan kekurangan peralatan dan tenaga untuk pemprosesan yang ada pada
ketika itu. Walau bagaimanapun, menjelang pertengahan 1970-an, wujud beberapa korpus
lain seperti Birmingham collection of English texts (BCET) yang berkembang daripada 7.3
juta perkataan kepada 20 juta menjelang tahun 1985. Ini diikuti dengan British National
Corpus yang jauh lebih besar dengan bilangan teks tulisan dan lisannya mencecah 100 juta
perkataan.
Dewan bahasa dan pustaka pula, usaha awal pemanfaatan himpunan teks dalam
penelitian bahasa melibatkan pembangunan pangkalan data pada 1983 di bawah projek
analisis teks secara komputer. Projek ini mensasarkan data teks sebanyak dua juta
perkataan melalui teknik pensampelan mirip korpus brown. Namun, tatkala saiznya belum
pun mencecah setengah juta, kriteria pensampelan diabaikan dan teks lengkap mula
dikumpulkan untuk mengambil kira keperluan perkamusan dan kajian bahasa yang
memerlukan konteks yang lebih luas dan wacana yang utuh.
12.3 Pangkalan Data Korpus
Pangkalan data korpus atau singkatannya puk adalah merupakan sebuah pangkalan data
yang dibangunkan hasil daripada kerjasama antara dewan bahasa dan pustaka dengan
universiti sains Malaysia pada tahun 1993. Pangkalan ini merupakan satu-satunya
pangkalan data korpus bahasa Melayu yang terdapat di Malaysia yang menyimpan data
korpus bahasa Melayu dalam bentuk digital. PDK DBP-USM terdiri daripada sistem korpus
dan data korpus.
12.3.1 Sistem Korpus
Sistem korpus ini dilengkapi kemudahan untuk mencapai bentuk-bentuk kata, kata terbitan
dan rangkai kata dan memaparkan hasil carian tersebut dalam bentuk baris-baris
konkordans dengan kata kunci carian tersusun dan tersisih di tengah-tengah baris.
Pencarian berdasarkan kata kunci ini boleh dibuat melalui pelbagai teknik carian, sesuai
dengan maklumat yang ingin dicari dan dipamerkan. Teknik carian yang biasa digunakan
ada dua, iaitu capaian melalui kata kunci dan capaian melalui kata kunci serta simbol bebas.
Capaian
melalui kata
kunci
Teknik carian
Capaian
melalui kata
kunci serta
simbol
bebas
a) Capaian melalui kata kunci (bentuk kata)

Sesuatu bentuk kata boleh dicapai dengan menaipkan kata tersebut. misalnya,
capaian yang menggunakan kata kunci kata akan memaparkan semua kehadiran
bentuk ini dalam sesuatu korpus teks.
b) Capaian melalui kata kunci serta simbol bebas * dan ?
Pencapaian sesuatu bentuk kata boleh juga dilaksanakan dengan menggunakan
kata kunci serta simbol bebas * dan ? (dengan * mewakili satu atau lebih
aksara, manakala ? mewakili satu aksara). Contoh pencarian dengan kata kunci
*kata* akan memaparkan bentuk-bentuk seperti kata, perkataan, berkata dan
sebagainya.
Sementara itu, pencarian dengan kata kunci b?t?l akan memaparkan bentukbentuk seperti botol, batal, betul dan sebagainya. Sistem korpus ini juga dilengkapi
dengan modul untuk menganalisis teks yang dikenal sebagai mata (malay text analysis)
yang mampu menghasilkan statistik tentang sesebuah teks melibatkan bilangan perkataan,
kekerapan perkataan, bilangan serta senarai kata akar, bilangan serta senarai kata baru dan
bilangan serta senarai kata tak sahih.
12.3.2 Data Korpus
Data korpus boleh bersumberkan bentuk tulisan atau lisan. Walau bagaimanapun, usaha
semasa program ini masih tertumpu pada bahan tulisan daripada buku, majalah, surat
khabar, monograf, dokumen, kertas kerja, surat, risalah dan sebagainya. Setiap jenis
wacana ini dikumpulkan dalam subkorpus yang berasingan. Sehingga 25 November 2008,
pangkalan data korpus adalah lebih kurang 135 juta perkataan yang terkandung dalam
sepuluh subkorpus.
Semua teks yang telah dikumpul akan distrukturkan mengikut kriteria-kriteria yang
telah ditetapkan untuk dijadikan pangkalan korpus bahasa Melayu yang seimbang dan
representatif bagi penelitian penggunaan sebenar bahasa Melayu. Seterusnya, semua teks
yang telah melalui proses pemilihan akan dibawa ke pangkalan korpus nahu Melayu praktis
atau pangkalan data korpus bahasa Melayu DBP untuk diklasifikasikan kepada dua, iaitu
maklumat statistik dan baris konkordans melalui dua sistem yang dikenal sebagai sistem
konkordans dan sistem analisis maklumat.
12.4 Pengumpulan dan Pengelasan Kata
Selepas selesai sahaja proses pengumpulan data, tindakan seterusnya adalah menjalankan
kerja-kerja pengisihan dan pengabjadan data. Mengikut prosedur ini, setiap kata yang telah
dirakam akan disusun mengikut abjad, iaitu a hingga z. ini boleh dilakukan secara manual
atau penggunaan komputer. Data ini akan disimpan dala bank data untuk digunakan
sebagai rujukan apabila diperlukan kelak.
Setelah selesai pengisihan entri, penyusun kamus akan bergerak kepada prosedur
seterusnya,
iaitu
pengolahan
data.
Pada
peringkat
ini,
penyusun
kamus
akan
mengklasifikasikan kepada yang ditemui ke dalam kata baharu, kata yang lewah, kata yang
jarang digunakan (neologisme) dan kata yang mengalami perubahan makna. Kata lewah
akan
dibuang
dengan
menggunakan
pendekatan
semantik
dan
pragmatik,
mendokumentasikan kata neologisme dan seterusnya mengambil kata-kata baharu dan

kata-kata yang mengalami perubahan makna pada peringkat pemerian makna.
Selepas itu, penyusun akan membuang kata-kata lewah, mendokumentasikan

neologisme dan mengambil kata-kata baharu. Pemberian makna ialah proses menjelaskan
makna sesuatu perkataan. Penyusun kamus boleh menggunakan pelbagai bahan rujukan
sedia ada seperti daftar istilah dan sebagainya untuk mencari maksud sesuatu kata.
Pembutiran setiap medan maklumat secara relatifnya berbeza antara satu kamus dengan
yang lain bergantung pada tujuan kamus dihasilkan. Medan maklumat bagi sebuah
ekabahasa ialah entri, subentri, entri varian, subentri varian, sebutan, etimologi, kelas kata,
takrif, contoh penggunaan, homonim, sinonim, antonim, frasa dan ungkapan, simpulan
bahasa dan peribahasa, nama saintifik, label, angka penanda dan rujuk silang.
12.5 Kata dan Pengkomputeran
Perancangan bahasa Melayu sebagai bahasa moden bergerak seiring dengan pemanfaatan
teknologi canggih seperti melalui program pengkomputeran. Ada dua bentuk yang
dilaksanakan oleh pihak DBP bagi tujuan ini. Pertama ialah pembinaan prasarana atau
sistem untuk penyelidikan bahasa Melayu, sementara yang kedua ialah penyelidikan dalam
bidang linguistik korpus dan linguistik komputeran. Setakat ini sebuah korpus bahasa
Melayu telah dibina untuk kegunaan penyelidik bahasa di dalam dan di luar negara. Di
peringkat kerjasama serantau, melalui MABBIM, telah mula diusahakan pembinaan gerbang
bahasa Melayu / Indonesia. Gerbang atau portal tersebut akan menjadi wadah bagi segala
kemudahan untuk pengajaran, pembelajaran, penyebaran dan penelitian bahasa Melayu.
Di peringkat antarabangsa, DBP telah mula menyertai projek universal networking

language, pertubuhan bangsa-bangsa bersatu. Projek ini tertumpu pada beberapa usaha
untuk mentakrif suatu bahasa interlingua yang boleh digunakan untuk mengekodkan teks
dalam sesuatu bahasa supaya teks tersebut dapat dibaca dalam pelbagai bahasa di
internet. Pemanfaatan bidang teknologi maklumat dan komunikasi ini telah dimulakan
dengan projek karya net, iaitu sebuah usaha dalam bentuk penerbitan pelbagai karya ilmu,
pedoman bahasa dan karya kreatif dalam bentuk digital serta pengajaran bahasa dan
persuratan Melayu melalui talian.

Korpus Bahasa

Uploaded by

Copyright:

Available Formats

Korpus Bahasa

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Korpus Bahasa

Uploaded by

Copyright:

Available Formats

12.

12.1 Definisi dan Konsep

12.2 Sejarah Awal Korpus

12.3 Pangkalan Data Korpus

12.3.1 Sistem Korpus

a) Capaian melalui kata kunci (bentuk kata)

12.3.2 Data Korpus

12.4 Pengumpulan dan Pengelasan Kata

mendokumentasikan kata neologisme dan seterusnya mengambil kata-kata baharu dan

Selepas itu, penyusun akan membuang kata-kata lewah, mendokumentasikan

12.5 Kata dan Pengkomputeran

Di peringkat antarabangsa, DBP telah mula menyertai projek universal networking

You might also like