Cara Kerja AI dalam Mengenal Teks

Pabila Syaftahan
•
10 Nov 2024 02.06 WIB

Ilustrasi Artificial Intelligence 4 — Ilustrasi Artificial Intelligence

Teknologi pengenalan teks, atau Optical Character Recognition (OCR), adalah inovasi kecerdasan buatan yang mengubah gambar berisi teks menjadi format digital yang bisa diolah lebih lanjut. Teknologi ini telah menghadirkan banyak manfaat, mulai dari memudahkan pemdaian dan penyimpanan dokumen hingga mempercepat proses pengolahan data. Dalam berbagai aplikasi sehari-hari, seperti pemindai dokumen, aplikasi ponsel, hingga sistem arsip perusahaan, OCR memungkinkan akses cepat dan efisien ke informasi yang sebelumnya hanya ada dalam bentuk cetak atau gambar.

Proses kerja OCR melibatkan langkah-langkah kompleks yang memastikan akurasi tinggi dalam mengenali teks, bahkan dari gambar yang mungkin berkualitas rendah atau memiliki tulisan tangan. Dengan memanfaatkan algoritma machine learning dan deep learning, OCR tidak hanya mengenali bentuk karakter, tetapi juga dapat menafsirkan konteks dari teks yang dikenali. Teknologi ini telah berkembang pesat, dan seiring kemajuan AI, OCR terus berinovasi untuk menghadirkan kemampuan pengenalan teks yang lebih luas dan akurat.

Pengertian Optical Character Recognition (OCR)

Optical Character Recognition, atau pengenalan karakter optik, adalah teknologi yang dirancang untuk mengkonversi gambar berisi teks tertulis atau cetak menjadi format teks digital yang bisa diproses oleh komputer. Dengan OCR, kita bisa mengubah teks dalam foto, buku, dokumen kertas, bahkan tulisan tangan, menjadi teks digital yang dapat dicari, diedit, atau dianalisis.

Dalam aplikasi sehari-hari, teknologi OCR dapat ditemukan dalam berbagai perangkat dan aplikasi, mulai dari pemindai dokumen di kantor hingga aplikasi smartphone yang memungkinkan pengguna memindai teks dari dokumen atau buku. Selain itu, OCR digunakan secara luas dalam bisnis dan industri, seperti dalam sistem penyimpanan data, pengarsipan dokumen, serta pemrosesan data pelanggan.

Bagaimana Teknologi OCR Bekerja?

Teknologi OCR bekerja melalui serangkaian tahapan kompleks yang melibatkan pemrosesan gambar, segmentasi teks, ekstraksi fitur, pengklasifikasian karakter, dan post-processing. Setiap langkah dalam proses ini dirancang untuk mengidentifikasi dan mengenali karakter dalam teks secara efektif.

Berikut adalah penjelasan mendetail mengenai setiap tahapan dalam proses OCR.

1. Pra-pemrosesan Gambar

Langkah pertama dalam OCR adalah pra-pemrosesan gambar. Langkah ini sangat penting karena kualitas gambar yang diinputkan akan mempengaruhi akurasi pengenalan teks. Tujuan utama dari pra-pemrosesan adalah untuk mengoptimalkan gambar agar lebih mudah dikenali oleh algoritma OCR. Proses ini mencakup beberapa teknik, di antaranya:

Binerisasi Gambar: Dalam proses binerisasi, gambar diubah menjadi format hitam-putih. Hal ini dilakukan untuk memisahkan teks dari latar belakang dengan jelas, membuat algoritma lebih mudah mengenali bentuk karakter. Dalam banyak kasus, binerisasi gambar juga melibatkan penggunaan teknik thresholding untuk memisahkan bagian terang dan gelap.
Penyaringan Noise: Noise atau gangguan pada gambar, seperti titik atau goresan yang tidak diinginkan, dapat mengganggu akurasi OCR. Algoritma penyaringan noise membantu membersihkan gambar dari gangguan tersebut, biasanya dengan menggunakan teknik smoothing atau filtering.
Penyesuaian Skala dan Rotasi: Terkadang teks dalam gambar berada dalam posisi miring atau ukuran yang tidak sesuai. Teknologi OCR menggunakan algoritma untuk merotasi atau memperbesar skala gambar agar teks berada dalam posisi yang tepat dan lebih mudah dikenali.

Dengan langkah pra-pemrosesan ini, gambar yang dihasilkan menjadi lebih jelas dan terfokus pada teks, yang memudahkan proses pengenalan karakter selanjutnya.

2. Segmentasi Teks

Setelah gambar dipra-pemroses, langkah berikutnya adalah segmentasi teks. Segmentasi merupakan proses pemecahan gambar menjadi unit-unit lebih kecil yang bisa diidentifikasi secara individual oleh algoritma OCR. Proses ini ibarat "memotong" gambar menjadi bagian-bagian terstruktur yang dapat dipahami secara bertahap, mulai dari baris teks, kata, hingga karakter atau huruf. Melalui segmentasi, OCR dapat mengidentifikasi setiap komponen teks dengan lebih fokus dan akurat, yang sangat krusial untuk dokumen dengan susunan yang tidak seragam.

Dalam segmentasi teks, algoritma OCR memisahkan gambar menjadi:

Baris teks: Setiap baris dipisahkan agar proses pengenalan karakter dapat dilakukan baris per baris, membantu OCR memahami struktur dokumen.
Kata: Setelah baris teks teridentifikasi, proses dilanjutkan dengan memisahkan kata-kata dalam tiap baris. Hal ini memungkinkan algoritma untuk mengenali kata sebagai unit yang berbeda dan memperbaiki akurasi dalam mengenali istilah atau nama khusus.
Huruf: Pada tahap ini, setiap kata dipecah menjadi huruf-huruf individu, memungkinkan OCR untuk menganalisis setiap karakter secara mendalam. Dengan ini, algoritma dapat memetakan bentuk tiap huruf tanpa terganggu oleh karakter lain di sekitarnya.

Segmentasi teks sangat penting, terutama dalam dokumen yang memiliki variasi ukuran font, jarak antar kata, atau bahkan bentuk huruf yang berbeda. Proses ini membuat OCR fokus pada pengenalan setiap karakter secara detail, memperkecil kemungkinan kesalahan interpretasi. Tanpa segmentasi yang baik, akurasi OCR dalam mengenali karakter, terutama dalam dokumen yang kompleks atau padat teks, akan menurun.

3. Ekstraksi Fitur

Setelah segmentasi selesai, OCR memasuki tahap penting berikutnya, yaitu ekstraksi fitur. Tahap ekstraksi fitur ini memungkinkan algoritma OCR untuk menganalisis lebih dalam karakteristik dan bentuk dari setiap huruf atau angka yang ditemukan dalam gambar. Pada dasarnya, ekstraksi fitur bertujuan untuk mengidentifikasi elemen-elemen unik dari setiap karakter, sehingga OCR dapat membedakan satu huruf dari huruf lainnya meskipun bentuknya berbeda. Fitur-fitur ini meliputi garis, lekukan, sudut, dan bentuk keseluruhan yang menjadi ciri khas setiap huruf atau angka.

Teknik ekstraksi fitur biasanya dilakukan dengan pendekatan machine learning atau deep learning, yang menggunakan model yang telah dilatih untuk mengenali pola visual. Dalam proses ini, ada beberapa metode yang digunakan untuk mengekstrak fitur dari karakter:

Ekstraksi Tepian: Salah satu fitur paling dasar dari karakter adalah tepi atau batasnya. Algoritma mencari tepian karakter dengan menganalisis perbedaan intensitas antara teks dan latar belakang. Misalnya, huruf "A" terdiri dari dua garis miring yang bertemu di atas, dan sebuah garis horizontal di tengahnya. Ekstraksi tepian ini memungkinkan algoritma mengenali pola unik yang menjadi ciri khas karakter tersebut.
Ekstraksi Bentuk: Setelah tepian teridentifikasi, algoritma OCR juga akan memperhatikan bentuk keseluruhan dari karakter. Misalnya, huruf "O" berbentuk lingkaran, sedangkan huruf "I" berbentuk garis vertikal. Bentuk-bentuk ini adalah fitur penting yang digunakan untuk mengklasifikasikan huruf secara visual. Dengan mengidentifikasi bentuk dasar ini, algoritma dapat dengan mudah membedakan karakter yang tampak serupa, seperti huruf "O" dan angka "0".

Proses ekstraksi fitur ini menghasilkan representasi digital dari karakter yang disusun berdasarkan fitur-fitur utama yang telah dikenali. Representasi ini berupa pola digital yang kemudian dibandingkan dengan data pelatihan dalam model machine learning atau deep learning. Ketika sistem telah mempelajari pola-pola ini dari berbagai huruf dan angka, OCR mampu mengenali karakter yang mirip dalam berbagai kondisi dan font yang berbeda. Ekstraksi fitur sangat penting untuk meningkatkan akurasi pengenalan karakter dan memperkecil kemungkinan terjadinya kesalahan, terutama dalam dokumen yang memiliki variasi gaya dan bentuk teks.

4. Pengklasifikasian Karakter

Tahap selanjutnya adalah klasifikasi karakter. Di sinilah kecerdasan buatan benar-benar bekerja dengan maksimal untuk mengenali setiap karakter yang telah diekstraksi. Pengklasifikasian karakter menggunakan algoritma machine learning atau deep learning untuk mencocokkan pola karakter yang sudah diolah dengan data yang telah ada dalam database OCR.

Beberapa model AI yang sering digunakan dalam OCR adalah:

Convolutional Neural Networks (CNN): CNN sangat populer dalam pengenalan gambar dan sering digunakan dalam OCR karena kemampuan mereka mengenali pola visual.
Long Short-Term Memory (LSTM): Algoritma LSTM adalah jenis jaringan neural yang sangat baik dalam mengenali urutan atau konteks, yang membantu dalam mengenali kata atau frasa berdasarkan urutan karakter.

Model-model ini dilatih dengan data karakter dalam berbagai font, ukuran, dan gaya agar bisa mengenali teks meski dalam kondisi yang berbeda. Selama proses klasifikasi, AI akan memindai setiap fitur dari karakter dan mencocokkannya dengan pola yang dikenali untuk menentukan karakter apa yang paling mungkin sesuai.

5. Post-Processing

Setelah karakter dikenali, tahap berikutnya adalah post-processing. Langkah ini bertujuan untuk memperbaiki atau menyempurnakan hasil dari pengenalan karakter, terutama ketika terjadi kesalahan pengenalan. Proses ini sering melibatkan beberapa teknik tambahan:

Koreksi Ejaan: Algoritma post-processing dapat menggunakan kamus bawaan untuk mengecek apakah kata yang dihasilkan masuk akal atau tidak. Jika ada karakter yang keliru, sistem dapat memperbaikinya berdasarkan konteks atau ejaan yang benar.
Pengenalan Konteks: Sistem juga dapat memahami konteks dari kata atau kalimat untuk memperbaiki kesalahan. Sebagai contoh, jika dalam kalimat seharusnya ada kata "masalah" namun dikenali sebagai "masaah", algoritma bisa memperbaikinya berdasarkan konteks.

Dengan adanya post-processing, tingkat akurasi OCR semakin tinggi, dan hasil akhirnya dapat digunakan dalam bentuk teks yang lebih mudah dipahami atau diproses lebih lanjut.

6. Konversi Teks ke Format Digital

Langkah terakhir dalam proses OCR adalah mengonversi hasil yang telah melalui post-processing ke dalam format teks digital. Format teks ini kemudian dapat disimpan, dicari, diedit, atau diolah lebih lanjut. Contoh format yang umum digunakan adalah TXT, DOCX, atau PDF yang bisa dicari (searchable PDF), di mana teks dalam PDF dapat diakses seperti layaknya teks biasa.

Teknologi yang Digunakan dalam OCR Modern

Dalam perkembangannya, OCR saat ini tidak hanya terbatas pada karakter cetak namun juga mampu mengenali tulisan tangan serta teks dari berbagai bahasa. Beberapa teknologi yang digunakan dalam OCR modern meliputi:

Tesseract OCR: Salah satu proyek open-source paling populer yang dikembangkan oleh Google. Tesseract telah digunakan dalam berbagai aplikasi dan mendukung banyak bahasa.
Google Vision API: API berbasis cloud dari Google yang mampu mengenali teks dari gambar dengan akurasi tinggi. Teknologi ini memanfaatkan deep learning untuk meningkatkan kemampuan OCR.
EasyOCR: Merupakan library OCR berbasis Python yang juga open-source dan mudah diintegrasikan dengan proyek AI.

Penerapan OCR dalam Kehidupan Sehari-hari

Teknologi OCR memiliki banyak manfaat dalam berbagai bidang, beberapa di antaranya adalah:

Digitalisasi Dokumen: Memungkinkan perusahaan atau instansi untuk mengubah dokumen kertas menjadi arsip digital yang mudah dicari dan disimpan.
Pengolahan Data Pelanggan: Dalam layanan keuangan dan perbankan, OCR membantu memproses formulir pelanggan secara otomatis, mengurangi waktu dan biaya administrasi.
Penerjemahan Teks Langsung: Dengan bantuan OCR, teks dalam gambar bisa diterjemahkan secara langsung dalam aplikasi seperti Google Translate.
Pembacaan Teks untuk Penyandang Disabilitas: OCR digunakan untuk membaca teks dari buku atau dokumen bagi penyandang tunanetra melalui perangkat pembaca layar.

Teknologi OCR dalam kecerdasan buatan memungkinkan konversi teks dari gambar menjadi format digital yang dapat dicari dan diolah, memberikan solusi efektif untuk pengarsipan, pengelolaan data, serta aksesibilitas informasi. Melalui berbagai tahapan, mulai dari pra-pemrosesan gambar hingga post-processing, OCR mampu mengenali karakter secara akurat dengan memanfaatkan algoritma machine learning dan deep learning. Dalam perkembangannya, OCR kini bisa mengenali teks dari berbagai bahasa dan gaya tulisan, bahkan tulisan tangan.

Penerapan OCR membawa manfaat besar di berbagai bidang, seperti digitalisasi dokumen, pengolahan data pelanggan, penerjemahan teks langsung, dan layanan untuk penyandang disabilitas. Dengan kemajuan teknologi yang pesat, OCR diharapkan terus meningkatkan akurasi dan kapabilitasnya, membuka peluang baru bagi inovasi dalam pemrosesan informasi serta mempermudah akses ke data yang sebelumnya sulit dijangkau.