Apa itu OCR (Optical Character Recognition atau Pengenalan Karakter Optik)?

Apa itu OCR?

Pengenalan karakter optik (OCR) adalah teknologi yang menggunakan ekstraksi data otomatis untuk secara cepat mengonversi gambar teks ke dalam format yang dapat dibaca oleh mesin.

OCR terkadang disebut sebagai pengenalan teks. Program OCR mengekstrak dan menggunakan kembali data dari dokumen yang dipindai, gambar kamera, dan PDF hanya gambar. Perangkat lunak OCR memilih huruf-huruf pada gambar, memasukkannya ke dalam kata-kata, dan kemudian memasukkan kata-kata tersebut ke dalam kalimat, sehingga memungkinkan akses dan pengeditan konten asli. Hal ini juga menghilangkan upaya sia-sia dalam entri data manual yang berlebihan.

Sistem OCR menggunakan kombinasi perangkat keras dan perangkat lunak untuk mengubah dokumen fisik yang dicetak menjadi teks yang dapat dibaca mesin. Perangkat keras, seperti pemindai optik atau papan sirkuit khusus, menyalin atau membaca teks, kemudian perangkat lunak biasanya menangani pemrosesan lanjutan.

Perangkat lunak OCR dapat memanfaatkan kecerdasan buatan (AI) untuk menerapkan metode pengenalan karakter cerdas (ICR) yang lebih canggih untuk mengidentifikasi bahasa atau tulisan tangan. Organisasi sering menggunakan proses OCR untuk mengubah dokumen legal atau historis yang dicetak menjadi dokumen PDF sehingga pengguna dapat mengedit, memformat, dan mencari dokumen seolah-olah dokumen tersebut dibuat dengan pengolah kata.

Cara memilih model dasar AI yang tepat

Pelajari cara memilih pendekatan yang tepat dalam menyiapkan set data dan menggunakan model AI, serta cara menggunakan kerangka kerja pemilihan model untuk menyeimbangkan biaya kinerja, risiko, dan kebutuhan penerapan.

Sejarah OCR

Pada tahun 1974, Ray Kurzweil memulai Kurzweil Computer Products, Inc, yang produk OCR omni-font-nya dapat mengenali teks yang dicetak dengan hampir semua jenis font. Ia memutuskan bahwa aplikasi terbaik dari teknologi ini adalah perangkat machine learning (ML) untuk gangguan penglihatan, jadi ia menciptakan mesin baca yang dapat membaca teks dengan keras dalam format text-to-speech. Pada tahun 1980, Kurzweil menjual perusahaannya kepada Xerox, yang tertarik untuk mengomersialkan lebih lanjut konversi teks dari kertas ke komputer.

Teknologi OCR menjadi populer pada awal tahun 1990-an saat mendigitalkan surat kabar bersejarah. Sejak saat itu, teknologi telah mengalami beberapa perkembangan. Saat ini, produk tersebut dapat memberikan akurasi OCR yang hampir sempurna. Metode lanjutan dapat mengotomatiskan alur kerja pemrosesan dokumen yang kompleks.

Sebelum teknologi OCR tersedia, satu-satunya pilihan untuk memformat dokumen secara digital adalah memasukkan kembali teks secara manual. Input yang berlebihan tidak hanya memakan waktu, tetapi juga menimbulkan ketidakakuratan dan kesalahan pengetikan yang tidak terhindarkan. Saat ini, layanan OCR tersedia secara luas untuk umum. Misalnya, Google Cloud Vision OCR dapat digunakan untuk memindai dan menyimpan dokumen di ponsel cerdas Anda.

Bagaimana cara kerja OCR?

Perangkat lunak OCR menggunakan pemindai untuk memproses kembali bentuk fisik dari dokumen menjadi teks digital yang dapat diedit. Perangkat lunak OCR dapat berjalan sebagai program yang berdiri sendiri, Antarmuka pemrograman aplikasi OCR atau layanan berbasis web.

Akuisisi gambar: Semua dokumen halaman disalin dan selanjutnya mesin OCR mengonversi dokumen digital menjadi versi dua warna atau hitam putih. Gambar atau bitmap yang dipindai dianalisis bagian terang dan gelapnya. Program tersebut selanjutnya mengidentifikasi bagian yang gelap sebagai karakter yang harus dikenali, sementara area yang terang diidentifikasi sebagai latar belakang.

Prapemrosesan:Gambar digital dibersihkan untuk menghilangkan piksel asing. Prapemrosesan ini dapat mencakup deskewing untuk mengoreksi gambar yang tidak disejajarkan dengan benar selama pemindaian, menghapus aturan dan kotak grafis yang merupakan bagian dari gambar yang dicetak dan menentukan apakah teks skrip disertakan.

Pengenalan teks: Bagian gelap diproses untuk menemukan huruf alfabet, angka numerik, atau simbol. Tahap ini biasanya melibatkan penargetan satu karakter, kata, atau blok teks pada satu waktu. Karakter kemudian diidentifikasi dengan menggunakan salah satu dari dua algoritma, baik pengenalan pola atau pengenalan fitur.

Pengenalan pola (atau pencocokan pola): Program OCR sebelumnya telah dilatih pada contoh teks dalam berbagai font dan format untuk mengenali karakter dengan membandingkannya dengan templat dalam dokumen yang dipindai atau file gambar. Setiap kombinasi unik dari bentuk, skala, dan font disebut glif. Agar ini berfungsi, karakter harus dalam font yang telah dilatih oleh program OCR. Mengingat jumlah font di seluruh dunia dan bahasa yang menggunakan karakter berbeda, seperti pelatihan bahasa Arab, Tiongkok, Inggris, Prancis, Jerman, Yunani, Jepang, Korea, atau Spanyol, pelatihan pada setiap kombinasi font dan bahasa akan sangat menguras sistem.
Pengenalan fitur (deteksi atau ekstraksi): Ini digunakan ketika program OCR menganalisis font yang belum dilatih. OCR menerapkan aturan mengenai fitur huruf atau angka tertentu untuk mengenali karakter dalam dokumen yang dipindai. Fitur termasuk jumlah garis miring, perpotongan garis, loop atau kurva dalam karakter. Misalnya, huruf kapital "A" disimpan sebagai dua garis diagonal yang bertemu dengan garis horizontal di tengahnya. Ketika sebuah karakter diidentifikasi, karakter tersebut diubah menjadi kode American Standard Code for Information Interchange (ASCII) yang digunakan sistem komputer untuk menangani manipulasi lebih lanjut.

Pengenalan tata letak: Program OCR yang lebih lengkap juga akan menganalisis struktur gambar dokumen. Ini membagi halaman menjadi elemen-elemen, seperti blok teks, tabel, atau gambar. Garis dibagi menjadi kata-kata dan kemudian menjadi karakter. Setelah karakter dipilih, program membandingkannya dengan serangkaian gambar pola. Setelah memproses semua kemungkinan kecocokan, program mengembalikan teks yang dikenali.

Postprocessing: Informasi yang dikumpulkan disimpan sebagai file digital, baik dalam bentuk yang dapat diedit atau PDF. Beberapa sistem mempertahankan gambar input dan versi pasca-OCR untuk perbandingan yang lebih mudah dan manajemen dokumen yang lebih lengkap.

Jenis OCR

Ada 4 jenis program OCR, dengan peningkatan kecanggihan:

OCR sederhana: Analisis adalah pencocokan pola karakter per karakter, yang membandingkan karakter yang dipindai dengan glif yang disimpan. Dengan begitu banyak kombinasi font dan bahasa potensial, jenis dokumen yang dapat dianalisis pun terbatas.

Pengenalan tanda optik (OMR): Untuk mengidentifikasi kotak yang dicentang dan tanda lainnya, seperti gelembung dalam survei atau tanda tangan pada formulir, ditambah logo, simbol, dan tanda air. Semua dapat diidentifikasi dengan mencocokkan gambar yang disimpan, seperti pada OCR sederhana.

Pengenalan karakter cerdas (ICR): Seperti disebutkan sebelumnya, ICR menghadirkan kekuatan AI. Dengan menggunakan ML atau pembelajaran mendalam, program OCR belajar membaca seperti halnya manusia: melalui latihan dan pelatihan terus-menerus. Neural networks meninjau teks berulang kali untuk mencari atribut khusus: lokasi kurva, persimpangan, garis, dan loop.

Pengenalan kata cerdas: Ini adalah evolusi alami dari pengenalan ICR sebelumnya, tetapi sekarang AI sudah dilatih untuk mengenali kata dalam satu gambar, sehingga pada akhirnya dapat berjalan lebih cepat.

Manfaat OCR

Manfaat menggunakan teknologi OCR meliputi kemampuan untuk:

Pangkas biaya dengan mengurangi atau menghilangkan input manual yang berlebihan.

Menyederhanakan alur kerja dengan input dokumen pracetak atau formulir tertulis dan mempercepat penelitian dengan data digital yang dapat dicari.
Otomatiskan perutean dokumen, pemrosesan konten, dan persiapan untuk penambangan teks.
Hemat biaya penyimpanan tetapi ada lebih banyak catatan kertas.
Memusatkan dan mengamankan kumpulan data untuk perlindungan terhadap kebakaran, pembobolan, dan dokumen yang hilang di brankas bank.
Memungkinkan akses yang lebih besar ke data untuk staf dan pelanggan tunanetra.
Meningkatkan layanan dengan memberikan informasi terbaru dan akurat kepada karyawan.

Contoh penggunaan OCR

Contoh penggunaan OCR yang paling dikenal adalah mengubah dokumen kertas cetak menjadi dokumen teks yang dapat dibaca mesin. Setelah dokumen kertas yang dipindai melalui pemrosesan OCR, teks dokumen dapat diedit dengan pengolah kata, seperti Microsoft Word atau Google Docs. Berbagai contoh penggunaan dapat mempercepat beban kerja di banyak industri, termasuk pendidikan, keuangan, perawatan kesehatan, logistik dan transportasi, memproses dan mengambil dokumen pinjaman, catatan pasien, formulir asuransi, label, faktur, dan tanda terima.

OCR sering digunakan sebagai teknologi tersembunyi, yang memberdayakan banyak sistem dan layanan terkenal dalam kehidupan sehari-hari kita. Contoh penggunaan penting, tetapi kurang banyak dikenal, untuk teknologi OCR termasuk otomatisasi entri data, bantuan bagi orang buta dan tunanetra dan mengindeks dokumen untuk mesin pencari, seperti paspor, pelat nomor, faktur, laporan bank, pemrosesan cek dan transkripsi, kartu nama, dan pengenalan pelat nomor otomatis.

OCR memungkinkan optimalisasi pemodelan big data dengan mengubah dokumen kertas dan gambar pindaian menjadi file PDF yang dapat dibaca mesin dan dapat dicari. Memproses dan mengambil informasi berharga memerlukan penerapan OCR terlebih dahulu pada dokumen yang belum memiliki lapisan teks.

Dengan pengenalan teks OCR, dokumen yang dipindai dapat diintegrasikan ke dalam sistem big data yang selanjutnya dapat membaca data klien dari laporan bank, kontrak, dan dokumen cetak penting lainnya. Alih-alih meminta karyawan memeriksa dokumen gambar yang tak terhitung jumlahnya dan secara manual memasukkan input ke alur kerja pemrosesan big data otomatis, organisasi dapat menggunakan OCR untuk mengotomatiskan proses tersebut pada tahap input penambangan data. Perangkat lunak OCR dapat mengekstrak teks yang terlihat pada gambar, menyimpan file teks dan mendukung berbagai format, termasuk jpg, jpeg, png, bmp, tiff, dan pdf.

Kemajuan terbaru dalam OCR

OCR telah bergerak maju secara signifikan melampaui sistem bisnis pertama pada tahun 1974 dan kemajuan terus berlanjut. Program OCR yang unggul dapat memberikan ekstraksi wawasan utama dari dokumen dalam kondisi kurang optimal, seperti font tidak teratur, resolusi yang tidak memadai, pencahayaan yang buruk dari pengambilan ponsel dan berbagai warna dan latar belakang. 

Dengan menggabungkan visi komputer dan pemrosesan bahasa alami, representasi informasi yang lebih baik, serta pengoptimalan model, bisnis kini dapat menikmati pemahaman dokumen yang canggih. Perbaikan dapat mencakup analisis tata letak dan urutan membaca dalam dokumen yang kompleks, memahami visual dan merepresentasikannya dalam bentuk bagan dan diagram. Beberapa program OCR kini telah digerakkan oleh AI generatif untuk membantu menyusun data dokumen lebih cepat. Teknologi “lama” juga terus mempelajari trik baru.

Solusi terkait

IBM Watson Discovery

Mempercepat keputusan dan proses bisnis dengan platform pemahaman dokumen cerdas dan analisis konten yang didukung AI.

Jelajahi IBM Watson Discovery

IBM FileNet Capture

Memindai atau mengimpor file untuk menangkap dan menyimpan informasi digital dan berbasis kertas dalam berbagai format.

Jelajahi IBM FileNet Capture

IBM Cloud Pak for Business Automation

Proses lebih cepat dan waktu tunggu klien lebih singkat dengan otomatisasi yang didukung AI.

Jelajahi IBM Cloud Pak for Business Automation

Sumber daya

Apa itu visi komputer?

Jika AI memungkinkan komputer untuk berpikir, visi komputer memungkinkan mereka untuk melihat, mengamati, dan memahami.

Apa itu penambangan tugas?

Penambangan tugas meninjau data interaksi pengguna, yang juga dikenal sebagai data desktop, untuk menilai efisiensi tugas dalam proses yang lebih besar.

Apa itu komputasi tanpa server?

OCR dapat membantu pemrosesan data teks terstruktur, gambar, dan video untuk berbagai tugas, seperti pengayaan, transformasi, validasi, dan pembersihan data.

Menjelajahi teknologi OCR baru IBM

Dengan memajukan teknologi mutakhir dalam pemahaman dokumen, OCR kini memungkinkan model untuk menganalisis tata letak dan urutan pembacaan dalam dokumen yang rumit, serta memahami visual dan merepresentasikannya ke dalam berbagai bentuk, termasuk plot, bagan, dan diagram.

Ambil langkah selanjutnya

Lihat bagaimana IBM Watson Discovery dapat mempercepat keputusan dan proses bisnis dengan platform pemahaman dokumen cerdas dan analisis konten yang didukung AI.

Jelajahi IBM Watson Discovery