Ini tool dan tips yang paling sering aku pakai untuk mengambil teks /tulisan dari file pdf atau file gambar, pakai tools nya online jadi cukup berbekal koneksi internet kita bisa dapat teks dalam file word atau excell, simple banget mudah dan cepat.
Sebelumnya pengantar sedikit tentang teknologi di belakang tools yang ajaib ini adalah sistem OCR kependekan dari optical character recognition. Secara pengertiannya menurut WIKI adalah
“alat mekanis atau elektronik yang digunakan untuk menerjemahkan tulisan tangan ataupun naskah ketikan (biasanya dipindai menggunakan pemindai) menjadi teks yang dapat disunting dengan suatu aplikasi komputer”
OCR ada perhitungannya, nama lainnya ada algoritmanya, yang mau mendalami bisa tanya saja sama Eyang G. Singkatnya katanya situs Ini, metode OCR paling tidak ada 3 alur untuk mendapat text dalam file word, a.l. :
- Mendeteksi baris untuk tiap deretan teks;
- Mengekstrak komponen tiap-tiap huruf;
- Mengekstrak properti dari tiap karakter untuk menentukan huruf.
Contoh kasus: misalnya kita kuliah nih, misal ya… soalnya ini pengalaman juga sewaktu penulis masih berstatus mahasiswa di Kota Malang… Bapak atau Ibu dosen kasih tugas kuliah pakai text book bhs inggris, kita disuruh terjemahkan di salah satu bab. Beruntung kalau kita sudah dapat text booknya dalam pdf, tanya ke Eyang G dan ada yang baik hati menshare scanlations-nya for free. Kalau kurang beruntung ya… kita ke perpus, pinjem bukunya, scan/potocopy bab tertentu baru deh kita dapet file rawnya.
(peringatan pemerintah: dilarang memperbanyak literatur dengan hak cipta untuk tujuan apapun juga apalagi untuk mengkomersilkan, tapi atas nama ilmu pengetahuan dan untuk konsumsi pribadi serta atas nama keterpepetan mahasiswa yang terpojok, sepertinya diperbolehkan… 🙂 )
Dari file raw tersebut (pdf/image) kemudian dimasukkan ke sistem OCR klik-klik-klik kemudian tadaaa… keluarlah file word dan excel yang kita inginkan.. terus baru kita masukkan ke Eyang G T maksudnya Eyang Google Translate. keluarlah translatenya, sesuaikan sana-sini, prin, kumpulin. dan sejurus berikutnya terdengarlah suara-suara… copy donk tugasnya… prin 2 kali ya… ini flasdiskku copiin ya… #hedehpolahmahasiswajamansekarang…
Singkatnya ada naskah asli, kita poto/scan, kita masukkan ke sistem OCR, keluarannya berupa text dalam word atau excel.
Ok… basic nya sudah, kasus ada, file raw sudah ada nah sekarang ocrnya manaa?… ok-ok karena ini judulnya Online OCR maka kita cari saja web yang menyediakan OCR secara Online, bagaimana mencarinya?… Eyang G… dimana?? Eyang G…. sekali lagi!!! EYANG G!! yup betull… Disini
Penulis biasa pakai yang onlineocr.net soalnya setelah dicoba2 kayaknya yang paling bagus algoritmanya si doi, kalau mau coba2 test yang lain monggo di benchmark jangan lupa di share yaa… 🙂 . Web ini ga perlu bayar/login tapi ada batasannya 15 file yang mau diconvert tiap jamnya. mendukung 46 bahasa, format yang bisa diconvert PDF, JPG, BMP, TIFF, GIF. Outputnya file format word dan excel yang dapat di edit. Nah cukup mantap dan lengkap kan?