Membaca Gambar CAPTCHA Menggunakan Gem Tesseract-OCR

Yukihiro "Matz" Matsumoto

Kamis, 09 Oktober 2014

Membaca Gambar CAPTCHA Menggunakan Gem Tesseract-OCR

Bagi anda yang ingin membaca gambar CAPTCHA, yaitu gambar yang didalamnya berisikan teks yang biasa digunakan untuk verfikasi login ke website, saya memiliki tips yang dapat anda gunakan untuk membacanya menggunakan salah satu gems ruby yang bernama Tesseract-OCR yang berbasis pada program Tesseract.

Untuk menggunakan gems ini, terlebih dahulu anda membutuhkan menginstall program Tesseract pada sistem operasi anda, untuk anda yang menggunakan OS X dapat menggunakan Homebrew untuk melakukan instalasi. Untuk anda yang belum menginstall Homebrew pada Mac anda dapat mengikuti langkah dibawah ini untuk menginstall Homebrew, Tesseract, dan gem Tesseract-OCR

Buka program Terminal.
Paste syntax berikut pada command line,
ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
Setelah installasi selesai, ketik brew install tesseract
Setelah installasi selesai, ketik gem install tesseract-ocr

Setelah semua selesai terinstall anda dapat menggunakan tesseract pada program Ruby anda. Berikut ini, gambar yang akan digunakan untuk membacanya kedalam tulisan dapat dilihat di bawah ini.

Saya akan menggunakan irb untuk membaca gambar diatas kedalam bentuk teks. Pertama, kita akan mengimport gem tesseract-ocr dengan menggunakan syntax require 'tesseract-ocr'. Berikutnya kita akan menggunakan kelas Tesseract::Engine untuk membuat objek baru yang akan digunakan dalam membaca image. Di dalam blok kita melakukan setting pada atribut objek ini. Berikutnya menggunakan method text_for dengan argumen berupa path file image yang akan kita baca. Saya melakukan chainning method strip yang ada dibelakang untuk menghilangkan whitespace atau newline yang ada dibelakang karakter yang dibaca. Dapat dilihat hasilnya berupa 9053.

Perlu anda ingat bahwa program Tesseract ini tidak sepenuhnya akurat dalam menerjemahkan gambar kedalam teks, keakuratan juga bergantung pada tingkat kompleksitas gambar yang diterjemahkan dengan algoritma Tesseract.

Rubyndon | Tips Seputar Ruby dan Rails

Yukihiro "Matz" Matsumoto

Kamis, 09 Oktober 2014

Membaca Gambar CAPTCHA Menggunakan Gem Tesseract-OCR

Tidak ada komentar:

Posting Komentar