Bem vindo ao OCR4DSpace

O  DSpace é um arquivo digital de documentos que permite o seu armazenamento por um processo de submissão e a indexação de vários formatos. Assim, o DSpace permite a preservação e rápida pesquisa da informação submetida. O DSpace está licenciado segundo a  BSD Licence.

O Dspace disponibiliza media filters que possibilitam a extracção de palavras de formatos mais comuns como PDF ou Microsoft Word, para indexação. Para além disto, o utilizador pode também introduzir mais palavras-chave manualmente.

Objectivos

Seria útil haver também um destes plugins de extracção de palavras a partir de imagens que representem graficamente documentos, como por exemplo, digitalizações de documentos “históricos”, de colecções antigas de jornais ou outros periódicos, etc.

Propõe-se assim a criação deste plugin que poderá utilizar motores de OCR open-source como o Tesseract, GOCR ou Ocrad para obter as palavras do documento, as quais tratará para efeitos de indexação. Prevê-se a configuração dos motores usados como sendo independente do código (por meio de um ficheiro de configuração). Isto permitirá o uso de qualquer motor existente desde que este possa ser executado a partir da linha de comandos. Eventualmente também se apresentarão ao utilizador as palavras retiradas das imagens para efeitos de correcção e aprovação.

Estado do projecto

A primeira versão do OCR4DSpace está já disponível no trunk do SVN, podendo ser obtida através do seguinte comando:

svn co svn://svn.softwarelivre.sapo.pt/ocrd/trunk/OCR4DSpace

Na pasta principal estará o ficheiro README_pt com as instruções de configuração e uso, bem como o contacto do autor.

Licença

O plugin de OCR será distribuída segundo a licença  GNU General Public License, GPLv3. GNU General Public License (GPL)

Linguagem

A linguagem usada, devida a ser com esta que o DSpace é desenvolvido, será  JAVA.

Proponentes