Bem vindo ao OCR4DSpace
O DSpace é um arquivo digital de documentos que permite o seu armazenamento por um processo de submissão e a indexação de vários formatos. Assim, o DSpace permite a preservação e rápida pesquisa da informação submetida. O DSpace está licenciado segundo a BSD Licence.
O Dspace disponibiliza media filters que possibilitam a extracção de palavras de formatos mais comuns como PDF ou Microsoft Word, para indexação. Para além disto, o utilizador pode também introduzir mais palavras-chave manualmente.
Objectivos
Seria útil haver também um destes plugins de extracção de palavras a partir de imagens que representem graficamente documentos, como por exemplo, digitalizações de documentos “históricos”, de colecções antigas de jornais ou outros periódicos, etc.
Propõe-se assim a criação deste plugin que poderá utilizar motores de OCR open-source como o Tesseract, GOCR ou Ocrad para obter as palavras do documento, as quais tratará para efeitos de indexação. Prevê-se a configuração dos motores usados como sendo independente do código (por meio de um ficheiro de configuração). Isto permitirá o uso de qualquer motor existente desde que este possa ser executado a partir da linha de comandos. Eventualmente também se apresentarão ao utilizador as palavras retiradas das imagens para efeitos de correcção e aprovação.
Estado do projecto
A primeira versão do OCR4DSpace está já disponível no trunk do SVN, podendo ser obtida através do seguinte comando:
svn co svn://svn.softwarelivre.sapo.pt/ocrd/trunk/OCR4DSpace
Na pasta principal estará o ficheiro README_pt com as instruções de configuração e uso, bem como o contacto do autor.
Licença
O plugin de OCR será distribuída segundo a licença GNU General Public License, GPLv3. GNU General Public License (GPL)
Linguagem
A linguagem usada, devida a ser com esta que o DSpace é desenvolvido, será JAVA.
Proponentes
- Instituição: CITI UE - Centro de Investigação em Tecnologias de Informação da Universidade de Évora
- Orientador: Dr. Luís Arriaga da Cunha
- Co-orientador: Dr. Paulo Quaresma
- Aluno: Joaquim Rocha, finalista do Mestrado em Engenharia Informática na UE