Moteur d'indexation inJAC
Installation
1. Pré-requis
2. Changements
3. Installation
3.1. déployer l'application
3.2. Configuration générale
3.3. Configuration de l'indexation OAI
3.4. Niveau de débogage

1. Pré-requis

Cette application est basée sur le projet LIUS de l'université de Laval au Québec, qui s'appuie sur la version 1.4.3 de Lucene en l'enrichissant de fonctionnalités pour exploiter une plus large palette de format de fichiers. Elle représente le module indexation de l'application inJAC, utilisé à partir du moteur de rendu.

Attention : à partir de la version 1.1 il faut utiliser le moteur de rendu 2.4 ou supérieur.

Cette application indexe le contenu d'un espace inJAC, et a donc besoin de se connecter à un Serveur Webdav opérationnel, avec un espace inJac valide.

Toutefois, dans le cadre d'une utilisation avec un moissonneur OAI, le serveur WEBDAV n'est pas requis.

Sur la machine même, un environnement Java (JRE ou JDK), version 1.4.X à partir du 1.4.2(non testé sur JDK 1.5), ainsi qu'un moteur de servlet/jsp (TOMCAT 5.0.28 ou supérieur) doivent être préalablement installés.

2. Changements

3. Installation

3.1. déployer l'application

Le déploiement s'effectue en décompressant l'archive dans un répertoire accueillant une application WEB Java( répertoire /webapps de Tomcat par exemple).

3.2. Configuration générale

Une fois décompressé, créer le fichier indexation.properties à partir du fichier d'exemple indexation.example.properties situé dans injac-indexing/WEB-INF/classes :

#filesystem path to repository for created index
indexPath=F:/injac-indexes
#default values filling create index form
defaultUrl=http://slide-priv:8080/slide/files/injac/injacRoot 
defaultUser=admin
#warning : filling this property makes it visible for any user connecting
# to this application !
# if accessible on public network, better use a dummy value
defaultPassword=password
#default mode for metadata indexing : (none|all|injac)
metadata-mode=all
# config file for LIUS indexer(full path) 
liusConfigFile=/appli/java/injac/tomcat/injac-indexing/WEB-INF/configs/liusFilesConfig.xml

# set to true forces ssl connection 
forceSSL=true
#leave blank if default port 443, else prefix with colon (i.e :8443)
httpsPort=:8443
#warning : setting this property to on makes visible the content of this file for any user accessing this application !
debug=off

# -- RESULT SETTINGS --

#list of metadata names used in different formats configured in Canal Stockage for title and desc
titleMD=title,gen_title
descriptionMD=description,gen_description
#list of indexed MD to include in results (could be overriden by request parameter)
resultMD=document-state,description

#List of md to be indexed as Lucene keyword type fields
field.type.keyword=

# -- URLs params --
# URL of inJac renderer. If not defined URLs will be WEBDAV's ones(overridable by request param)
renderURL=http://injac.monEtablissement.fr/injac
#render context : /nav for browsing mode, /doc for document-only mode
renderContext=/nav

# upper node of inJac spaces. If not defined URLs will be WEBDAV's ones(overridable by request param)
upnode=injacRoot
#extensions for html rendering files 
intDocs=xml html htm txt jpg png gif XML HTML HTM TXT JPG PNG GIF
#css file for html results
cssFile=css/results-skin-esup1.css
#max document per page when viewing an index
maxPageCount=100
#elements for widgets
widget.titlebar=/appli/java/injac/tomcat/webapps/injac-indexing/widgets/titlebar.html
widget.content=/appli/java/injac/tomcat/webapps/injac-indexing/widgets/content.html

#config file for indexing OAI records (full path)
oai.Config=/appli/java/injac/tomcat/injac-indexing/WEB-INF/configs/liusOAIConfig.xml
oai.urlField.name=renderURL
#optimize index frequency
oai.optimize.frequency=100
# class for indexing  from OAI string record - beware to have enough jvm memory if using RAM indexing 
oai.indexing.class=org.injac.indexing.index.oaipmh.StringOAIIndexing
# OAI records encoding type
oai.encoding=UTF-8
# default configuration file for merge command
merge.config=/appli/java/injac/tomcat/injac-indexing/WEB-INF/configs/mergeDC.xml
# config file for merging index
merge.liusConfig=/appli/java/injac/tomcat/injac-indexing/WEB-INF/configs/liusFilesConfig.xml

Attention : Sous Linux, un espace à la fin d'une ligne de propriété peut-être fatal ! Vérifiez que les paramètres sont immédiatement suivis d'un retour à la ligne !

Description des paramètres de configuration :

3.3. Configuration de l'indexation OAI

Le fichier liusOAIConfig.xml défini par défaut pour la propriété oai.Config sert à recenser les métadonnées issues d'une section XML d'un enregistrement OAI que l'on veut indexer dans des champs Lucene. Une balise <xmlFile> est définie pour chaque type de métadonnée que l'on veut traiter, identifié par un attribut ns (namespace) :

<xmlFile ns="http://ltsc.ieee.org/xsd/LOM">

Dans le fichier fourni deux formats sont définis : LOM et Dublin Core.

Chaque balise <luceneField> contient un attribut name qui défini le nom du champ indexé, un attribut xpathSelect qui cible quel élément XML doit être utilisé pour la valeur du champ, et enfin un attribut type :

<luceneField name="renderURL"
xpathSelect="//lom:technical/lom:location" type="Keyword" />
<luceneField name="title"
xpathSelect="//lom:general/lom:title" type="Text" />

3.4. Niveau de débogage

Le niveau de débogage peut être modifié en éditant le fichier WEB-INF\classes\log4j.properties. Les niveaux disponibles sont : debug, info, warn, error et fatal, du plus prolixe au plus concis. Le niveau de déboggage influe sur les performances de l'application.

Note : il faut également adapter le chemin du fichier de log, à la ligne :

log4j.appender.R.File=E:/Java/jakarta-tomcat-5.0.28/logs/injac-index.log