Bandeau Dhant

Programme > Résumés des communications

Computational techniques for editing the fragments of the Greek historians

Monica Berti and Tariq Yousef (University of Leipzig)

This paper presents methodological issues emerging from the application of computational techniques to produce a digital edition of the fragments of more than 600 Greek historians collected in the Fragmenta Historicorum Graecorum (FHG). The project is developed at the Humboldt Chair of Digital Humanities at the University of Leipzig and is producing machine-actionable quotations and text reuses that can be automatically aligned to the original source editions and to any other open editions. The project has two main outputs: 1) TEI XML encoding of the FHG text with the implementation of specific guidelines that contribute to the EpiDoc community; 2) computational analysis of the FHG corpus to produce automatic XML tagging, parallel text alignment, named-entity recognition, visualization and statistics.

This paper focuses on the second output and presents the results of a MSc thesis produced at the University of Leipzig on the corpus of the FHG. The master’s thesis is devoted to the following tasks: 1) automatically separate the Greek and the Latin text of the FHG and produce linguistic statistics about word rates, sentence lengths, cooccurences, etc.; 2) generate automatic XML tagging according to the project guidelines that are EpiDoc compliant; 3) produce parallel text alignment (sentence level) of the Greek text of the fragments and their Latin translations provided by the editor of the FHG; 4) process automatic named-entity recognition (NER) of person and place names; 5) produce visualization of the statistical results and of the textual alignments. The results of the work provide the editors of the project with abundant information to produce a digital edition of the FHG corpus, such as XML encoding for further detailed mark-up, translation alignments for implementing guidelines to work with bilingual corpora, and statistical analysis for exploring the domain of Greek fragmentary historiography.

Editer un texte ancien, problématiques nouvelles induites par les Humanités Numériques

B. Bureau, UMR 5189 HiSoMA

Le travail de l'éditeur de textes anciens repose sur l'idée de parvenir à "établir" un texte, autrement dit à reconstituer un et un seul état textuel jugé le plus proche possible de l'original. Or l'utilisation d'outils numériques dans ce travail et les possibilités offertes par l'édition numérique permettent de repenser cette conception de l'édition et de l'orienter vers une présentation ouverte et multisupport de la tradition textuelle, dans laquelle la reconstruction du texte original est un élément certes essentiel mais non unique de l'édition. La communication se propose d'envisager la mise en place de ces (para)textes dans le cadre d'un projet d'édition de texte ancien. Elle se fonde sur le travail déjà réalisé par l'équipe HyperDonat (http://hyperdonat.huma-num.fr/) en particulier sur l'outil de collation et de comparaison des manuscrits en XML-TEI mis au point l'an dernier. On partira d'exemples simples tirés des travaux d'édition en cours pour montrer les possibilités de jeu sur les différents niveaux d'annotation textuelle et les visualisations possibles de données selon les besoins des chercheurs ou les intérêts des lecteurs. Le but de ce type de travail est de concevoir l'édition critique comme élément d'un "projet" plus global de valorisation d'un texte ou d'une source, voir pour une approche plus théorique : Bruno Bureau, « Quelques réflexions sur la notion de littérarité à partir de l’édition numérique de commentateurs anciens », Interférences [En ligne], 6 | 2012, mis en ligne le 08 mars 2013. URL : http://interferences.revues.org/186.

Homer Multitext Project : Methodologies, Practicalities, Technologies

Leonard Muellner, Director for IT and Publications (Center for Hellenic Studies)

On behalf of the Homer Multitext (HMT) team, I propose to present an overview of the current state of this long-term, intergenerational, collaborative project, which began at the Center for Hellenic Studies, Washington DC in 2002.After explaining its theoretical basis in the study of Homeric poetry as the product of a performance tradition, I will discuss the way in which we are making significant progress on the practical difficulties before us as well as the technological basis of an open access, open standards-compliant, interoperative digital edition of the text and scholia of the Homeric Iliad (http://homermultitext.org).

Projet DREAM «Database and Research on Egyptian Animal Mummies : Texts, Iconography and Bioarchaeology»

Stéphanie Porcier (1), Salima Ikram (2), Alain Charron (3)

(1) sporcier@hotmail.com, Laboratoire CNRS « Archéologie des Sociétés Méditerranéennes » (UMR 5140), Montpellier/Lattes (France)
(2) salima@aucegypt.edu, American University in Cairo (Egypt)
(3) alain.charron@cg13.fr, Laboratoire CNRS « Archéologie des Sociétés Méditerranéennes » (UMR 5140), Montpellier/Lattes (France)

Le projet « DREAM » a pour ambition de rassembler et transmettre les connaissances égypto-zoologiques et favoriser une vision épistémologique du culte organisé autour des animaux sacrés et sacralisés dans la Société égyptienne.

Le développement de cette base de données à vocation internationale est motivé par la dispersion des études égypto-zoologiques, l’absence de coordination des recherches et le cloisonnement effectif des différentes disciplines qui constituent des facteurs limitant à la compréhension du culte organisé autour des animaux sacrés et sacralisés.

D’un point de vue méthodologique, l’aspect particulièrement novateur de ce projet réside dans la construction même de la base de données, puisqu’elle va permettre d’intégrer à la fois des données archéologiques, bioarchéologiques, textuelles, iconographiques ou plus globalement égyptologiques.Il se veut être un élément important de fédération transdisciplinaire entre égyptologues et bioarchéologues. Le Projet « DREAM » a donc pour objectif de recenser, de structurer et de mettre à disposition ces données, par la construction et la publication sur internet d’une base ouverte afin d’amorcer le développement d’une synthèse collective sur le sujet.

Cet outil au service de la réflexion égypto-zoologique est, dans un premier temps, alimenté par les données recueillies dans le cadre du projet MAHES (Labex ARCHIMEDE). Ce sont plus de 2500 spécimens provenant de la collection du musée des Confluences à Lyon qui constitue le point de départ de cette base de données. Elle sera au fur et à mesure enrichie par les données issues des fouilles en Égypte, les collections des musées à travers le monde et les données d’ores et déjà publiées. En outre, un volet bibliographie recensant et classifiant les publications éparses relatives aux animaux sacrés et sacralisés sera également réalisé par thématiques (animal sacré, espèces, provenances-nécropoles, périodes, etc.).

How far is far enough? Atomization, integration, and analysis in archaeological and philological research projects

Miller C. Prosser, PhD.

When faced with modeling data in a database environment, one must address a few critical questions. What are the foundational categories of the data in question? How do the various categories of data relate to one another? To what degree will the data be atomized? These questions are particularly applicable to archaeology and philology research projects. While the two types of projects may seem different on the surface, when viewed through a highly generic ontology, they can be organized into very similar structures. But how far is far enough? To what degree should a researcher atomize his or her data? For philological projects, should we break a text down into paragraphs, sentences, phrases, words, signs, or even wedges?

This presentation will consider issues related to modelling data for archaeological and philological projects. It will demonstrate the power of highly atomized data for various types of analysis, from spatial analysis using GIS data to epigraphic, philological, and prosopographical analysis of textual data. Examples will be drawn from research projects at the University of Chicago using the OCHRE (Online Cultural and Historical Research Environment) database, including the Persepolis Fortification Archive project, the Neubauer Expedition to Zincirli, and the Ras Shamra Tablet Inventory.

Geolat : from Latin texts to European literatures

M. Lana, T. Tambass (Dipartimento di Studi Umanistici, Università del Piemonte Orientale)

“Geolat – geography for Latin literature” (www.geolat.it) is a research project in its prototypical, startup phase aimed at building a collaborative scholarly reading of classical Latin texts enhancing the meaning of their informative content. The basic core concept is that the texts are annotated and that the annotation in turn can be used to study the texts. In this case the annotation (which is conforming to the TEI guidelines) is aimed to placenames and employs a geographical ontology built ad hoc from scratch to take into account the particularities of the world view contained in the classical text. The re-use of the annotation can start from a map interface mixed with a more traditional approach of faceted textual search (GAPvis and Pelagios are good examples). New questions can be asked, about the reason and the meaning of the use of placenames (e.g.: which is the geography of Horace Odes and what does it mean? Has is it any relation with the geography of other Augustan age authors? Has it any ideological meaning?) (1).

The four key-points of Geolat ontology are:

the analysis of Latin literature texts, in order to identify the geographical entities typologies and properties ;
the study of the differences between ancient and contemporary geography, in terms of domains, presuppositions, representations and vagueness; a critical review of the contemporary geo-informatics ontologies (this is important first of all to identify common classes and properties, and then to specify missing classes and properties in order to describe ancient geography) ;
a reunification of this type of information in a comprehensive and informative geographical ontology for Latin literature (in particular, the conceptualization of GEOLAT ontology has to be accessible and informative both for the scientific community and for non-professional users).

(1) The Pelagios project is similar but not identical to Geolat, under many relevant points of view. The main differences have to do with the philological care in the choice of the editions, the adoption of an ad-‐hoc geographical ontology for classical antiquity, the careful check – after the NER – of every occurrence by Latin scholars, the focus onto the whole Latin literature. This said, people of Geolat and Pelagios have already discussed many times about the best way to collaborate.

Le causse de Sauveterre durant l’Antiquité : un milieu « hostile » à l’épreuve de la prospection pédestre et des SIG (systèmes d’information géographique)

Audrey Roche, attachée de conservation du patrimoine-archéologue - culturearkeo@gmail.com

Le causse de Sauveterre (Lozère) est aujourd’hui considéré comme un milieu plutôt hostile, sauvage et très peu densément peuplé. A l’occasion d’un sujet de recherche universitaire, principalement axé sur les communes de La Canourgue et de Banassac, des prospections archéologiques systématiques ont été mises en place sur une zone-test de 12 000 hectares, située essentiellement sur le plateau.

D’abord concentrée sur l’inventaire des sites présents et la constitution d’un corpus diachronique (de la Préhistoire au Moyen-Âge), l’étude a ensuite donné lieu à la mise en place d’une base de données couplée à une carte (SIG), permettant de visualiser directement sur fond de carte IGN la situation des sites sélectionnés selon des critères variables. Ce mode de travail, permis uniquement par les SIG, a sensiblement décuplé les problématiques accessibles au chercheur pour des périodes aussi éloignées et sans passer par la fouille archéologique.

C’est en effet à partir des 256 sites archéologiques recensés et de cet outil numérique qu’il a été possible de rendre compte de l’évolution des dynamiques de peuplement sur le long terme (situation de l’implantation humaine, évolution des altitudes des sites, typologie des implantations, réseaux) et de mettre en perspective sur un temps long la flamboyante activité économique des ateliers de production de céramique sigillée du Haut-Empire, ainsi que de réfléchir à leur mode de gestion.

Cette avancée technologique a donc à la fois donné la possibilité de traiter un grand nombre de données et ouvert des problématiques de recherche jusque là inaccessibles, permettant ainsi de donner un nouveau visage à cet espace apparemment hostile et dépeuplé. L’utilisation de techniques avancées d’informatique et de cartographie a donné lieu à des réflexions méthodologiques et des questionnements épistémologiques importantes dont cette communication se propose de faire état, soit via l’axe « archéologie » soit via l’axe « géographie » du colloque.

Digital Epigraphy : nouvelles technologies et étude d’une inscription latine en 1200 fragments conservée à Autun (Musée Rolin)

A. Hostein (dir.), E. Fauvet, Y. Labaune, O. Laligant, M. Kasprzyk, F. Truchetet.

La redécouverte au début des années 2000 par M. Kasprzyk dans les réserves du Musée Rolin (Autun) d’une inscription latine mise au jour dans le quartier médiéval d’Autun au XIX^e siècle, en 1839 puis 1844, et composée d’environ 1200 fragments de marbres a conduit au lancement d’un projet transdisciplinaire intitulé DigEp pour Digital Epigraphy. Labellisé en 2013-14 par le CNRS (PEPS HuMaIn) et le LabEx HASTEC, le projet fait l’objet d’un carnet de recherche sur la plate-forme hypothese.org (http://digep.hypotheses.org/).

Ce document historique exceptionnel soulève plusieurs problèmes et obstacles à son étude. Il s’agit d’abord d’un texte latin incomplet, sans signe de ponctuation (peut-être peints ?), dont on ne connaît rien pour le moment du contexte archéologique de sa découverte. Certains mots repérés dans le texte montrent qu’il constitue un ensemble d’inscriptions publiques affichées dans un monument abrité du forum de l’antique Augustodunum – portiques ?basilique ? temple ? En l’état, on peut penser qu’il s’agit d’un dossier unique regroupant une ou des lettres impériales, un ou des des sénatus-consultes du I^er siècle de notre ère. Les plaques du luxueux marbre qui le composent (du pentélique, le même que celui du Parthénon à Athènes) ont fait l’objet de nombreuses manipulations depuis sa découverte, fragilisant certaines pièces, en particulier leur tranche. Enfin, la quantité des fragments, du simple éclat à la plaque de plusieurs dizaines de centimètres, rend impossible la reconstitution du document à vue, la simple disposition à plat des morceaux occupant une salle de plusieurs dizaines de m². Face à ces contraintes multiples, historiens, archéologues, géologues et mathématiciens des Universités Paris 1 Panthéon-Sorbonne et de Bourgogne s’emploient à la création d’un outil portable destiné à numériser puis à reconstituer automatiquement les fragments de ce puzzle infernal.

La présentation du projet, en cours de réalisation, permettra d’aborder plusieurs questions centrées des questions méthodologiques concernant l’étude, grâce aux nouvelles technologies, de ce type de documentation épigraphique fragmentaire. On abordera en particulier :

la question des techniques de numérisation.
la question des méthodes à adopter pour un remontage automatique, avec en corollaire, le problème de l’adaptation de la solution envisagée pour d’autres dossiers (fragments architecturaux, enduits peints, stucs, …).
la question de la valorisation patrimoniale des objets concernés grâce, à nouveau, aux nouvelles technologies.
et, bien entendu, la question du contenu de ce dossier épigraphique exceptionnel pour l’histoire de la Gaule antique.

Digital Style: Connoisseurship, Epigraphy, and Computation

Eric Driscoll (UC Berkeley, Ancient History and Mediterranean Archaeology) – edris@berkeley.edu

Attributing inscriptions to masons on the basis of their style is useful for dating and reconstructing texts. A team of computer scientists, in collaboration with the epigrapher Stephen Tracy, has developed digital methods to quantify letter shapes, which can then be compared statistically across texts to determine likely authorship. Promisingly, the results have so far agreed entirely with Tracy’s own attributions. Digital stylometry, however, must not be fetishized as a fountain of “essentially more objective,” “hard evidence” or of “correct and unambiguous” facts (Papaodysseus et al. 2007: 749; Tracy and Papaodysseus 2009: 101; Panagopoulos et al. 2009: 1404; also see Tracy 2003: xviii). Computerization does eliminate the inconsistencies of human perception and enable great precision, but any promises of scientific objectivity should be scrutinized. This paper attempts to provide such scrutiny by advancing three sets of claims. First, epigraphy possesses a troubled history with supposedly objective criteria: the now-discredited three-bar-sigma dating rule, for example, held the field in thrall for much of the twentieth centurybefore being disproved (Chambers et al. 1990); the episode’s clear moral is that we should be skeptical about other, similar claims to objectivity. Second, comparison with the connoisseurship of Athenian pottery underscores the relative poverty of epigraphical connoisseurship: Tracy is the only recent Hellenist to devote sustained effort to identifying epigraphic hands, resulting, inter alia, in no robust scholarly consensus on the criteria or standards of judgment. Finally—and most important—major epistemological issues simply remain unconsidered. Essentially, Tracy’s method has been refined into a set of algorithms. But the fact that analysis takes place in a computer does not guarantee that the method is correct, nor does it make its results “objective” in any deep sense. The method and its calibration remain exercises in human judgment, grounded ultimately in our visual experiences. Digital imaging calls for reinvigorated, updated engagement with conceptions of style and connoisseurship, not their repression.

Works referenced

Chambers, M, et al. 1990. “Athens' Alliance with Egesta in the Year of Antiphon.” ZPE 83: 38-63.
Panagopoulos, M., et al. 2009. “Automatic Writer Identification of Ancient Greek Inscriptions.” Transactions on Pattern Analysis and Machine Intelligence 31: 1404-14.
Papaodysseus, C., et al. 2007. “Identifying Hands on Ancient Athenian Inscriptions: First Steps Towards a Digital Approach.” Archaeometry 49: 749-64.
Tracy, S. 2003. Athens and Macedon. Attic Letter-Cutters of 300 to 229 B.C. Berkeley and Los Angeles.
Tracy, S. and C. Papaodysseus. 2009. “The Study of Hands on Greek Inscriptions: The Need for a Digital Approach.” AJA 113: 99-102.

Trois projets pour InsLib et quelques questions méthodologiques

Catherine Dobias-Lalou (1), Alice Bencivenni (2), François Chevrollier (3)

(1) Professeur émérite à l’Université de Bourgogne, Centre de Recherches sur la Libye antique (Paris Sorbonne) et Mission archéologique française en Libye pour l’Antiquité
(2) Ricercatrice, Alma Mater Studiorum, Università di Bologna, Dipartimento di Storia Culture Civiltà
(3) Doctorant, Université de Paris-Sorbonne, Centre de Recherches sur la Libye antique.

IGCyr (inscriptions de la Cyrénaïque grecque), GVCyr (inscriptions métriques de Cyrénaïque) et la Prosopographia Cyrenaica mise à jour d’A. Laronde sont trois projets d’humanités numériques développés dans un cadre franco-italien et rattachés au projet InsLib, portail rassemblant tous les textes inscrits dans l’antique Libye encodés dans le système Epidoc (TEI-XML). Nous avons choisi de développer trois aspects des choix méthodologiques qui se sont présentés à nous.

Comment constituer et ordonner la bibliographie des inscriptions

Une bibliographie générale fournit les balises <xml :id/> que l’on retrouve dans la bibliographie propre à chaque inscription. Pour quelques textes longs et importants pour l’histoire, ayant donné lieu à de nombreuses propositions de lecture et à d’abondants commentaires, donner une bibliographie exhaustive n’a pas semblé utile. Nous avons clairement isolé les travaux d’établissement du texte et opéré des choix dans les autres contributions. En outre, une concordance permettra grâce aux liens hypertexte de retrouver les inscriptions à partir de leur première édition ou révision.

Questions de traduction

Dans IGCyr et GVCyr est prévue la présence de traductions anglaise, française et italienne. Comme la traduction en langues modernes constitue le point névralgique où convergent les intérêts a priori variés des utilisateurs d’une ressource en libre accès, il paraît nécessaire de mener une réflexion nouvelle sur la traduction des textes documentaires antiques : comment relever le défi de transmettre au profit d’un public hétérogène la connaissance des inscriptions sans en trahir la structure textuelle et le sens ? Faut-il repenser pour les lecteurs non avertis les conventions graphiques et sémantiques permettant de signaler dans la traduction les lacunes ou les restitutions du texte original ? Nous exposerons les choix mis en œuvre pour la traduction des inscriptions de la Cyrénaïque grecque en les confrontant à ceux de projets récemment lancés de traduction en ligne.

Prosopographie

Initialement rassemblée par André Laronde dans les années 1970 puis mise à jour depuis 2012 dans le cadre du projet InsLib, la Prosopographia Cyrenaica regroupe désormais plus de 7 000 noms, dont plus de la moitié provient des inscriptions de la période grecque. La première phase du travail, qui avait pour objectif de faire concorder les noms avec les inscriptions révisées et inédites du corpus IGCyr/GVCyr, est désormais terminée. Nous exposerons la méthodologie adoptée pour l’encodage des noms à partir de la balise <persname/>, puis la forme électronique finale que prendra la prosopographie (inspiration du site des Roman Inscriptions of Britain www.romaninscriptionsofbritain.org), en insistant sur les liens hypertextes qui seront établis entre les inscriptions, les noms et d’autres bases de données externes (LGPN).

Annotating inscriptions: considerations about feasibility and methods from a work in progress

Giuseppe A. Celano (Universität Leipzig), Francesca Dell’Oro (Université Stendhal - Grenoble 3, Universität Zürich)

Unlike texts transmitted through the manuscript tradition, inscriptional records have just started to be annotated in order to allow an analysis of their linguistic structure. Within the Digital Marmor Parium project (http://www.dh.uni-leipzig.de/wo/projects/open-greek-and-latin-project/digital-marmor-parium/), G.A. Celano is treebanking the text of this inscription in Arethusa (http://www.perseids.org/tools/arethusa/app/#/perseids?chunk=1&doc=5891) and another project for treebanking the corpus of Euboean inscriptions is in preparation in the same institutional context.

On the one hand, treebanking inscriptions makes them accessible for linguistic analysis, which will suit not only linguists, but whoever interested in the textual aspect of inscriptions. On the other hand, the project of annotating inscriptions poses specific (i.e. in connection with the material nature of the inscribed object) and less specific problems (which could be of interest also for texts transmitted on other supports), among which:

1) What are the challenges that the nature of inscriptions can pose to linguistic annotation? Is it possible not to lose contact with the actual condition of the inscriptional text: which parts of the text are not actually on the object since they are supplements? Is restoration based upon the identification of a formula or rather upon the editor’s linguistic and intelligence skills? Are there signs of division on the support which could be of interest to understand the syntax of the text?

2) What is linguistic annotation meant to capture? Celano’s Guidelines (2015) for the Ancient Greek Dependency Treebank 2.0 (AGDT 2.0) improve the previous version (AGDT 1.0), in particular by adding a third layer of analysis, the advanced syntax layer, to the morphological and the (Prague) syntactic ones. His work encourages to ask ourselves how linguistic annotation can be enhanced and for which purposes.

3) How is it possible to enhance the data interrogation system in order to allow complex interrogations at all possible levels of linguistic analysis?

By using the problems and difficulties encountered in the project on the Marmor Parium and on Euboean inscriptions, we would like to pose and discuss the above mentioned issues with the community of experts as well as with anyone interested in using new technologies for the study of ancient texts.

Works References

L. Dubois, éd., Inscriptions grecques dialectales de Sicile : contribution à l’étude du vocabulaire grec colonial, École Française de Rome, Rome, 1989: 3-19.
L. Dubois, éd., Inscriptions grecques dialectales de Sicile. Tome II, Droz, Genève, 2008: 9-36.
L. Dubois, éd., Inscriptions grecques dialectales de Grande GrèceI, Droz, Genève, 1995: 19-127.
Celano, G.A. (2015), Guidelines for the Ancient Greek dependency Treebank 2.0 (pre-release), (https://github.com/PerseusDL/treebank_data).
Dell’Oro, Francesca (2015, in press), « What Role for Inscriptions in the Study of Syntax and Syntactic Change in the Old Indo-European Languages ? The Pros and Cons of an Integration of Epigraphic Corpora », dans C. Viti, éd.,Perspectives on Historical Syntax, Amsterdam.

Les bases de données XML : l'exemple de la réalisation d'un lexique arabe-grec-arabe des mots du commentaire de Galien aux Épidémies II d'Hippocrate dans la traduction arabe de Ḥunayn ibn Isḥāq

Robert Alessi

Le travail que je souhaite présenter, en cours de réalisation sous l'égide de mon laboratoire (CNRS UMR 8167 «Orient et Méditerranée»), porte sur la saisie en xml, architecturée sur la base de la TEI, d'un lexique sous la forme d’une base de données qui pourra être mise en ligne ou prendre la forme d’un volume imprimé, grâce à la technologie XSLT. Je suis de près le texte de Ḥunayn dans le cadre de l'édition du texte d'Hippocrate que je suis en train d'achever pour la CUF.

Ce lexique arabe-grec-arabe des mots du texte de Ḥunayn porte sur un texte très long, 409 pages dans la traduction allemande de F. Pfaff, qui n’a évidemment pas été pris en compte par Manfred Ullmann dans son Wörterbuch zu den griechisch-arabischen Übersetzungen des 9. Jahrhunderts. L’index comporte à la fois les mots et les phrases dans lesquelles ils apparaissent. Les mots arabes sont classés sous des entrées correspondant à leur racine, et un index inversegrec-arabe est généré. Les mots grecs ne sont disponibles que pour les lemmes, mais les choix du traducteur arabe sont également étudiés dans le commentaire et saisis dans le lexique, notamment quand la discussion de Galien porte sur des variantes, ce qui arrive très souvent.

Par ailleurs le langage utilisé permet, à partir d’une seule saisie informatique, de sortir les mots arabes sous forme soit vocalisée, soit non vocalisée, soit même sous la forme de transcription en caractères romains (transcription Arabica). Ce qui est intéressant, aussi, est que la base de données, telle qu’elle est modélisée, pourra servir de coquille vide à d’autres projets une fois que celui-ci sera bien avancé ou terminé.

Thematic annotation of literary text: the case for ontology

Fabio Ciotti, Raul Mordenti, Daniele Silvi (University of Tor Vergata, Rome)

This paper stems from a national research project supported by the Italian Min. of University: “Poetry of the memory, memory of the poetry. Word and theme occurrences in inscriptions and in the literary system”. The main purpose of the project is the thematic annotation of a corpus of Latin, Greek, Italian, and Arabic epigraphic and epigrammatic texts, and the development of computational tools for their morpho-syntactic and semantic analysis [The main corpus is derived from the previous project Musisque Deoque, http://www.mqdq.it/mqdq/ ].

Our research team task is the thematic tagging of a corpus of early Italian vernacular poetry, that can have intertextual relation with that Ancient tradition, using the same tools and terms index of the whole project. During the development of the project several theoretical and methodological issues have emerged.

The first is of course the selection (and definition) of the Canon and the relationship between epigraphy of the Classic Age and the Vernacular one. The second, and more thought provoking one, is the fact that the common list of theme terminology, based on the classic literature and culture, has soon shown its ineffectiveness, due to the original and peculiar structure of the vernacular poetry. Lastly there is a deep theoretical issue about the meaning, nature and structure of the concepts of “theme” and “motifs” that has not been sufficiently analyzed when we started our project.

To overcome this theoretical shortcomings we think that a sound thematic annotation can not be based on a simple shared terminology but needs the development of a real formal “thematic ontology”. The theoretical framework can be identified in the work of N. Guarino, Formal ontology, conceptual analysis and knowledge representation, «Int. J. Hum.- Comput. Stud. », 43 (1995), 5-6, 625-640, DOI=10.1006/ijhc.1995.1066.

The purpose of such a formal ontology is the definition of the fundamental concepts: theme, motif and related concepts such as stereotype, “locus communis” or “topos”, imagery, character - type . The identification of their mutual relations (hierarchy , similarity , etc.). The specification of their subsidiary and typological properties.The different relationships between themes and motifs and their discursive or expressive manifestations (in fact, such an ontology may be easily generalized to non-linguistic objects).

Ontological Semantic Web technologies provide an appropriate formal framework for the creation of this thematic ontology, a conceptual network organized in multiple typological layers and able to express the richness of relationships between classes and instances of themes and motifs as found in the tradition. The whole research is based on the recent studies on thematic annotation, which have revitalized this aspect of the literary criticism, after a period of latency [W. Sollors, The Return of Thematic Criticism, Cambridge (MA) and London, Harvard University Press, 1993].

Towards a database of Homeric nominal compounds

Francesco Dedè and Maria Margherita Cardella

In the study of Ancient Greek language the classification and analysis of compounds is a challenging matter.

In particular, Homeric language provides us with a very ancient and problematic corpus of compounds, as it comprises items that date back to different stages of formation and often show peculiarities due to the artificial character of epic poetry.

Within this framework, an interesting possibility is to create a digital database of the Homeric compounds, that on the one hand paves the way to deepen our knowledge of compounds in Greek and of the process of compounding in general, and on the other hand provides a useful analysis tool for both linguists and philologists.

This database, currently under development by us, will first of all list all the compounds occurring in the Homeric texts, along with their principal meanings. Then, the database will provide the reader with information about the lexical and morphological status of both the compound (compositional and lexical category) and its members (lexical category and etymology). To offer exhaustive information for each compound, all its occurrences in the texts will be listed (possibly with links to online corpora), together with the most relevant bibliographical references.

Moreover, since Homeric compounds are often found in later stages of the development of Ancient Greek, the research will investigate whether semantic shifts took place in diachrony, and what kind of them.

At the present stage of research, we have arranged the material as raw data in a MS Excel chart. For the construction of an online database, a preliminary study is to be done on the dependency relationships between the various fields of the db, since the structure of a relational db fits more our needs. So far, we have listed all the compounds in the Homeric corpus (ca. 1700 items) with the indication on the form of their First Members (FM) and Second Members (SM), alongside with a provisional hypothesis of classification.

The major issues with the elaboration of the db involve the adequate account of the frequent allomorphy of both FM and SM and the fact that in some cases a compound may be listed under two different classes.

Moreover, it is worthwhile to note that the goal of our db is not to do the linguistic analysis,. The latter is indeed a linguist’s task, given that the analysis necessarily implies a thorough survey of the occurrences of the compounds in the texts. As a consequence, our aim is to make the data available in the most clear way, after their manual upload by the linguist.

This tool will therefore allow for comparative analyses and cross queries and thus will help the user easily pinpoint similarities and differences between compounds sharing common features.

As a final remark, the classification of the compounds will imply reflecting on what classification criteria to propose. To this extent, the project of this digital database of Homeric compounds is conceived of as part of a wider research on composition in its general issues, not only in Greek but possibly in other ancient Indo-European languages.

Le projet TALIE : présentation et questionnements

Charlotte Balandraud, Séverine Clément-Tarantino, Mélanie Lucciano, Océane Puche

Le projet TALIE « Traces de l’Antiquité à Lille et dans l’Eurorégion » est né comme un projet d’édition dans la lignée d’HyperDonat ; il était et demeure sous-tendu par la volonté de mettre en valeur par des moyens numériques cette partie largement méconnue du patrimoine de la région Nord-Pas-de-Calais (et, désormais, -Picardie), que constituent les fonds anciens de ses bibliothèques. La « découverte » du corpus des Vies d’Ovide dans des éditions anciennes d’Ovide conservées dans la réserve patrimoniale de la Bibliothèque Universitaire de Lille 3, le travail de médiation accompli l’an passé (2014) autour du Papyrus de Lille (avec une exposition qui s’est tenue dans le Hall de la Bibliothèque centrale, aux mois de mai et juin), la décision de travailler collectivement autour du commentaire de J. Luis de La Cerda aux Géorgiques de Virgile (le commentaire à Virgile de cet immense érudit espagnol est conservé dans son intégralité à la Bibliothèque de l’Agglomération de Saint-Omer) – tels sont les trois événements décisifs à l’origine de TALIE, dont le « T » s’est vite élargi, pour désigner la notion de « Traces », les Textes représentant une partie de celles-ci (pour les autres « traces », voir infra).

Au départ et pour une part importante, donc, il s’agit d’édition numérique. C’est sur le commentaire de La Cerda que nous avons commencé à travailler, notamment en raison de l’inscription des Géorgiques de Virgile au programme de l’agrégation de Lettres Classiques pour les années 2013-2014 et 2014-2015, ce qui encourageait d’autant plus plusieurs d’entre nous à prêter attention à la tradition de commentaire de cette œuvre. Le commentaire de La Cerda, en outre, est de plus en plus souvent mobilisé à l’heure actuelle – et à juste titre, étant donné la grande érudition qui le caractérise. C’est une œuvre particulièrement stimulante pour qui s’intéresse à l’intertextualité parce que le savant espagnol identifie une quantité impressionnante de sources et de modèles pour les passages virgiliens qu’il scrute de plus près, et qu’il est aussi remarquablement attentif aux reprises qui ont pu en être faites chez les auteurs ultérieurs. De fait, un des buts et un des avantages de l’édition numérique consisteront à identifier (et à indexer) toutes les références proposées dans ce commentaire, en renvoyant à l’original des textes cités (dans l’édition la plus usuelle aujourd’hui) et en annotant les différences qu’il est possible de constater. Par rapport au commentaire d’un Donat (ou d’un Servius), la particularité du commentaire de la Cerda ne réside pas dans l’existence de plusieurs « mains » dans le commentaire, mais dans l’existence de trois niveaux de commentaire : le sujet (argumentum), une reformulation structurée en paragraphes (l’explicatio), des notes d’analyse plus détaillée (avec, en particulier, l’indication des « intertextes »). Un des premiers problèmes d’ordre méthodologique et technique qui se pose à nous, regardant l’édition de ce texte, concerne la structure, non pas tant que nous voulons donner au commentaire édité – nous voulons rester au plus près du document original -, mais au schéma que nous devons construire en encodant le texte en TEI suivant les différents niveaux de commentaire. A ce propos, nous avons eu la chance de bénéficier d’une initiation à l’encodage en TEI de la part du professeur Bruno Bureau (avec le schéma utilisé dans le cadre d’HyperDonat) ; l’équipe Halma (UMR 8164) va (ce mois de mars) équiper quatre d’entre nous avec l’éditeur Oxygen, de sorte que nous allons pouvoir travailler concrètement sur l’encodage et ce premier travail de structuration dans les prochains mois. C’est en procédant à ce travail que nous pourrons, à la fois, apporter nos propres réponses à ce problème de structure, et probablement que nous verrons en surgir de nouveaux.

Mais la proposition que nous avons soumise pour le colloque de Grenoble et le projet TALIE, tel qu’il a mûri en ses quelques mois d’existence, ne se limitent pas à l’édition du commentaire virgilien de J. Luis de la Cerda et aux problèmes spécifiques qu’il peut poser. Pour le colloque, nous nous donnons pour objectif de présenter un premier état du travail sur un échantillon réunissant plusieurs textes – i.e. plusieurs sortes de supports de texte et plusieurs types de textes relevant de ou étant liées à la catégorie des « commentaires ». Précisément, il s’agit :

du manuscrit 660 conservé à la Bibliothèque de Saint-Omer, manuscrit du 14^ème s. contenant la Pharsale de Lucain avec d’abondantes gloses inédites
de l’édition commentée de Virgile par la Cerda, déjà évoquée
de l’Enéide avec la traduction de P. Perrin (1648), et (pour son premier volume) dans l’édition de (et en caractères dits de) Moreau, conservée dans la réserve patrimoniale de la Bibliothèque de Lille 3.

Cette première sélection, qui répond à la mission de repérage que nous nous étions assignée pour ces premiers mois d’existence de TALIE, est non seulement le reflet des centres d’intérêt et des compétences propres des différents antiquisants collaborant sur le projet, mais elle correspond aussi à des rencontres entre enseignants-chercheurs et bibliothécaires : le regard de ces derniers sur ces œuvres et le savoir qu’ils sont soucieux de communiquer sur ces livres font partie intégrante de notre démarche. Par ailleurs, le fil rouge reliant ces textes est moins, finalement (contrairement à ce que nous avions pu imaginer au départ) l’œuvre de Virgile, que la tradition des commentaires : le manuscrit de Lucain est abondamment annoté dans ses marges, avec un commentaire d’allure continue dont les quelques éléments déchiffrés laissent entrevoir des remarques originales ; l’intérêt du commentaire de La Cerda a déjà été évoqué ; en ce qui concerne les traductions, ici représentées par celle de Perrin, on sait que l’opération de traduction inclut une part de commentaire (ou, du moins, une prise de position dans l’histoire de l’interprétation du texte concerné) et on sait précisément que les traducteurs de la Renaissance et du XVII^ème siècle travaillent souvent sur l’œuvre qu’ils traduisent en tenant compte de son environnement métatextuel. A terme, l’édition hypertexte pourrait permettre de faire apparaître les connexions entre traductions et commentaires.

Le principal enjeu méthodologique auquel cet échantillonnage va nous confronter est de savoir à quel point nous devrons ou pourrons soumettre ces textes différents à un traitement identique : ainsi, il restera peut-être utile d’offrir une transcription de la traduction de l’Enéide par Perrin, mais il ne s’agira pas bien sûr, ensuite, de la traduire elle-même, mais plutôt de l’annoter et surtout, de la confronter à d’autres traductions.

Le point sur lequel tous les textes ici indiqués (et tous les autres qui ont fait l’objet de notre premier repérage) doivent cependant se rejoindre est que l’action que nous voulons leur consacrer ne se limite pas à une entreprise d’érudition scientifique ; il s’agit aussi de développer une action de médiation, i.e. d’inviter un public de non-spécialistes à s’y intéresser, à les considérer comme faisant partie intégrante du patrimoine tout court et du patrimoine de leur région en particulier. Le dispositif numérique que nous concevons dans cette perspective – qui est celui sur lequel nous avons le moins avancé à ce jour – prendrait pour support les fac-similés ou versions numérisées des ouvrages et devrait en rendre des parties explorables (en mode zoom) et interrogeables ; des commentaires viendraient guider le lecteur plus ou moins néophyte dans la découverte du texte ainsi offert à son attention.

Par cette deuxième facette du projet d’édition numérique, les Textes deviennent partie intégrante des Traces, à propos desquelles la démarche est de médiation et d’enseignement avant d’être, éventuellement, d’érudition. Les autres « Traces » de l’Antiquité avec lesquelles le projet TALIE s’est constitué en tant que projet partenariat de la MESHS du Nord-Pas-de-Calais, ce sont en fait les formes de remploi, d’appropriation de l’héritage antique gréco-romain que l’on peut trouver dans le NPdC aussi bien dans des espaces de savoir fermés (comme les musées) qu’à l’extérieur, sur les places, les façades, les devantures de magasin, des enseignes et panneaux de différentes sortes. Le cœur de la démarche consiste à encourager les habitants de la région à se réapproprier eux-mêmes le patrimoine culturel de celle-ci, et à les sensibiliser en particulier à l’héritage gréco-romain dans notre culture. Une deuxième dimension importante consiste dans l’implication des étudiants du département des Langues et cultures de l’Antiquité de l’UFR Humanités de l’Université Lille 3, en particulier ceux de la licence Humanités et Sciences de l’Information : leur participation au projet, qui a pu se faire cette année à la faveur d’une UE 10 dédiée à l’autonomisation de l’étudiant, est un moyen, d’une part, de mettre en application les connaissances qu’ils acquièrent en culture antique dans le cadre de la formation, d’autre part, sur le moyen terme (pour l’instant, nous en sommes à la phase d’inventaire et de documentation relativement aux Traces de l’Antiquité à Lille même) de s’initier aux humanités numériques. Le « débouché » le plus naturel de ce versant de TALIE est la création d’une base de données permettant de s’informer sur les Traces de l’Antiquité à Lille et dans l’Eurorégion. Mais nous pensons aussi à d’autres exploitations possibles des matériaux collectés et des recherches effectuées en collaboration avec les étudiants : le système des applications mobiles permettrait, par exemple, de proposer des parcours à thème antique à Lille et environs (ex : « Sur les pas du dieu Mercure », « Des colonnes partout », « La route du Sphinx »…). Le dernier enjeu de TALIE, qui est un de ceux sur lesquels nous voudrions le plus pouvoir discuter lors du colloque, est alors de réunir ses deux versants – Textes et Traces – peut-être à la faveur de tels parcours de découverte, dont les bibliothèques, les livres et les auteurs antiques ne devraient pas être a priori exclus. Avant même qu’il soit question de tels parcours, il faut d’abord penser la création et la configuration d’un site dont le portail reflète et concrétise le lien entre les Traces et les Textes.

Création d’un outil commun pour la recherche : la base de données documentaires Meddea (Musique et danse de l’Antiquité)

Sibylle Emerit

Afin de faciliter la gestion et l’exploitation de l’ensemble des sources relatives à la musique de l’Égypte ancienne, l’Institut français d’archéologie orientale a développé, depuis 2008, une base de données documentaire, nommée Meddea (Musiques et danses de l’Antiquité), qui pourrait être étendue, dans l’avenir, à d’autres cultures musicales de l’Antiquité. Son existence faciliterait les études comparatives entre les cultures musicales, tout en mettant en lumière leurs spécificités et les filiations possibles entre elles.

Lors de la conception de Meddea, l’objectif a été d’essayer de trouver une arborescence qui puisse s’adapter au caractère particulièrement varié et épars de la documentation archéologique. En effet, il ne s’agit pas d’un corpus fermé et l’élaboration de la base devait prendre en considération la multiplicité des supports, des provenances géographiques, des périodes historiques (de l’Ancien Empire jusqu’au début de l’époque byzantine). Une table centrale rassemble tous les documents, tandis que des tables externes ont été dédiées à l’exploitation des sources. L’une permet ainsi l’élaboration d’un dictionnaire des termes musicaux ; l’autre autorise la constitution d’un corpus prosopographique des musiciens. Actuellement, l’accent a été mis sur le référencement et la description des vestiges archéologiques des instruments de musique qui sont éparpillés dans de nombreuses collections muséales à travers le monde.

Cette intervention présentera la genèse du projet et les défis rencontrés lors de l’élaboration de cette base de données, destinée, à terme, à être accessible sur Internet. Elle permettra également d’aborder les perspectives futures de cet outil informatique évolutif, que ce soit pour la recherche individuelle ou collective, notamment à travers les différents partenariats dores et déjà mis en place, ainsi que les diverses attentes scientifiques.

Enjeux méthodologiques du passage à la phase textuelle du corpus Biblindex : quel recours au web sémantique ?

Laurence Mellerin, Emmanuelle Morlock (HiSoMA)

Le corpus du projet Biblindex est actuellement composé essentiellement de données chiffrées, établissant un lien entre une référence biblique citée (de type livre, chapitre, verset) et un passage citant dans une œuvre patristique, noté également sous la forme d’une référence chiffrée renvoyant à une édition publiée (numéro de page, de ligne). Le projet dispose désormais de l’intégralité des textes bibliques dans les langues concernées (latin, grec, hébreu, bientôt syriaque) et d’échantillons de textes patristiques. Un outil de mise en correspondance entre les deux corpus textuels, reposant sur la recherche de lemmes communs, est en cours de mise au point. Cependant de nombreuses questions méthodologiques restent ouvertes : quels protocoles retenir pour l’identification pérenne des unités citantes/citées qui soit également réutilisable dans d’autres contextes ou par d’autres projets ? quel système de publication des textes et des relations entre textes privilégier ? à partir de quelles questions de recherche construire le graphe des données du corpus permettant d’unir les différents objets modélisés, de les exposer pour la réutilisation par d’autres projets ou de mener des analyses complexes sur des données hétérogènes riches en sémantique ? Ainsi l’utilisation du web sémantique, en complément des bases de données relationnelles et des collections de texte XML qui font le soubassement du projet, sera ici discutée.

Scaling up the Extraction of Canonical Citations from Publications in Classics

Matteo Romanello (German Archaeological Institute / King’s College London)

Canonical citations are the standard way of citing primary sources in Classics (e.g. “Hom. Il. 1.1-10”). Such citations – which are found in abundance within journal articles, commentaries and other secondary sources – are of essential importance as they signal text passages that were studied and discussed, often in relation to one another. Classicists have long been exploiting this kind of information by creating (manually) indexes of cited passages (i.e. indexes locorum). The challenge they are now faced with is how to scale up such indexes to cope with large-scale digital archives and libraries (Crane, Seales, and Terras 2009).

In this talk I describe an automatic approach to the problem of extracting canonical citations and I discuss the challenges that were faced in this process as well as those that still remain unsolved (Romanello 2013; Romanello 2014).

The approach I developed consists of treating the extraction of canonical citations as a problem of named entity extraction and results in a three-step process(1). First, the components of a citation are extracted and classified (named entity recognition); second, the relations between such components are extracted so as to form citations (relation detection); third, the cited authors, works and text passages are identified unambiguously by means of unique identifiers (named entity disambiguation). The accuracy of this citation extraction system was evaluated against a multilingual dataset of approximately 25,000 tokens (2). The system achieved an accuracy (F-measure) respectively of 73,88% (named entity recognition), 92,60% (relation detection) and 73,05% (named entity disambigua- tion).

I conclude the talk by examining a number of present and future scenarios for the application of such a system. In addition to search and information retrieval, such an automatically created index of citations can be integrated within a reading environment as to provide a list of related publications that discuss the text passage in focus. As an example of this use case, the reading environment developed by the Hellespont project will be discussed (Romanello and Thomas 2012). Moreover, a large-scale index of cited passages could be combined together with tools such as Tesserae (3) that aim to find automatically new possible intertextual parallels (Coffee et al. 2012; Coffee et al. 2013). The frequency with which a given set of parallels is cited in the secondary literaturecould be offered as contextual information to the user or could even be used by these systems to rank the candidates.

Works Referenced

Coffee, Neil, Jean-Pierre Koenig, Shakthi Poornima, Christopher W. Forstall, Roelant Ossewaarde, and Sarah L. Jacobson. 2013. “The Tesserae Project: Intertextual Analysis of Latin Poetry.” Literary and Linguistic Computing 28 (2): 221–228.doi:10.1093/llc/fqs033. http://llc.oxfordjournals.org/content/28/ 2/221
Coffee, Neil, Jean-Pierre Koenig, Shakthi Poornima, Roelant Ossewaarde, Christopher Forstall, and Sarah Jacobson. 2012. “Intertextuality in the Digital Age.” Transactions of the American Philological Association 142 (2): 383–422.doi:10.1353/apa.2012.0010. http://dx.doi.org10.1353/apa.2012.0010
Crane, Gregory, Brent Seales, and Melissa Terras. 2009. “Cyberinfrastructure for Classical Philology.” Digital Humanities Quarterly 3 (1). http://www.digitalhumanities.org/dhq/vol/3/1/000023/000023.html
Romanello, Matteo. 2013. “Creating an Annotated Corpus for Extracting Canonical Citations from Classics-Related Texts by Using Active Annotation.” In Computational Linguistics and Intelligent Text Processing. 14th International Conference, CICLing 2013, Samos, Greece, March 24-30, 2013, Proceedings, Part I, edited by Alexander Gelbukh, 1:60–76. Springer Berlin Heidelberg.doi:10.1007/978-3-642-37247-6\_6.
Romanello, Matteo. 2014. “Mining Citations, Linking Texts.” ISAW Papers 7 (24). http://dlib.nyu.edu/awdl/isaw/isaw-papers/7/romanello/
Romanello, Matteo, and Agnes Thomas. 2012. “The World of Thucydides: From Texts to Artefacts and Back.” In Revive the Past. Proceeding of the 39th Conference on Computer Applications and Quantitative Methods in Archaeology. Beijing, 12-16 April 2011, edited by Mingquan Zhou, Iza Romanowska, Wu Zhongke, Xu Pengfei, and Philip Verhagen, 276–284. Amsterdam University Press. http://dare.uva.nl/document/358465

(1) Canonical Reference Extractor (CRefEx), http://dx.doi.org/10.5281/zenodo.10886
(2) APh Corpus, http://dx.doi.org/10.5072/zenodo.12762
(3) Tesserae, http://tesserae.caset.buffalo.edu/

Visualizing Complex Data in Greek Archaeology: Best Practices of the Past, Present, and Future

Sarah Murray

Since the field was born in the late 19^th century, Greek archaeology has depended on the visualization of complex information in order to both understand and communicate remains encountered in the field. In the old days, vast quantities of time were spent planning, drawing, painting, or engraving elaborate visualizations by hand. These visualizations were carefully curated works of art, immensely expensive to produce and reproduce. Today most archaeologists employ computational technologies, including but not limited to GIS applications, CAD, Photogrammetry, and LIDAR scanning, to speed the production of visualizations in both two and three dimensions. As a result, images that once took weeks to painstakingly craft can now be cranked out in a few clicks of a mouse. But to what degree have the changes wrought by computing in archaeological visualization generated breakthroughs in our knowledge of the ancient past? In this paper, I assess the impact of digital imaging and analytical techniques on the quality, efficiency, and tangible outcomes of archaeological fieldwork.

First, I review the diverse menu of visualization techniques and technologies currently popular among archaeologists working in the field today, and discuss their perceived strengths and weaknesses among experienced practitioners. Then I offer two examples of projects that do not, and two examples of projects that do, use these techniques in ways that are not simply visually impressive, but that truly advance research in thoroughgoing and meaningful ways. I conclude that the employment of digital tools in archaeological imaging has the potential to unlock new knowledge, but that practitioners must be cautious in their application, and ensure a good fit between research goals and digital toolkits.

Réflexions autour de l’élaboration d’une bibliographie épigraphique

Michèle Brunet, Elysabeth Hue-Gay et Emmanuelle Morlock, UMR 5189 HISoMA

Le travail mené pour constituer la bibliographie du programme de publication numérique des Inscriptions grecques du Louvre offre l’occasion de proposer quelques réflexions sur l’élaboration d’une bibliographie « savante » dans un environnement numérique de production et de diffusion. Les pratiques traditionnelles et les conventions regroupées dans ce qu’on appelle les « normes » bibliographiques sont à réévaluer, comme les enjeux de ces références ; cet examen permet de mieux apprécier le degré d’autonomie des éditions électroniques par rapport aux éditions imprimées.

À chacune de leurs étapes, les projets d’édition numérique ont à questionner les méthodes de travail pour démêler les composantes logiques des processus et ce qui ne relève, en définitive, que de l’héritage des contraintes imposées par des siècles d’édition imprimée, avec lesquelles tous les acteurs de la communauté scientifique ont appris à jouer avec un art consommé, notamment en matière d’économie de moyens (systèmes d’abréviations et de renvois), générant ainsi une quantité d’implicite enclose dans les codes que chaque discipline s’est employée à raffiner au fil du temps.

Dans le contexte d’une édition électronique en libre accès ouverte à un public plus large et moins nettement identifié, il faut distinguer dans cet héritage ce qui est rendu inutile par le dispositif de publication numérique et ce qu’il est nécessaire d’expliciter pour donner accès aux référentiels sans alourdir la lecture.

D’un point de vue technique et organisationnel, la bibliographie illustre la nécessité qu’impose le passage au numérique de convertir en une base de données ce que la rédaction pouvait exprimer avec une souplesse d’expression relevant d’autres critères de qualité. Les projets doivent donc trouver les meilleurs compromis entre le niveau de description scientifique souhaité, la rigueur de l’expression (explicite, non ambigu pour être opérable, standardisé) requis par l’outil informatique et le temps à consacrer aux différentes étapes du travail.

Networking data repositories of ancient coin finds

David Wigg-Wolf (1) and Karsten Tolle (2)

(1) Römisch-Germanische Kommission des Deutschen Archäologisches Instituts
(2) Databases and Information Systems - Goethe University

In the 1980s cooperation between electronic databases containing information on ancient coin finds generally concentrated on the standardisation of core data in order to facilitate the transfer of information between them. At a series of international meetings some progress was made, but it rapidly became clear that full implementation was impossible, and so when individual projects were set up, they were seldom compatible.

However, the benefits of central access to this enormous pool of data are obvious, providing an extremely powerful research tool for numismatists, archaeologists and historians alike. In the past this would only have been possible via the transfer of data from the individual projects to a single central database, but new methodologies such as linked open data and the semantic web now bring with them new possibilities of cooperation. A central aim of the European Coin Find Network (ECFN) (http://ecfn.fundmuenzen.eu) is to use these to set up a common access portal for internet databases of coin finds and their archaeological context across Europe.

This paper will present current work being carried out to this end within the context of ECFN, as well as a series of other inter-related linked open data projects such as Nomisma.org (http://nomisma.org) and Online Coins of the Roman Empire (OCRE) (http://numismatics.org/ocre/). Following the development of a specialised numismatic ontology (http://nomisma.org/ontology), disparate relational databases are now being made available as linked data services on D2R servers (e.g. http://afe.dainst.org:8080/d2rq/) and can be accessed centrally via SPARQL. These services allow searches across multiple sources, and provide a range of additional benefits: 1) improvement of data quality (essential for successful usage and acceptance of linked open data) – by comparing the result sets of the different sources in order to identify friction that could indicate data errors; 2) support mappings between standard reference works, e.g. RIC 1^st and 2^nd editions – in some databases coins are referenced to more than one standard; with the aggregation of this information one could infer a mapping between these standards; 3) facilitate research – relevant coins can be identified across different sources (however, for detailed information it will still be necessary to dig into the underlying databases).

These benefits will help to embed coin find studies into the broader landscape of digital humanities.

Dispositifs d'information et de communication épigraphiques au service de la représentation et du traitement numérique des inscriptions

Marion Lamé, Chercheuse associée au Centre Camille Jullian, MMSH, CNRS, France.
Chercheuse post-doc à l’Istituto di LinguisticaComputazionale, CNR, Pise, Italie (au moment de la soumission).

Comment aborder les questions épistémologiques que soulève l’emploi du numérique dans l'étude des inscriptions et s'assurer de la prise en compte, la plus complète possible, des dimensions historiques qui entourent ces objets ? Nous proposons de procéder méthodologiquement et par ordre en commençant par définir les contours de l’objet écrit épigraphique. Hyponyme de catégories en cours d’élaboration théorique dans les humanités numériques, comme le verbal TextBearing Object1, le concept d'inscription répond à des caractéristiques traditionnelles (écritures, textes, contextes, support, monumentum, documentum...) et des critères d’épigraphicité qui distingueraient l’écrit épigraphique de tout autre écrit comme, par exemple, l'authenticité et unicité2 ou le message adressé à une collectivité3. Un critère, plus opérant, se dégage avec la question numérique, critère pour lequel l’intérêt transdisciplinaire de la recherche scientifique se développe depuis plusieurs décennies : l’écriture (ou sa représentation) imposée à l’individu au moyen d'une mise en place dans une stratégie sociale, voire d'une mise en scène ostentatoire. Or, un tel critère ne peut résider dans les seules descriptions linguistiques, structuralistes et systémiques. Si celles-ci offrent l’avantage de la simplicité et celui de son transfert aisé à la machine, elles n'en restent pas moins incomplètes : l’inscription se positionnerait au-delà du système de signes. Le système sémantique ne devient alors qu’un des éléments hétérogènes d’un réseau délibéré : un dispositif d’information et de communication épigraphiques, un « concept de l’entre-deux »4, terme technique foucaldien essentiel, capable, peut-être, de jeter des ponts entre la machine, structurée et systémique, et les lumières de l’interprétation de l’historien antiquisant. Le propos est ici défendu par une étude de cas, concrète et simple : TesserarumSisciaeSylloge, édition numérique scientifique des plombs inscrits de Siscia en Pannonie. Ici, l'attention porte sur la relation graphico-textuelle d’une part et sur celle contexto-textuelle résultante d'autre part et qui mène au traitement statistique de l’information économique extraite des étiquettes. Nous complétons, chaque fois que bienvenu, avec un matériel épigraphique exemplaire, la « königin der antikenInschriften » de Mommsen, les ResGestaeDiviAugusti.

Linked Open Data and Greek Numismatics

Ulrike Peter (Berlin-Brandenburgische Akademie der Wissenschaften), Frédérique Duyrat (Bibliothèque nationale de France), Andrew Meadows (New College, Oxford)

Numismatics offers some of the most plentiful evidence for the social, political and economic history of Antiquity. Coins are official documents produced by thousands of rulers, peoples and cities. They survive today in huge numbers from archaeological excavations, hoards and casual finds. They are recorded and catalogued in a variety of contexts from the databases of major public collections to the auctions of commercial firms. The categorization of this material, its deployment to answer major research questions, and its integration with other forms of evidence for the ancient world present major challenges to the discipline of numismatics.

Recent, collaborative work at a number of institutions has focused on the establishment of a group of tools designed from the beginning to be interoperable on the principles of Linked Open Data, in the hope fo creating a fully-linked discipline. This paper will focus on four key components of numismatic work, offer descriptions of current and work, and outline possible collaborations for the future:

A type corpus of Greek coinage: the Corpus Nummorum Thracorum project of the BBAW
Collection catalogues and Linked Data. The cases of New York, Paris and Berlin
A database of Hoards: The online Inventory of Greek Coin Hoards
Excavation Material: the BnF/Ecole française d’Athènes projects to standardize publication of excavation coins.

SKEPSIS : construction d'une base de textes électroniques sur le scepticisme ancien

Stéphane Marchand, ENS de Lyon (CID/IHPC)

Dans l'Antiquité, le scepticisme désigne un double phénomène : un problème philosophique, le problème de la possibilité de la connaissance, mais aussi un ensemble de traditions philosophiques, la tradition pyrrhonienne et la tradition académicienne. La base SKEPSIS (http://editions.ihpc.huma-num.fr/skepsis) propose d'utiliser les possibilités ouvertes par l'encodage XML/TEI pour rassembler et donner à lire l'ensemble des textes sur le phénomène sceptique dans l'Antiquité.

La question de l'encodage des fragments de textes de l'Antiquité fait l'objet d'un travail au LOFTS, the Leipzig Open Fragmentary Texts Series (http://www.dh.uni-leipzig.de/wo/projects/open-greek-and-latin-project/the-leipzig-open-fragmentary-texts-series-lofts/). Dans le sillage du LOFTS, le projet SKEPSIS se propose d'utiliser l'encodage XML-TEI dans le cadre d'un usage historique, philologique mais aussi philosophique. L'édition des fragments philosophiques demande, en effet, une réflexion particulière sur l'encodage XML-TEI pour exprimer des relations historiques et conceptuelles d'une nature fondamentalement particulière.

A partir d'une exposition des principes philologiques et techniques qui régissent le projet SKEPSIS, la présente communication cherchera à interroger les apports éditoriaux que permet une telle base sur deux domaines d'application particulier :

La distinction philologique entre Testimonium et Fragmentum. Dans quelle mesure cette distinction, héritée du travail philologique d'Hermann Diels (Die Fragmente der Vorsokratiker, 1ère éd. 1903), est-elle pertinente pour un corpus constitués de philosophes qui, pour certains, ont refusé d'écrire ? Et, n'est-il pas nécessaire de se donner les moyens de représenter de manière plus continue la distinction entre les deux catégories ?
La constitution d'un corpus de texte autour de notions ou concepts. Le corpus sceptique est extrait d’œuvres écrites par des auteurs qui ont, le plus souvent, un rapport distancié, sinon critique, vis-à-vis du scepticisme. L'unité de ces textes n'est donc pas uniquement constitué par l'auteur du texte, ni même par l'auteur dont il est question dans le texte, mais parfois par un argument, un concept, une attitude, etc. Il convient donc de se demander comment représenter cette unité à partir de l'encodage XML-TEI.

Pour une version numérique de l’Anthologie Palatine

Elsa Bouchard

Dans la foulée des avancées récentes réalisées dans les « digital classics », nous sommes en train de mettre sur pied une plate-forme web consacrée à l’Anthologie Palatine. L’ancêtre de l’Anthologie, la Couronne de Méléagre, est le produit de la culture hellénistique, qui à notre sens préfigure la culture numérique par son souci envers la conservation, l’étude et la classification des œuvres. Dès ses plus anciennes versions, l’Anthologie fut réalisée suivant certains principes organisationnels, qui furent modifiés par les compilateurs successifs. Les gloses de toutes sortes qui se trouvent aujourd’hui sous forme de scholies dans le manuscrit – identification des auteurs, commentaires, signes diacritiques, etc. – portent les traces des nombreux remaniements qu’a subis la collection au cours des siècles. À l’instar des marqueurs hypertextuels, ces scholies permettent de forcer l’ordre linéaire du manuscrit en proposant des « classements » spontanés non linéaires : renvois aux poèmes du même auteur, ajout de mot-clés décrivant le poème (nom du destinataire, thème, etc.).

Notre édition de l’Anthologie grecque rendra compte de ces caractéristiques « hypertextuelles » embryonnaires dans le manuscrit, qui seront réalisées pleinement grâce aux technologies numériques. Concrètement, le site comportera les éléments suivants : - texte et nouvelle traduction française (produite par nous-mêmes) d’un ensemble d’épigrammes tirées des livres 4, 5 et 7 d’auteurs antérieurs à Méléagre, incluant Méléagre ; - texte et traduction des intertitres et autres scholies accompagnant les épigrammes dans le manuscrit de l’Anthologie ; - partie du manuscrit alignée au texte pour chaque épigramme ; - autres informations pertinentes à l’étude des épigrammes (e.g. commentaires métriques, références bibliographiques).

La plate-forme permettra de naviguer à travers le corpus suivant certains critères définis (auteur, époque, thème, mots-clés...), ces marqueurs hyper-textuels étant conçus pour refléter le travail des gloses qui parsèment le manuscrit palatin.

Testable distant reading in scholia, lexica and paraphrases

Nikolas Churik and Neel Smith, College of the Holy Cross

We can “read” digital texts at new scales and across conventional boundaries of genre, and can embed these readings automatically into our digital writing. Working with editions from the Homer Multitext project, weapply quantitative methods to a group of scholarly texts that are not normally read together to trace a history of lexical scholarship on the Iliad. Specifically, we explore scholia, versions of the Iliadic paraphrase of Michael Psellus, and the homeric lexicon of Apollonius Sophistes in relation to each other, and to the specific versions of the Iliad with which they are paired in our manuscripts.
Methodologically, our work leverages the expressive power of Canonical Text Service (CTS) URNs . As documented more fully by Smith (with Christopher Blackwell, “Aligning analysis and citation of texts with CTS URNs”) in a forthcoming issue of Literary and Linguistic Computing, we recognize that every systematic analysis of a text creates a semantically distinct tokenization of the text. We choose to represent the tokens as citable units in an exemplar of the specific version they analyze. For example, the URN urn:cts:greekLit:tlg0012.tlg001.msA:1.1 cites the first line of the Iliad in the Venetus A manuscript, and the first morphological token in that passage is urn:cts:greekLit:tlg0012.tlg001.msA:1.1@Μῆνιν . We equate this with a URN referring to the first token of a “morphological exemplar” of the Iliad as urn:cts:greekLit:tlg0012.tlg001.msA.morph:1.1.1 . Because this exemplar-level URN (like all CTS URNs) captures both the hierarchical containing context (Iliad 1.1) and the document order (first unit within that context) of the token, statistical comparisons using only URNs can readily take account of contextual relations across texts and versions.
Finally, we show how we write with formally stated assertions about analytical URNs that can be automatically evaluated, so that the results are embedded in ourtext.

Temps long et temps court dans la recherche digitale sur les manuscrits chrétiens anciens

Claire Clivaz, Swiss Institute of Bioinformatics, Lausanne (CH)

L’accès aux manuscrits chrétiens anciens, a toujours été l’objet de péripéties (usages de la valise diplomatique, congélation des manuscrits, et même jusqu’au crime !) (1). Les conditions de la recherche digitale chamboulent une fois encore cet univers. Au travers de deux exemples, nous allons examiner quelles sont les nouvelles problématiques à l’œuvre lors de l’émergence d’un manuscrit chrétien sur les réseaux digitaux. Premièrement, nous ferons le point sur le papyrus dit de L’Evangile de la femme de Jésus, publié sur un site d’Harvard en 2012 (2), mais fortement décrié quant à son authenticité, au moment même, ainsi que deux ans plus tard (3).

Nous analyserons le processus de mise à disposition des informations, leurs discussions diffractées sur les réseaux sociaux, et qu’est-ce qui a sans doute manqué dans la pratique digitale de la Harvard Divinity School pour exploiter de la manière la plus utile à la recherche cette découverte. Notre deuxième exemple sera le P⁶⁶, l’un des plus anciens manuscrits de l’Evangile selon Jean, conservé à la Fondation Bodmer (Genève). Nous observeront l’interaction à l’œuvre entre les chercheurs et la Fondation autour de ce manuscrit, une interaction qui passe aujourd’hui par Facebook avec une fausse annonce de digitalisation du manuscrit en septembre 2014, et la récente mise online sauvage d’un scan des images couleurs non numérisées du manuscrit (4).

Nous terminerons cette présentation en concluant : 1) qu’il est désormais indispensable d’articuler temps court/réactivité et temps long/analyse dans la recherche digitale en sciences humaines, sans sacrifier l’un à l’autre ; 2) que l’état de la recherche se joue en partie dans le présent et mobilise les acteurs en temps réel ; 3) que l’étude des manuscrits chrétiens anciens demande désormais d’articuler compétence historiques et analyse sociologique des acteurs.

(1) Cf. par exemple ROBINSON, J. M., «The Discovering and Marketing of Coptic Manuscripts: The Nag Hammadi Codices and the Bodmer Papyri», dans The Roots of Egyptian Christianity (Studies in Antiquity and Christianity), B. A. PEARSON – J. E. GOEHRING (éd.), Philadelphia: Fortress Press, 1992, p. 2-25 ; voire notamment p. 7 pour la narration sanglante de la découverte des manuscrits gnostiques de Nag Hammadi, ou p. 23 pour l’usage de la valise diplomatique pour les papyrus Bodmer.
(2) http://gospelofjesusswife.hds.harvard.edu/; voir mes réactions du point de vue de la culture digitale : http://claireclivaz.hypotheses.org/129; http://claireclivaz.hypotheses.org/189; http://claireclivaz.hypotheses.org/430
(3) Par exemple, http://historicaljesusresearch.blogspot.ch/2014/04/interview-with-caroline-t-schroeder-re.html
(4) http://earlybible.com/manuscripts/p66.html

Jouer sur les champs et les tables : gestion des données chronologiques dans une base de données prosopographiques consacrée aux Athéniens de la basse époque hellénistique

Karine Karila-Cohen,Université Rennes 2, Laboratoire LAHM/CReAAH (UMR 6566)

Les bases de données, accessibles en ligne, remplacent peu à peu les catalogues papier, et les fiches à partir desquelles on pouvait construire l’enquête sociale. Les potentialités de cet outil ne se résument cependant pas aux facilités de consultation et de traitement des informations. La construction d’une base de données relationnelle suppose en effet que l’on définisse précisément les objets d’étude, aussi bien les entités et les attributs qui les caractérisent que le type de relations qu’elles entretiennent entre elles. La structuration des données force par conséquent à déconstruire la logique de fabrication prosopographique. Il me semble que l’on peut distinguer deux modèles principaux de bases de données prosopographiques, privilégiant soit la personne, soit les attestations de noms de personnes dans les sources. Dans le contexte documentaire qui est le nôtre pour l’Antiquité, la seconde option offre de nombreux avantages.

Je travaille actuellement à l’élaboration d’une base de données dédiée à la prosopographie des Athéniens de la basse époque hellénistique (II^e-I^er siècles av. J.-C.) et à la création du site en ligne. Mon souci a été de distinguer les données lisibles dans les documents de celles qui procèdent d’hypothèses. Habituellement, c’est à partir des occurrences de noms de personnes dans les sources, qui font connaître des informations biographiques, que l’on procède à l’identification des homonymes. Les personnes sont donc reconstruites à partir du collage des informations éparpillées dans des sources distinctes. On passe ensuite à la reconstitution des familles, rendue plus difficile par l’absence d’un nom attaché à une même lignée. Il me semble essentiel pour ma part de séparer dans des tables distinctes les occurrences de noms personnels, les sources, les informations biographiques (« être archonte » ou « offrir une dédicace à une divinité » par exemple), et les données onomastiques, en distinguant les anthroponymes des éléments qui rattachent les individus à un groupe civique particulier (un démotique ou un ethnique par exemple). Ces données ne résultent pas de reconstructions ou de rapprochements émis par le chercheur, sauf en ce qui concerne la lisibilité de la source, ce dont la saisie doit tenir compte. Les personnes et les relations, dont l’identification repose davantage sur les choix de chaque chercheur, peuvent être ensuite enregistrées dans des tables séparées. L’ergonomie du site doit permettre de naviguer facilement d’une table à l’autre et rendre ainsi visible la succession d’hypothèses nécessaires à la démarche prosopographique sans effacer les étapes du raisonnement une fois le résultat atteint.

En outre, la configuration du site s’avère particulièrement utile quand il s’agit d’enregistrer les données chronologiques. Les historiens de l’Antiquité raisonnent à partir de documents datés de façon très diverse, allant de la date précise à la période plus ou moins large (« II^e siècle av. J.-C. » ou même « époque impériale » par exemple). Pour les sources épigraphiques qui forment la quasi-totalité du corpus disponible pour Athènes hellénistique, la datation repose souvent sur la forme des lettres ou l’identification du lapicide, ce qui se traduit par des fourchettes chronologiques. Les spécialistes de prosopographie utilisent la présence de noms dans des textes datés précisément, pour dater, une fois les identifications prosopographiques faites, des textes datés moins précisément, dans lesquels se retrouvent les mêmes noms ou des noms appartenant à des parents supposés. Il existe par conséquent un va-et-vient constant entre datation des textes et hypothèses de restitutions prosopographiques des noms trouvés dans les textes. Un texte daté selon la prosopographie peut à son tour être utilisé pour étayer d’autres rapprochements prosopographiques. Si la méthode est légitime, elle ne peut que sortir renforcée par l’interrogation simultanée d’un grand nombre de textes et d’hypothèses prosopographiques, ce que la base de données relationnelle permet. En enregistrant les données chronologiques différemment selon les tables qui enregistrent les sources ou les personnes, il est possible d’utiliser le site en ligne comme un outil interactif.

L’Analyse des réseaux sociaux des cités étrusques septentrionales pendant la Romanisation et son rôle dans la question identitaire

Raffaella Da Vela

La Romanisation de l’Étrurie septentrionale entre IIIᵉ et le Iᵉ s. av. J.-C. est un processus progressive, complexe et global, qui implique des changements substantielles non seulement dans l’organisation politique, sociale et économique des villes et des cités étrusques, mais également dans la perception locale de l’identité culturelle. Pour mieux comprendre l’évolution culturelle aux niveau local, par rapport aux dynamiques globales de la Romanisation, je propose un étude unitaire des liens relationnelles entre les centres étrusques dans leur évolution diachronique, avec les méthodes de l’analyse des réseaux sociaux et leurs applications numériques. Je vais prendre pourtant en considération les potentialités de l’application numérique dans ce secteur de la recherche archéologique, en cherchant de répondre à trois questions principales : est-ce-que l’application de cette méthodologie est utile exclusivement comme instrument de visualisation unitaire des phénomènes complexes où est-il possible d’utiliser ces techniques au niveau interprétative et prédictive ? Quel est l’influence des lacunes documentaire dans l’élaboration des modèles numériques des réseaux des cités et est-ce-que leur étude numérique pourrait ouvrir des nouvelles perspectives dans l’intégration des ces lacunes ? Comme peut-on rapporter l’étude numérique de l’évolution des liens relationnelles entre les cités à la question de la construction des identités locales? En essayant de répondre à ces questions je vais observer les suivants paramètres, en qualité de liens relationnelles entre les centres étrusques : connectivité, mobilité humaine, exchange d’objets mobiliers et transmission d’idées ; mes paramètres se fondent sûr des donnés géographiques (connectivité), épigraphiques/prosopographiques (mobilité) et archéologiques (distribution de marchandise et transmission culturelle). Je vais montrer une élaboration de cette base documentaire avec le logiciel Cytoscape, en présentant les réseaux dans leur évolution synchronique et diachronique et discuter la valeur de cette élaboration pour la compréhension du contexte historique et archéologique.

Base de données et histoire sociale : le cas des officiers dans les guerres civiles à la fin de la République romaine (49-31 a.C.)

Bertrand Augier, doctorant (Université Paris Ouest Nanterre La Défense - UMR 7041 Arscan) / ATER (Université de Rouen)

Essentiel apparaît le rôle de l’encadrement des troupes dans le contexte des guerres civiles qui marquent la fin de la République, entre 49 et 31 av. J.-C. De fait l’obéissance et la discipline des armées étaient assurées par des officiers, cadres militaires issus de l'aristocratie romaine. L’analyse prosopographique de ce groupe social a pris la forme d’une base de données informatisée fonctionnant sous File Maker, appartenant à une famille de bases de données, appelée Fichoz, progressivement élaborées depuis 1988 par Jean-Pierre Dedieu, directeur de recherche au CNRS (LARHA). Fichoz constitue une référence en matière de bases de données historiques, et se révèle capable de stocker tout type de données relatives à l'histoire sociale.

Il s'agira de mettre en évidence comment cette base de données prosopographique permet le stockage et surtout l'exploitation postérieure d'un grand nombre d'informations, à travers l'étude de plusieurs cas pratiques. Nous montrerons que ce traitement informatisé de l'information permet l'analyse de réseaux, via notamment le logiciel PAJEK, par la visualisation des interactions à l’œuvre entre acteurs dans cette période troublée. Il sera ainsi possible de déceler les mécanismes d'allégeance ainsi que la manière dont se structuraient les divers partis en présence. Nous mettrons également en évidence comment le recrutement des officiers de l'armée romaine a pu être déterminé par leur implantation géographique (origo ou propriétés foncières), en combinant les informations extraites de la base de données à un logiciel de SIG (QGIS). Émerge enfin la possibilité d’évaluer la valeur de l’encadrement des légions, à l’aune des compétences attendues d’un officier, par la recension et la mise en série des conduites individuelles.

Personnes connectées : 1

Flux RSS