L'école d'été > Ateliers

Version italienne en bas ita_3.png

Ateliers 

Lundi 26/06

Introduction aux Humanités Numériques – Elena Pierazzo

Qu'est-ce que ce sont les Humanités Numériques? Pourquoi est-il important de les connaître? A quoi servent-elles? Ce cours introductive donnera un encadrement théorique à la semaine de cours. 

XML – Elina Leblanc

L’objectif de ce cours est d’acquérir les fondamentaux du langage XML, indispensables pour travailler par la suite en TEI et en HTML. Ce cours sera construit autour d’une série d’exercices afin de manipuler la syntaxe XML, mais également pour découvrir et maîtriser le logiciel Oxygen XML Editor.

Cours en français.

TEI (base) – Elina Leblanc

Découverte du langage TEI et de ses fondamentaux à travers l’encodage d’extraits de textes en prose. Ce cours s’inscrit dans la continuité du cours sur le langage XML et propose une application concrète des règles qui y auront été vues.

Cours en français.

Introduction au traitement des images – Peter Stokes

Ce cours offrira une introduction aux images numériques et au traitement d'images pour des personnes travaillant avec des livres imprimés et des manuscrits. Lorsque nous travaillons aujourd'hui avec des livres, des manuscrits et des documents, il est presque inévitable que des images numériques soient impliquées : que ce soit pour une analyse personnelle, pour préparer une transcription, ou pour une publication en tant qu'édition numérique ou pour d'autres objectifs. Afin de tirer le maximum de ces images, il est important de comprendre ce qu'elles sont et la manière dont elles sont reliées à l'objet d'origine. Dans ce cours, nous discuterons ainsi de sujets tels que la résolution spatiale et colorimétrique; la calibration des couleurs; le mode RVB; l'évaluation de la qualité des images numériques; ainsi que quelques techniques de base pour l'amélioration et l'analyse des images.

Cours en français.

Mardi 27/06

TEI Modélisation –Elena Pierazzo 

La modélisation est une activité qui aide à établir de façon formelle et gérable par un logiciel une problématique liée à un projet de recherche. Le cours guidera les participants à la sélection  des balises TEI plus appropriées pour son propre projet de recherche à travers le logiciel Roma.

Cours en français.

HTML et CSS – Laura Antonietti  

L'objectif du cours est de fournir aux étudiants les bases théoriques et pratiques des langages HTML et CSS : après une brève introduction théorique, seront proposés différents exercices à partir desquels les participants apprendront à créer, au niveau de la structure et du style, de simples pages web.

Cours en français.

Mercredi 28/06

TEI Transcription et édition – Elena Pierazzo !!COMPLET!!

Le cours vise à donner une introduction solide à la transcription des sources primaires (manuscripts, imprimés, documents divers) en TEI. Du niveau de la transcription, on passera au niveau de l'édition grâce aux balises de normalisation et régularisation éditoriale et à celles visées pour la création des apparats critiques.

Cours en français ou italien (selon requête des participants).

EPIDOC - TEI pour l'epigraphie et les inscriptions – Emmanuelle Morlock

L'atelier EpiDoc proposé dans le cadre de cette école est divisé en deux demi-journées. La première demi-journée présentera les principaux concepts et balises de la TEI utilisées pour transposer dans l'univers numérique les approches traditionnelles épigraphiques pour la transcription, l'analyse, la description et la classification des inscriptions. La seconde demi-journée introduira les autres éléments constitutifs de la "méthode EpiDoc" orientés vers la publication web, l'interopérabilité et l'échange communautaire autour des pratiques.

Cours en français.

Linked Open Data avec Recogito - Valeria Vitale

Ce cours présentera Recogito, un outil en ligne développé par Pelagios Commons, pour identifier et annoter les entités nommées des documents historiques et, en particulier, de permettre le géotagging et la géorésolution des références de lieux via le Linked Open Data. Les participants suivront étape par étape la création d'annotations sémantiques : depuis le choix des sources à l'utilisation de la reconnaisance automatiques; depuis la désambiguisation des annotations aux différentes options de visualisation des données. Les étudiants annoteront, avec une interface simple, des textes aussi bien que des images et des données tabulaires, à la fois seul et en collaboration simultanée. Les annotations seront ensuite exportées en plusieurs formats standards, incluant CSV, RDF XML, TEI XML et GeoJason, potentiellement prêts à des analyses plus approfondis.

Cours en italien.

SIG – Andreas Nijenhuis-Bescher et Julien Caranton

Des données à la carte - Les SIG au service de la recherche

Le cours « des archives à la carte » vise à montrer le cheminement de la recherche à sa visualisation. La cartographie peut traduire les données recueillies dans la masse documentaire des archives, des bases de données ou de la littérature, en représentation spatiale.

Ce cours retrace les étapes de la recherche scientifique à l’établissement de la carte, en passant par un Système d’Informations Géographiques (SIG).

Fondé sur un exemple concret, le module montre les étapes de la construction d’une base de données et sa visualisation.

Cours en français.

Jeudi 29/06

TAL – Hervé Blanchon, Laurent Besacier et Gilles Sérasset

Session 1 : Introduction au traitement automatique des langues naturelles (Hervé Blanchon)

Dans la première partie, je dresserai un panorama des applications du traitement automatique des langues naturelles (l'analyse, la génération, la traduction, la recherche d'information, la fouille de texte, alignement, ...) les problèmes rencontrés (ambiguïté, incomplétude, ...), les différentes approches (expertes, empiriques).

Session 2 : Machine Translation and Analysis (Hervé Blanchon)

Dans la seconde partie, je parlerai plus en détail de la traduction automatique et de l'analyse de texte en présentant les méthodes et outils et les applications possibles. Au cours de l'exposé, j'essayerai de présenter, et pointer vers, des outils disponibles pour la communauté scientifique.

Session 3 : Ressources Lexicales (Didier Schwab)

Dans ce cours, nous aborderons tout un ensemble de ressources lexicales mono et multilingues avec lesquelles nous travaillons dans nos recherches. Nous aborderons leurs caractéristiques, leur mode de construction et leur exploitation pour différentes tâches du traitement automatique des langues naturelles. Nous verrons en particulier : WordNet, BabelNet, DBNary, les représentations continues (Word2vec, Glove, vecteurs de Baroni,…).

Session 4 : Équiper les langues peu dotées et documenter les langues en danger : deux défis différents pour le traitement automatique de la parole (Laurent Besacier)

Dans ce séminaire, je commencerai par définir deux concepts différents: langues peu dotées et langues en danger. Les langues peu dotées présentent un enjeu sociétal et économique important: il s’agit de doter ces langues d’outils et de ressources pour la traitement automatique du langage naturel. Je présenterai quelques contributions du LIG sur ce thème dans le domaine du développement de technologies vocales (principalement reconnaissance automatique de la parole). La problématique des langues en danger est différente: il s’agit de documenter et décrire les langues condamnées à disparaitre dans un futur proche ou de contribuer à leur revitalisation quand il est encore temps. Ici, les technologies  (traitement automatique de la parole, applications mobiles) peuvent aider le linguiste de terrain dans son travail de documentation / description. J’illustrerai les travaux conduits au LIG sur ce thème à travers deux projets consacrés à des langues d’Afrique Sub-Saharienne: ALFFA (langues peu dotées) et BULB (langues en danger).

 Cours en français

Lemmatisation et Treebanking (Latin) - Eleonora Litta et Marco Passarotti

Ressources linguistiques et outils TAL appliqués au latin.

Le cours vise à fournir aux participants les compétences de base dans le secteur des ressources linguistiques et des outils d’analyse automatique de la langue latine.

Une courte introduction vous présentera les concepts essentiels et la terminologie spécialisée du secteur et, notamment, les niveaux d’annotation métalinguistique et les différentes typologies de ressources linguistiques. En particulier, les styles d’annotation des corpus annotés au niveau syntactique (‘treebank’) seront décrits. Dans ce cadre, le cours montrera deux types de ressources pour la langue latine : treebank (à dépendances) et lexiques. Un court entraînement dans l’interrogation de treebank avec deux différents langages de query sera envisagé. Pour ce qui concerne les outils de traitement automatique de la langue latine, le fonctionnement d’un analyseur morphologique (Lemlat) et, notamment, d’une récente extension dédiée à la morphologie dérivationnelle seront exposés. Par la suite, le cours traitera les méthodes et les outils (avec évaluations) d’analyse morpho-syntactique et syntactique, en considérant certaines des principales problématiques ouvertes. Enfin, certaines ressources et outils spécifiques seront décrits avec leurs applications d’usage.

Cours en Italien

RDF et Linked data - Fabio Ciotti

Cours de 2 jours

Cet atelier fournira une introduction théorique et une première approche aux nouvelles méthodes et aux nouveaux outils de la représentation sémantique de l'information et à la gestion des connaissances. Une attention particulière sera donnée à leur emploi dans les études littéraires. Le cours incluera:

-Web sémantique: principes, architectures et langages

-RDF: principes, modèle de données et syntaxe

-Ontologies formelles et OWL : exemples d'ontologies pour les sciences humaines et sociales, outil pour l'édition d'ontologies (Protégé)

-XML et TEI comme outils pour l'annotation sémantique

-Méthodes sémantiques et outils pour l'annotation sémantique: Web Annotation Data Model

-Linked data : publier et interroger des bases de connaissances en ligne; éléments de SPARQL

Les aspects théoriques seront accompagnés de sessions pratiques au cours desquelles les participants acquerront des compétences de base. 

Cours en italien

Vendredi 30/06

XSLT – Elena Pierazzo

L’XSLT est le langage plus utilisé pour la conversion des fichier XML en pages web HTML. La formation consistera en une introduction aux modèles de transformation (tempaltes); aux notions de base de xPath ; aux fonctions et opérations avec numéros et séquences de lettres (‘strings’ in English) ; à la programmation conditionnelle ; aux boucles de for-each. 

Cours en français ou italien (selon requête des participants).

Lemmatisation et Treebanking (Grec ancien) - Francesco Mambrini

Le cours porte sur des ressources fondamentales, qu'elles soient publiées ou en développement, pour l'analyse et l'annotation morphosyntaxique du grec ancien. En particulier, nous nous appuierons sur les méthodes, objectifs et résultats de l'Ancient Greek Dependancy Treebank, le corpus annoté le plus complet pour les textes littéraires grecs des époques archaïque et classique. Nous discuterons des résultats d'une première expérience en appliquant des outils du Traitement Automatique des Langues pour des tâches d'annotations comme la lemmatisation, l'analyse morphosyntaxique et l'analyse syntaxique. Dans ce contexte, nous nous concentrerons principalement sur des problèmes ouverts, ainsi que sur les caractéristiques les plus particulières des textes anciens et de la langue grecque, qui affectent les performances des outils du TAL. Enfin, nous discuterons d'une interaction possible entre les treebanks grecs et d'autres ressources numériques (tels que les index, les lexiques et WordNets), qui complètent l'annotation syntaxique avec quelques propriétés sémantiques choisies.


Lunedì 26/06

Introduzione alle Digital Humanities– Elena Pierazzo

Cosa sone le Digital Humanities ? Perché è importante conoscerle ? A cosa servono ? Questo corso introduttivo fronirà il quadro teorico della settimana di corso.

XML - Elina Leblanc

L'obiettivo del corso è acquisire le basi del linguaggio XML, indispensabile per lavorare in seguito in TEI e in HTML. Questo corso sarà costruito su una serie di esercizi, allo scopo di arrivare a maneggiare la sintassi XML, e allo stesso tempo di scoprire e conoscere il programma Oxygen XML Editor.

Corso in francese.

TEI (base) - Elina Leblanc

Scoperta del linguaggio TEI e dei suoi fondamenti attraverso la codifica di estratti di testi in prosa. Questo corso si colloca in stretta continuità rispetto al corso sul linguaggio XML e propone un'applicazione concreta delle regole mostrate in precedenza.

Corso in francese.

Introduzione al trattamento delle immagini – Peter Stokes

Questo corso offrirà une introduzione alle immagini digitali e al trattamento delle immagini per chi lavora con i libri stampati e i manoscritti. Poiché lavoriamo oggi con dei libri, dei manoscritti e dei documenti, è quasi inevitabile che le immagini digitali debbano essere considerate : che sia per una analisi personale, per preparare una trascrizione  o per una pubblicazione di un’edizione digitale o per altri obiettivi. Al fine di ottenere il massimo da tali immagini, è importante capire cosa siano e la maniera nella quale si legano all'oggetto di origine. In questo corso, discuteremo così di soggetti come la risoluzione spaziale e colorimetrica; la calibrazione dei colori; la modalità RVB; la valutazione della qualità delle immagini digitali ; qualche tecnica di base per il miglioramento e l'analisi delle immagini.

Corso in francese.

Martedì 27/06

TEI (Modellizzazione) - Elena Pierazzo

La modellizzazione è una attività che aiuta a stabilire in maniera formale e gestibile per un programma una problematica legata a un progetto di ricerca. Il corso guiderà i partecipanti alla selezione dei markup TEI più appropriati per il proprio progetto di ricerca, attraverso il programma Roma.

Corso in francese.

HTML e CSS – Laura Antonietti

L'obiettivo del corso è fornire agli studenti le basi teoriche e pratiche dei linguaggi HTML e CSS: dopo una breve introduzione teorica, verranno proposti diversi esercizi attraverso i quali i partecipanti impareranno a realizzare, a livello di struttura e di stile, semplici pagine web.

Corso in francese.

Mercoledì 28/06

TEI Transcrizione ed edizione– Elena Pierazzo COMPLETO

Il corso mira a fornire un'introduzione solida alla trascrizione delle fonti primarie (manoscritti, stampe, documenti vari) in TEI. Dal livello di trascrizione, si passerà al livello di edizione, grazie ai markup di normalizzazione e regolarizzazione editoriale, e a quelli dedicati alla creazione di apparati critici.

Corso in francese o in italiano (secondo richiesta dei partecipanti).

EpiDoc - TEI per l'epigrafia e le iscrizioni – Emmanuelle Morlock

Il corso EpiDoc proposto all'interno della scuoal estica è strutturato in due mezze giornate. La prima Mezza giornata presenterà i principali concetti e gli elementi necessari per adattare il formato TEI agli approcci tradizionali dellepigrafia per la trascrizione, l'analisi, la descrizione e la classificazione delle iscrizioni. La seconda mezza giornata introdurra gli altri elementi costitutivi del "metodo EpiDoc" orientati verso la pubblicazione web, linteroperabilità e lo scambio comunitario delle pratiche editoriali e scientifiche. 

Corso in francese. 

Linked Open Data con Recogito – Valeria Vitale 

Questo corso introduce Recogito, una piattaforma online sviluppata ta Pelagios Commons, per identificare e annotare named entities in documenti storici e che, in particolare, permette di taggare e risolvere the referenze geografiche in Linked Open Data. Ai partecipanti verrà offerta una dimostrazione passo per passo della creazione di annotazioni semantiche: dalla scelta delle fonti all’uso del riconoscimento automatico; dalla disambiguazione delle annotazione alle diverse opzioni di visualizzazione dei dati.Gli studenti annoteranno, attraverso una semplice interfaccia, testi, immagini e tabelle di dati, sia singolarmente che in sessioni collaborative simultanee. Le annotazioni prodotte verranno poi esportate nei diversi formati standard, inclusi CSV, RDF XML, TEI XML and GeoJason, pronti per essere, potenzialmente, ulteriormente processati.

Corso in italiano

GIS – Andreas Nijenhuis-Bescher et Julien Caranton

Dai dati alla mappa - Il GIS al servizio della ricerca

Il corso “Dagli archivi alla mappa” ambisce a mostrare il percorso della ricerca fino alla sua visualizzazione. La cartografia può tradurre i dati raccolti nella massa documentaria degli archivi, dei database o della letteraura, in una rappresentazione spaziale.

Il corso traccia le tappe della ricerca scientifica verso la definizione della mappa, passando attraverso un Sistema di Informazioni Geografiche (GIS - Geographical Information System)

Basato su un esempio concreto, il modulo mostra le tappe della costruzione di un database e della sua visualizzazione.

Corso in francese.

Giovedì 29/06

TAL - Hervé Blanchon, Laurent Besacier e Gilles Sérasset

 Sessione 1: Introduzione al trattamento automatico delle lingue naturali (Hervé Blanchon)

Nella prima parte verrà presentata una panoramica delle applicazioni del trattamento automatico delle lingue naturali (analisi, generazione, traduzione, ricerca di informazioni, text mining, allineamento, ...), dei problemi incontrati (ambiguità, incompletezza, ...), dei diversi approcci (esperti, empirici).

Sessione 2: Traduzione automatica e analisi (Hervé Blanchon)

 Nella seconda parte verranno affrontate più in dettaglio la traduzione automatica e l'analisi del testo, presentando gli strumenti, i metodi e le possibili applicazioni. Durante la presentazione verranno illustrati gli strumenti a disposizione della comunità scientifica.

 

Sessione 3: Risorse lessicali (Didier Schwab)

In questo corso verranno proposte una serie di risorse lessicali mono e multilingue con le quali il gruppo di lavoro di Didier Schwab svolge le sue ricerche. Saranno presentate le loro caratteristiche, il modo in cui sono costruite e il loro utilizzo all'interno del trattamento automatico delle lingue naturali: verrà fatto riferimento in particolare a WordNet, BabelNet, DBNary, alle rappresentazione continue (Word2vec, Glove, vecteurs de Baroni,…).

 

Sessione 4: Dotare le lingue poco sviluppate e documentare le lingue in pericolo: due diverse sfide per lo Speech Language Engineering (Laurent Besacier)

Questo corso comincerà con la definizione di due concetti differenti: lingue poco sviluppate e lingue in pericolo. 
Le lingue poco sviluppate rappresentano una sfida sociale ed economica importante: si tratta di dotare queste lingue degli strumenti e delle risorse per l'elaborazione del linguaggio naturale. Verrano presentato alcuni contributi del LIG su questo tema, nel dominio dello sviluppo di tecnologie vocali (principalmente il riconoscimento vocale).
Il problema delle lingue in pericolo è diverso: si tratta di documentare e descrivere le lingue condannati a scomparire in un futuro prossimo o di contribuire al loro rilancio, quando questo è ancora possibile. In tal caso le tecnologie (elaborazione automatica, applicazioni mobile) possono aiutare il linguista nel suo lavoro di documentazione / descrizione.
Verranno illustrati i lavoro condotti al LIG su questo tema attraverso due progetti dedicati a lingue africane sub-sahariane: ALFFA (lingua poco sviluppata) e BULB (lingua in pericolo).

Corso in francese.

Lemmatizazione e Treebanking (latino) – Eleonora Litta e Marco Passarotti

Risorse linguistiche e strumenti di TAL del latino

Il corso ha l'obiettivo di fornire ai partecipanti competenze di base nel settore delle risorse linguistiche e degli strumenti di analisi automatica della lingua latina.

Una breve introduzione presenterà i concetti essenziali e la terminologia specialistica del settore, concentrandosi particolarmente sui livelli di annotazione metalinguistica e sulle diverse tipologie di risorse linguistiche. In particolare, verranno descritti nel dettaglio gli stili di annotazione dei corpora annotati a livello sintattico ('treebank').
Quindi, il corso descriverà due tipi di risorse per la lingua latina: treebank (a dipendenze) e lessici. Si prevede una breve esercitazione pratica d'interrogazione di treebank con due diversi linguaggi di query.
Dal punto di vista degli strumenti di trattamento automatico della lingua latina, verrà spiegato il funzionamento di un analizzatore morfologico (Lemlat) e, in particolare, di una sua recente estensione dedicata alla morfologia derivazionale. Successivamente, saranno presentati metodi e strumenti (con relativa valutazione) di analisi morfosintattica e sintattica, discutendone alcuni dei principali problemi aperti.
Infine, saranno descritte delle applicazioni d'uso di risorse e strumenti a specifici casi di studio.

Corso in Italiano

RDF and Linked data - Fabio Ciotti

Corso di due giorni

Questo modulo intende fornire una introduzione teorica e un primo approccio operativo ai nuovi metodi e strumenti di rappresentazione semantica dell’informazione e di gestione della conoscenza. Particolare attenzione sarà dedicata alle loro applicazioni nel dominio degli studi testuali. I temi trattati sono i seguenti:
- Il Web semantico: principi, architetture e linguaggi
- RDF: principi, data model e sintassi
- Le ontologie formali e OWL; esempi di ontologie per le scienze umane; uno strumento di editing per ontologie: Protege.
- L’annotazione semantica delle risorse testuali e culturali
- XML e TEI come strumento di annotazione semantica
- Metodi e strumenti semantici per l’annotazione semantica: Web Annotation Data Model,
- Linked data: pubblicare e interrogare le basi di conoscenze nel Web; elementi di SPARQL.
Le lezioni teoriche saranno integrate da sessioni di laboratorio dove i partecipanti acquisiranno competenze operativa di base.

Corso in italiano

Venerdì 30/06 

XSLT – Elena Pierazzo

L’XSLT è il linguaggio più utilizzato per la conversione dei file XML in pagine web HTML. La formazione consisterà in una introduzione ai modelli di trasformazione (tempaltes); alle nozioni di base di xPath, alle funzioni e alle operazioni con dei numeri e con sequenze di lettere (‘strings’ in inglese), alla programmazione condizionale; ai cicli di for-each.

Corso in francese o in italiano (secondo richiesta dei partecipanti).

Lemmatizazione e Treebanking (Greco) - Francesco Mambrini

Il corso verterà sulle principali risorse, già disponibili o in fase di sviluppo, per l'analisi e l'annotazione morfosintattica della lingua greca antica. In particolare, illustreremo i metodi, gli obiettivi e l'attuale status dell'Ancient Greek Dependency Treebank, il più esteso corpus annotato di testi letterari greci dell'età arcaica e classica. Verranno discussi i principali esperimenti in Natural Language Processing del Greco antico per eseguire task quali la lemmatizzazione, l'analisi morfologica e il parsing della sintassi del greco antico. Ci concentreremo sulle più significative caratteristiche dei testi letterari antichi e della lingua greca che influenzano le performances di tali strumenti. Infine, menzioneremo le possibili interazioni tra il treebank e banche dati digitali (lessici, gazetteer, e WordNet) che permettono integrare l'annotazione sintattica con informazioni semantiche sulle parole. 

Personnes connectées : 1