|
For this purpose the digitised pages are processed with a software for automatic text conversion (OCR – Optical Character Recognition) and article segmentation (OLR – Optical Layout Recognition) allowing full-text search in digitised newspapers as well as the detection of a specific keyword in a certain position within a text, for example in a headline or a lead.
|
|
Die Tagespresse ist eine bedeutsame Informationsquelle – nicht nur in Form der aktuellen Berichterstattung über lokale Chronik und Politik oder das Weltgeschehen, sondern auch als Zeugnis vergangener Tage, wodurch sie zu einer wertvollen Forschungsgrundlage etwa für geschichtliche, sozialwissenschaftliche oder linguistische Studien wird. Um den Zugang zu historischen Zeitungen zu vereinfachen und zugleich das von der Zersetzung bedrohte Papiermaterial zu schonen, haben zahlreiche Bibliotheken und andere Einrichtungen in den letzten Jahren damit begonnen, große Zeitungsbestände einzuscannen und ihren BenutzerInnen in digitaler Form zur Verfügung zu stellen. So hat auch die Landesbibliothek Teßmann zwischen 2006 und 2011 etwa 1,5 Millionen Zeitungsseiten digitalisiert, die sie seit 2010 über das eigene Portal „Teßmann digital“ bereitstellt. Über 40 Zeitungen und Zeitschriften aus dem Raum des historischen Tirols werden den BenutzerInnen über dieses Portal präsentiert und können bequem über eine Titelliste oder über die Kalendernavigation angesteuert werden. Da diese Digitalisate derzeit nur als Bilddateien vorhanden sind, können die Zeitungstexte nicht automatisiert nach Stichworten durchsucht werden, sondern müssen – genau so wie ihre Originale in Papierform – einzeln durchgesehen werden. Dies soll sich allerdings durch die Beteiligung der Landesbibliothek am EU-Projekt „Europeana Newspapers“ ändern, das sich zur Aufgabe gemacht hat, die gezielte Recherche in digitalisierten Zeitungsbeständen zu ermöglichen. Dazu werden die digitalisierten Seiten unter anderem mit einer Software für automatisierte Texterkennung (OCR – Optical Character Recognition) und für Artikelsegmentierung (OLR – Optical Layout Recognition) bearbeitet, wodurch die digitalisierten Zeitungen einerseits volltextdurchsuchbar werden und andererseits auch die gewünschte Position eines Stichworts im Text angegeben werden kann, indem man etwa nur jene Treffer anzeigen lässt, in denen sich das gesuchte Wort in der Schlagzeile oder im Vorspann eines Zeitungsartikels befindet.
|
|
La stampa quotidiana è un’importante fonte d’informazioni, non solo come mezzo di comunicazione della cronaca e la politica locale o le attualità mondiali ma anche come resoconto di giorni passati, rendendola una base di ricerca di alto valore per esempio per indagini storiche, sociali o linguistiche. Per facilitare l’accesso ai giornali storici e per proteggere la carta dalla decomposizione, negli ultimi anni numerose biblioteche e altre istituzioni hanno cominciato a scannerizzare vasti patrimoni di giornali e a metterli a disposizione dei loro utenti in forma digitale. Così anche la Biblioteca Provinciale Teßmann ha digitalizzato oltre 1,5 milioni di pagine di giornali fra il 2006 e il 2011 e le ha reso accessibili tramite il portale „Teßmann digital“. Più di 40 giornali e periodici dell’area del Tirolo storico vengono presentati agli utenti e possono essere selezionati facilmente dalla lista dei titoli disponibili o tramite la navigazione calendario. Dato che attualmente le versioni digitali esistono soltanto come file immagine non è possibile cercare una parola chiave nei testi dei giornali automaticamente e i clienti devono proseguire in modo tradizionale sfogliando pagina per pagina. Questo però cambierà grazie alla partecipazione della Biblioteca Provinciale Teßmann al progetto dell’UE „Europeana Newspapers“ che ha lo scopo di rendere possibile la ricerca specifica nei patrimoni digitalizzati di giornali. Le pagine digitalizzate tra l’altro verranno elaborate con software per il riconoscimento automatico del testo (OCR – Optical Character Recognition) e il riconoscimento di strutture testuali (OLR – Optical Layout Recognition) che consentirà la ricerca a testo integrale sui giornali digitalizzati nonché la ricerca specifica di una parola chiave in una certa posizione del testo, come per esempio nel titolo o nel cappello.
|