Grande dizionario della lingua italiana

Prototipo edizione digitale

Guida alla consultazione del prototipo

Per tutti i volumi sono presenti:

  • Le immagini in formato JPG delle pagine dei volumi
  • I file PDF risultati da una procedura di trascrizione automatica prodotta usando il sistema OCR (Finereader) su cui si è intervenuti unicamente per restituire l’unità alle parole divise da sillabazione nei cambi pagina nel testo di partenza.
Tali materiali possono essere consultati nella "Sala di lettura".

Il testo contenuto nei 21 volumi del Grande dizionario della lingua italiana e nel Supplemento 2004 è stato indicizzato fulltext. L’indicizzazione svolta permette di cercare caratteri, numeri e punteggiatura. Oltre a questo sono state conservate le informazioni riguardanti accenti, maiuscole e minuscole. Attualmente tutte le ricerche sono sensibili alla presenza di accenti, mentre la sensibilità su maiuscole e minuscole non è stata ancora implementata.

Nei paragrafi seguenti vengono brevemente presentate le funzionalità presenti nel sito.

Sala di lettura

La "Sala di lettura" permette di sfogliare i volumi per immagini. Cliccando sul rimando a ciascuno di essi si accede alla ricostruzione dei volumi basata sulla struttura del volume e sulle pagine dell’opera. Le scansioni vengono mostrate in anteprima, affiancate dalla propria struttura. Ogni immagine è poi collegata alla propria trascrizione in formato PDF e al proprio ingrandimento.

I volumi possono essere sfogliati sia a partire dalla loro struttura, sia a partire dai comandi posti sopra all’immagine di anteprima. Si noti che il numero riportato accanto alla scritta “Immagine” indica il numero in sequenza dello scatto nel volume e non il numero di pagina.

Ricerca libera (fulltext)

La ricerca libera consente di ricercare all’interno del contenuto dei 21 volumi del Grande dizionario della lingua italiana e all’interno del Supplemento 2004 . La procedura di ricerca libera restituisce tutti i contesti in cui viene rilevata la presenza di una qualunque delle parole inserite nella maschera di ricerca. La ricerca può essere effettuata inserendo caratteri, numeri e punteggiatura. La ricerca distingue fra caratteri accentati e non accentati; non fa invece distinzione fra maiuscole e minuscole.

Un esempio di ricerca può essere "Assalto scontato". La ricerca viene effettuata legando le due parole con l’operatore logico OR, estendendo cioè la ricerca a quei contesti che presentano almeno una delle forme inserite.
Cercando “assalto scontato” verranno estratti tutti i risultati (contesti) che contengono la forma Assalto o assalto e tutti i contesti che contengono la forma scontato o Scontato.

Ordinamento e raggruppamento dei risultati: i risultati vengono raggruppati per pagina e ordinati prima per volume e successivamente per pagina.

Ricerca in sequenza (fulltext)

La ricerca in sequenza consente di ricercare all’interno del contenuto dei 21 volumi del Grande dizionario della lingua italiana e all’interno del Supplemento 2004 . La procedura di ricerca in sequenza restituisce tutti i contesti in cui viene rilevata la presenza della stringa inserita nella maschera di ricerca, tenendo conto dell’ordine in cui sono state inserite le forme. La stringa può contenere come elementi della sequenza: caratteri, numeri e punteggiatura (punti, virgole, parentesi, trattini…). La ricerca distingue fra caratteri accentati e non accentati; non fa invece distinzione fra maiuscole e minuscole. Ciò significa che la stringa “Già spiegato” porta agli stessi risultati della stringa “già spiegato”.

Ordinamento e raggruppamento dei risultati: i risultati vengono raggruppati per pagina e ordinati prima per volume e poi per pagina

Elenco forme

L’elenco delle forme mostra la lista delle forme indicizzate ordinate secondo il criterio alfabetico. Accanto ad ogni forma viene riportato il conteggio delle occorrenze della stessa nei 21 volumi del Grande dizionario della lingua italiana e all’interno del Supplemento 2004. Cliccando sulla forma viene lanciata la ricerca e vengono mostrate tutte le occorrenze.

Elenco forme per frequenza

L’elenco delle forme per frequenza mostra la lista delle forme indicizzate ordinate secondo il numero delle occorrenze, dalla più frequente alla meno frequente. Accanto ad ogni forma viene riportato il conteggio delle occorrenze della stessa nei 21 volumi del Grande dizionario della lingua italiana e all’interno del Supplemento 2004. Cliccando sulla forma viene lanciata la ricerca e vengono mostrate tutte le occorrenze.

Elenco degli autori citati

La pagina dell’elenco degli autori citati serve per guidare gli utenti nella ricerca di un particolare autore all’interno dell’Indice degli autori citati, in modo da accedere all’elenco delle opere citate e la notazione usata per l’abbreviatura delle opere.

Abbinando questo strumento alla ricerca in sequenza è possibile poi arrivare ai contesti delle citazioni che si desidera individuare. Ad esempio a partire dall’elenco degli autori possiamo arrivare alla pagina contenente le opere di Abba, Giuseppe Cesare. Fra queste possiamo individuare che con il numero 3 è stata identificata l’opera Vecchi versi, Torino, 1912.

Inserendo quindi la sequenza Abba, 3 nella pagina di ricerca in sequenza, si ottiene come risultato le pagine in cui questa opera è stata citata. Questo metodo ovviamente risulta per ora approssimativo a causa degli errori di OCR.

Abbreviazioni

Nella pagina Abbreviazioni viene messo a disposizione dell’utente l’elenco delle abbreviazioni (in ordine alfabetico) riportate nelle prime pagine dell’indice degli autori. Cliccando su un’abbreviazione viene lanciata la ricerca che indica il numero di volte in cui essa compare e permette di risalire ai contesti in cui è usata.

Limiti nell’utilizzo del prototipo

Durante la ricerca va tenuto conto di possibili errori dovuti alla procedura di trascrizione automatica del testo (OCR). Questo può aver introdotto errori casuali o sistematici. Rispetto agli errori di natura sistematica segnaliamo:

  • errore nella trascrizione della punteggiatura, in particolar modo scambio fra il punto e la virgola.
  • errore nella trascrizione dei caratteri, in particolar modo sono frequenti lo scambio della lettera “O” con il numero 0; lo scambio del carattere “l” con il numero 1.
  • presenza della sillabazione a fine riga che ha diviso le parole; la procedura automatica spesso non è in grado di ricomporle (ad esempio: aban- dono). Questo problema ha incidenza anche nel riepilogo contenente i conteggi di frequenza.