| 
  • If you are citizen of an European Union member nation, you may not use this service unless you are at least 16 years old.

  • Work with all your cloud files (Drive, Dropbox, and Slack and Gmail attachments) and documents (Google Docs, Sheets, and Notion) in one place. Try Dokkio (from the makers of PBworks) for free. Now available on the web, Mac, Windows, and as a Chrome extension!

View
 

Corso di informatica - Formati di testo

Page history last edited by Trapani Marco 12 years, 10 months ago

Discutiamo qui più approfonditamente le varie opzioni disponibili per la rappresentazione e la memorizzazione dei testi.

 

In realtà molti dei formati che commenteremo vanno oltre la mera rappresentazione del testo potendo includere altri elementi quali tabelle, grafici, immagini, formule matematiche.

 

Prima di passare in revisione i principali formati è opportuno discutere il concetto di “formato aperto”. Abbiamo già menzionato gli studi che numerose istituzioni governative hanno commissionato in materia di acquisizione di nuovi strumenti software nelle Amministrazioni Pubbliche. Un aspetto importante di tali studi riguarda le raccomandazioni relative ai formati dei documenti.

 

Nel rapporto della commissione per la Indagine conoscitiva sul software a codice sorgente aperto nella Pubblica Amministrazione emanato dal MIT (Ministero per l'Innovazione e le Tecnologie) si recita (Pag.78):

... si auspica l'emanazione di norme che impongano alle Pubbliche Amministrazioni di rendere i documenti disponibili e memorizzati attraverso uno o più formati dei quali uno, almeno, deve essere obbligatoriamente aperto. Tutto ciò per consentire lo scambio e la conservazione di informazioni elettroniche, sia al proprio interno che con gli interlocutori esterni (Pubbliche Amministrazioni, cittadini imprese).

 

Per capire questa raccomandazione è necessario definire bene il termine aperto riferito ad un formato. In generale una tecnologia si dice aperta quando è resa pubblica ed è documentata esaustivamente. L'aggettivo aperta si contrappone all'aggettivo proprietaria, che indica una tecnologia posseduta in esclusiva da un soggetto (un'azienda per esempio) che ne mantiene segreto il funzionamento e può modificarla a sua discrezione.

 

Per esempio un testo scritto in ASCII è in formato aperto perché lo si può leggere con qualsiasi programma di elaborazione di testi mentre i formati prodotti da molti “word processor” non sono aperti perché , in genere, possono essere letti solo con il programma con cui sono stati prodotti.

 

I criteri che hanno dato origine a questa raccomandazione sono i seguenti

  • la conservazione e la persistenza del proprio patrimonio informativo: questo non deve dipendere dalle sorti di un singolo soggetto depositario dei formati utilizzati;

  • l'interoperabilità con gli interlocutori interni ed esterni: Pubbliche Amministrazioni, cittadini e imprese devono potersi scambiare documenti indipendentemente dai programmi utilizzati per leggerli e manipolarli;

  • la neutralità sulle scelte tecnologiche degli interlocutori interni ed esterni: se io spedisco un documento a qualcuno non lo devo obbligare all'acquisto di uno specifico prodotto per leggerlo;

  • l'indipendenza dai fornitori: essere obbligati ad utilizzare uno specifico prodotto per leggere o manipolare i documenti rende dipendenti da chi vende il prodotto;

  • la salvaguardia degli investimenti: le spese per la produzione ed il mantenimento del patrimonio informativo rappresentano un investimento più duraturo se il patrimonio è durevole nel tempo ed indipendente da fattori esterni.

 

Prima di descrivere i formati più comuni è opportuno fare un'osservazione sulla terminologia: in molti casi al posto del termine formato vengono impiegati i termini linguaggio o standard. Per esempio si possono incontrare indifferentemente le espressioni formato HTML, linguaggio HTML o standard HTML.

 

L'uso di una o l'altra espressione dipende dal contesto e da quale aspetto si vuole enfatizzare. Si può dire che HTML è un formato perché definisce la “forma” nelle quali l'informazione può essere codificata; è anche un linguaggio perché è costituito da un insieme di regole che “esprimono” come l'informazione debba essere codificata (rappresentata in un browser nel caso di HTML); è anche uno standard perché rappresenta un insieme di convenzioni alle quali la comunità ha deciso di aderire.

Vediamo ora i formati più comuni.

 

Formato testo (pippo.txt)

 

Formato Word (pippo.doc)

 

Formato RTF (pippo.rtf)

 

Formato HTML (pippo.html)

 

Formato XML (pippo.xml)

 

Abiword (pippo.abw)

 

OpenOffice (Versioni 2.x: pippo.odt - Precedenti versioni 1.x: pippo.sxw)

 

Postscript e Portable Document Format

 

Prima di discutere questo particolare tipo di formati, riflettiamo un attimo su cosa accade quando si visualizza un documento. Prendiamo come esempio un testo scritto semplicemente in caratteri ASCII senza nessuna particolare formattazione. Dovremmo avere ormai ben chiaro cosa c'è nel file contenente il testo. Sappiamo per esempio che in un file nel quale abbiamo scritto il testo "pippo" in ASCII (che chiamiamo nel seguito pippo.txt), troviamo cinque byte ognuno dei quali contenente il codice ASCII corrispondente ad uno dei cinque caratteri della parola “pippo”. Ciò che noi vediamo nel terminale è tuttavia tutta un'altra cosa: vediamo un'immagine nella quale sono rappresentati i cinque caratteri che formano la parola “pippo”. Dal punto di vista logico sono la stessa cosa perché ad ambedue gli oggetti, il file ASCII e l'immagine sul monitor, noi associamo il concetto “pippo” ma le due cose sono ben diverse. Discuteremo in maggior dettaglio l'immagine digitale nella sezione Codifica segnali ma anticipiamo qui ciò che ci serve. Le immagini digitali sono rappresentate immaginando di suddividere la superficie che occupano in una scacchiera di quadratini, detti pixel (PIcture ELements), ognuno dei quali colorato con un singolo colore. Quando, come spesso accade, i pixel sono molto piccoli si usa anche la parola dot. Se il vostro sistema è impostato per esempio con una risoluzione di 1024x768 pixel (una cosa che, se usate Windows, potete verificare in “Pannello di controllo”, “Schermo”, “Impostazioni” ), questo significa che l'intera superficie del monitor è suddivisa in pixel con 1024 pixel sul lato orizzontale e 768 su quello verticale. Naturalmente sono molto piccoli; se considerate che uno schermo da 15 “ ha i lati di 305 e 230 mm, vedete che (1024/305 o 768/230) ogni pixel è un quadratino di lato uguale a 0.30 mm. Ogni finestra che aprite conterrà un rettangolo contenente un certo numero di questi pixel. Quando guardiamo ciò che ci offre per esempio il programma “Blocco note” dopo avere aperto il file pippo.txt, vediamo un rettangolo tutto bianco eccetto che per la presenza dei cinque caratteri tipografici “p”, “i”, “p”, “p”, e “o” nell'angolo in alto a sinistra. Quella che stiamo vedendo è un'immagine composta di pixel tutti bianchi eccetto che per alcuni pixel in alto a sinistra colorati di nero dove sono collocate le lettere. È quindi evidente che il programma “Blocco note” è in realtà una sorta di generatore di immagini costruite a partire da file contenenti caratteri ASCII. Qualsiasi programma di elaborazione di testi ha quindi la stessa capacità di generare immagini. In realtà programmi più complessi come Word od altri word processor sono in grado di inglobare anche altri oggetti nel testo, quali grafici, tabelle, fotografie e via dicendo (si dice usualmente che il programma può importare altri tipi di oggetti). Anche in questi casi, il programma genera un'immagine rappresentabile sul monitor, composta a partire da testo ed altre fonti d'informazione.

La precedente descrizione si riferisce alla rappresentazione dei documenti sul monitor ma lo stesso vale per la stampa dei medesimi. Anche nel caso della stampa deve essere prodotta un'immagine del documento suddivisa in un appropriato numero di pixel. È evidente tuttavia che l'immagine prodotta per essere rappresentata su un monitor non potrà essere uguale all'immagine dello stesso documento adatta ad essere stampata. Quasi certamente i due sistemi avranno un diverso numero di pixel ma anche la rappresentazione del singolo pixel sarà diversa. Si pensi per esempio al caso in cui dobbiamo stampare un'immagine a colori su di una stampante in bianco e nero: certamente il computer rappresenterà internamente i pixel nei due casi in modo diverso. Addirittura anche cambiando stampante il software di rappresentazione dovrà tenere conto delle caratteristiche diverse della nuova stampante. Questo spiega perché per usare una nuova stampante si deve installare il “driver” della nuova periferica, un programma utilizzato da tutte le varie applicazioni per produrre immagini valide per essere stampate con quella certa stampante. Se avete più stampanti collegate al vostro computer (questo succede facilmente nei luoghi di lavoro, dove più stampanti sono collegate in rete), quando attivate la voce “Stampa” in un programma qualsiasi, si apre una finestra di dialogo la quale, fra le altre cose, vi consente di scegliere il tipo di stampante fra tutte quelle disponibili. A seconda della stampante che sceglierete il programma produrrà l'uscita appropriata. Un altro tipo possibile di uscita rispetto a quella standard sul monitor o su una stampante è quella relativa ad un fax. Se avete un modem con capacità di fax (la norma oggi) installato sul vostro computer, probabilmente fra i possibili congegni di stampa vi sarà anche il fax. Infatti il sistema di trasmissione dei fax si basa sull'invio di informazione grafica opportunamente codificata. Tanto per chiarire le idee, vi è una sostanziale differenza fra inviare lo stesso testo sotto forma di posta elettronica o sotto forma di fax: nel primo caso viaggiano giusto i byte contenenti i caratteri ASCII di cui è composto il testo, nel secondo caso il testo, opportunamente impaginato dal programma di word processing, viene tradotto in un'immagine grafica e così inviato.

Tutto quanto abbiamo detto spiega il seguente inconveniente che può capitare a tutti. Con un word processor (OpenOffice, Word e via dicendo) si scrive un bel documento, magari farcito con formule matematiche, grafici, tabelle, immagini prese dalla rete o da uno scanner e tutto quello che volete. Lo preparate sul vostro sistema di casa e perdete un bel po' di tempo a curare l'impaginazione e la collocazione che più vi piace dei vari elementi del documento. Stampate a casa e controllate: avete lavorato molto ma il risultato è buono. Siete soddisfatti! Vi viene in mente che potreste fare ancora meglio stampando il documento sulla stampante di un amico (o in ufficio o da qualche altra parte) che è molto meglio. La cosa vi sembra possibile perché l'amico ha un computer simile e lo stesso word processor. Giusto ma ... sorpresa: quando caricate il vostro file con il programma sul nuovo computer, le cose non sono più dove dovevano essere. L'accurata sistemazione alla quale avevate lavorato così tanto è andata a pallino! Perché? Possono esserci varie cause, in generale imputabili alla diversa configurazione del programma con cui state lavorando. Una di queste, forse la più frequente, è che il programma di word processing risente del tipo di output grafico per il quale è configurato.

 

Importante: Da qui prima di tutto un'indicazione pratica importante: Quando preparate un documento, dedicatevi all'organizzazione grafica solamente alla fine del lavoro di composizione e fatelo sul sistema del quale intendete servirvi per stampare la versione finale.

In secondo luogo, esistono sistemi per evitare questo fastidioso inconveniente? Ebbene la risposta è sì: con i formati PostScript o PDF.

 

 

Postscript (pippo.ps)

 

Portable Document Format: PDF (pippo.pdf)

 

 

 

Comments (0)

You don't have permission to comment on this page.