dimarts, 23 de març de 2010

Segon tema de l'assignatura "Gestió Electrònica de Documents Multimèdia, (GEDM)": Text.

Us deixo aquí la presentació que vaig acabar el dijous 11/03/10 del segon tema de l'assignatura: Gestió Electrònica de Documents Multimèdia (GEDM): Text.

Aquest va ser el primer tema en què ens vam endinsar en un determinat tipus de formats, els relacionats amb la informació textual.

L'índex d'aquest tema fou:
  • Introducció al format textual.
  • Formats de text sense informació de presentació.
  • Formats de text amb informació de presentació.
  • Llibres electrònics.
  • OCR.

Introducció al format textual.

El format text és aquell que conté informació textual: lletres, números, símbols, etc.

De tots els principals tipus de formats (text, imatge, so, vídeo i animació) el format text és el més "senzill".

A més, no té pèrdua d'informació (com és habitual en la resta de formats, especialment, la imatge, el so i el vídeo).

Generalment té un pes molt baix. De fet, aquest és el motiu pel qual no li cal perdre informació.

Però tot i aquest senzillesa, depèn de la codificació emprada per representar internament les lletres, números, etc.

A més, a aquest format textual li podem posar informació per indicar com es representarà gràficament el text, això provoca que no sigui tan "senzill".


Formats de text sense informació de presentació.

Format de text pla:
És aquell format que no permet que s'indiqui cap informació de com s'ha de representar gràficament el text, només conté la "informació real".
Aquests formats de text pla s'han de codificar d'alguna manera. Usualment nosaltres utilitzem les codificacions:
  • ASCII.
  • ISO-8859-1.
  • Unicode.
  • Etc.
El codi ASCII es va crear en la dècada dels anys 60 del segle passat per facilitar la transmissió electrònica de dades.

El que fa és codificar cada caràcter amb un número, després aquest número es passa a binari i això ja permet la transmissió de la informació digitalment.

(feu click a la imatge per veure-la més gran)

El problema del codi ASCII és que només permet la codificació de 128 caràcters: tots els de l'idioma anglès, símbols i caràcters de control (salts de línia, final de text, etc).

Però al ser la primera codificació, el codi ASCII és igual per tothom, és la seva gran virtut.

Posteriorment va aparèixer el codi ASCII estès que permetia codificar el doble de caràcters (256) on els 128 primers són exactament el codi ASCII original. El problema de l'ASCII estès és que ja no és igual per tothom, això provoca que la informació codificada amb ASCII estès no és 100% compatible en tots els sistemes.

Una altra codificació és la ISO-8859-1 (també coneguda com ISO Latin-1) que no és res més que un codificació de l'ASCII estès pensada per la majoria de llengües d'Europa (especialment les llatines).

Unicode intenta ser una codificació universal per a la immensa majoria de llengües del món, (codifica 50.000 caràcters diferents).

Com a curiositat, comentar que hi ha gent que es dedica a "fer art" mitjançant els caràcters ASCII:

(feu click a la imatge per veure-la més gran)

L'HTML original també es pot classificar com un format de text pla en el sentit que no indicava com s'havia de mostrar la informació, era el propi navegador que decidia com fer-ho, (per tant, una mateixa pàgina web es podia mostrar diferent en funció de quin navegador s'utilitzava).

El que sí que proporcionava l'HTML original era estructura al document: títols, subtítols, etc.

De fet, l'HTML no és res més que una DTD de l'SGML, és a dir, no és res més que una definició de tipus de documents (DTD) del llenguatge SGML.

Podríem definir l'SGML com un llenguatge per crear altres llenguatges, com per exemple l'HTML.

En canvi, l'XML no és un llenguatge creat a partir d'una DTD de l'SGML, és un subconjunt de l'SGML (que pot tenir les seves pròpies DTDs).

Originalment l'HTML no contenia informacio relacionada amb com s'havia de mostrar la informació en pantalla, després es va "corrompre" afegint etiquetes per aquesta finalitat.

Però des de ja fa uns anys, s'intenta tornar a la idea original, deixant tota la informació sobre com s'ha de mostrar el contingut en mans dels fitxers CSS.

D'aquesta manera, deixant la "informació real" en mans de l'HTML i la "informació de presentació" en mans del CSS aconseguim (entre d'altres avantatges):
  • Millorar l'accessibilitat web.
  • Millorar la indexació del contingut, (per exemple, per part dels buscadors).
  • Poder tenir vàries presentacions d'un mateix contingut, (per exemple, per mostrar la mateixa informació des de diferents tipus de dispositius: PCs, mòbils, etc).

Formats de text amb informació de presentació.

És evident que treballar amb formats de text tenint la informació de presentació a banda no és gaire còmode, especialment per aquelles persones que no són tècniques.

Si es volia que la informàtica s'extengués a la majoria de la població calia fer un nou enfoc.

Així doncs, els fabricants de software es van esforçar en oferir aplicacions que integréssin la informació de presentació de la informació conjuntament amb l'esmentada informació.

És a dir, que a mesura que s'edités un document ja es vegés (més o menys) com es presentaria aquest document (juntant els dos tipus d'informació: dades reals + presentació).

Així va aparèixer la filosofia: WYSIWYG.

WYSIWYG és l'acrònim de "What You See Is What You Get" (el que veus és el que obtens).

De fet, en les aplicacions WYSIWYG ja no parlem d'editors de text sinó de processadors de text, la diferència és subtil però important.

Aplicacions com WordStar, WordPerfect, Ami Pro, etc van ser molt conegudes en els anys 80, principis dels 90... fins que va arribar el Word, autèntic estàndard de facto dels processadors de text (amb el format .doc).

En part, gràcies a la filosofia WYSIWYG s'ha aconseguit introduir l'ús d'ordinadors en molts àmbits de la societat, s'ha simplificat la creació de documents electrònics amb l'ús d'aquestes eines.

Una altra filosofia és la WYSIWYM.

WYSIWYM és l'acrònim de "What You See Is What You Mean" (el que veus és el que vols dir).

En aquest cas, indiquem la semàntica del que estem editant. Per exemple, indiquem que estem editant un títol, un paràgraf, etc.

Serà el processador de textos qui decidirà com mostrar aquesta informació semàntica.

D'aquesta manera aconseguim separar el contingut de la presentació, (és una idea semblant a la de l'HTML i el CSS).

Un exemple d'aquest tipus de processadors és el LyX (que processa fitxers de LaTeX).

(feu click a la imatge per veure-la més gran)

Per tant, tenim fitxers sense presentació (editors de text) o fitxers amb presentació (processadors de text) especificant directament aquesta presentació o la semàntica.

Una altra manera de classificar els formats de documents és en funció de la seva portabilitat entre diferents sistemes.

En aquest àmbit l'autèntic estàndard és el PDF (Portable Document Format) creat per Adobe Systems.

PDF té 3 característiques importants: Portabilitat, Edició Controlada i Compressió.

Un document PDF es pot veure en (pràcticament) a qualsevol sistema operatiu i en la majoria de dispositius (PCs, PDAs, mòbils, etc).

És la seva gran virtut. Un document PDF és portable pel fet que la seva codificació no depèn del sistema operatiu on s'ha generat (això és habitual en la majoria de formats de documents).

A més, Adobe ha creat lectors (gratuïts) per (pràcticament) qualsevol sistema operatiu de la majoria de dispositius fent que els fabricants ja incloguin d'origen els lectors PDF en els seus sistemes operatius.

El format PDF prové del PostScript, un llenguatge per descriure les pàgines. L'objectiu del PostScript és representar el text (amb imatges si en té) de la mateixa manera per pantalla que de forma impresa (en impressora làser).

[De fet, va ser arran de la creació del llenguatge PostScript que es va fundar l'empresa Adobe Systems.]

Aquest és un llenguatge força críptic per a ser utilitzat per les persones directament... però no per les impressores. Gràcies al PostScript es va assolir que es veiés el mateix per pantalla que per impressora, un fet que ara no li donem importància...


Llibres electrònics.

El quart apartat d'aquest tema fou els llibres electrònics.

Segons la Viquipèdia, un "Llibre electrònic o llibre digital (en anglès electronic book o, col·loquialment, eBook) és la versió electrònica o digital d'un llibre en format paper".

És a dir, un llibre electrònic no és res més que la mateixa informació que un llibre tradicional però en un format digital que li transmet unes característiques especials: per exemple, que la seva distribució tingui un cost pràcticament nul.

Per a més informació sobre què és un llibre electrònic mireu-vos aquest vídeo fet per Vilaweb:



Cal no confondre un llibre electrònic (que és intangible donat que és inmaterial) amb el dispositiu que permet llegir els llibres electrònics. Per desgràcia, i segurament donat que és un producte encara molt recent, la majoria de dispositius només permeten llegir els formats pels quals han estat creats, és a dir, no hi ha un format específic que sigui estandaritzat per a ser usat per tots els dispositius.

També de la Viquipèdia (però en aquest cas de la versió anglesa) hi trobem aquest article sobre els principals formats actuals de tipus de documents de llibres electrònics, (tot seguit en teniu una captura de pantalla):

(Feu click a la imatge per fer-la més gran)

En aquesta taula podem veure diferents formats que actualment s'utilitzen pels llibres electrònics, des dels formats generalistes, com per exemple l'HTML, a formats específics dels llibres electrònics com el .azw d'Amazon.

La primera columna indica si el format permet alguna gestió per controlar els drets d'autor, es pot veure que tots els formats específics ho tenen, això és lògic si es té en compte que aquest tema va ser inicialment el gran fre a la proliferació del llibre electrònic).

La segona columna indica si el format permet incloure imatges.

La tercera columna indica si el format es repagina automàticament si ampliem/reduïm el tamany del lector.

La quarta columna indica si el format és propietari o si és obert per tothom.

La cinquena columna indica si el format permet a l'usuari fer anotacions al marge (és a dir, "guixar" el llibre) i després poder gestionar aquestes anotacions.

I la darrera columna indica si el format permet guardar el punt de llibre per saber fins a on ha llegit cadascú.

Una altre tipus de dispositiu és (o serà) l'iPad d'Apple que està a punt de sortir al mercat.

Sembla que pot ser un dispositiu pensat per a ser utilitzat per llegir... ja veurem exactament què pot llegir i com...


OCR.

Per acabar aquest tema relacionat amb el format text, convé parlar de l'OCR.

L'OCR és l'acrònim d'Optical Character Recognition.

L'OCR són un conjunt de tècniques que ens permeten passar la informació textua que està guardada com una imatge a ser guardats efectivament com a text, això ens permetrà posteriorment poder treballar amb aquesta informació.

L'OCR es fa servir molt per poder introduir en bases de dades la informació que es va crear prèviament a la digitalització de la societat. Per exemple, en els casos de documents antics que requereixen un posterior estudi.

El procés és senzill:
  • Es fa un escànner del document original.
  • De la imatge obtinguda de l'escànner se li aplica un software d'OCR per extreure la informació textual.
  • Es retoca manualment el resultat obtingut del software d'OCR.
  • S'introdueix el resultat en una base de dades o en qualsevol altre software que permeti treballar amb aquesta informació textual.


Presentació d'aquest segon tema:




Enllaços relacionats:

2 comentaris:

un escèptic més... ha dit...

Des de Patrimoni.gencat et volem donar a conèixer el portal i els seus continguts: reportatges, rutes pel cap de setmana, Patrimoni.tv, agenda, notícies, fotos panoràmiques, gigafotos, blogs... El patrimoni català com mai l’has vist.

http://www.patrimoni.gencat.cat

Tenim també un club: el pat.club és la comunitat de persones i entitats que col•labora amb Patrimoni.gencat. Des del pat.club podràs participar a concursos i convertir-te en corresponsal del patrimoni. Apunta-t’hi!

http://www.patrimoni.gencat.cat/patclub

Gràcies!

MarcG ha dit...

Gràcies per la informació (tot i que ja estava bastant al cas dels serveis que oferiu des de Patrimoni.gencat).

Salutacions.