Universidad de Costa Rica
Escuela de Ciencias de la
Computación e Informática
Profesor Adolfo Di Mare
CI-1322
II Semestre 2006
[<=] [home] [<>] [\/] [=>]
CI-1322 Autómatas y compiladores

Tarea #1 [solución]

Índice jerárquico de un documento HTML

      La base tecnológica sobre la que está contruida la red Internet incluye el HTML, el ancestro del XML. Usted construirá su programa "htmljw.exe" de forma que tome varios documentos HTML y los analice, letra por letra, para encontrar en ellos 2 tipos de objetos:

  1. Palabras del documento
  2. Encabezados del documento

      Como palabra use las hileras compuestas por letras, incluyendo las que aparecen con tildes o acentos en el alfabeto "Latin 1"; no incluya dentro de la palabra los caracteres especiales, como signos de puntuación o matemáticos: ( "+", "-", "÷", ":", ";" ), etc. Si lo desea, puede considerar como parte de las palabras otras letras de lenguas extranjeras, como las lenguas eslavas o germanas.

      En un documento HTML las etiquetas "<H1>" hasta "<H6>" son colocadas al principio de sección. Por eso HTML permite hasta 6 niveles de anidamiento de los encabezados. Su programa debe extraer los encabezados y grabarlos mostrando ese nivel de anidamiento. Además, su programa debe permitir mostrar opcionalmente la cantidad de palabras que están en los párrafos que siguen a cada encabezado. Al final, después de procesar cada archivo, su programa siempre mostrará la cantidad de palabras de todo el documento. Recuerde no contar como palabras las etiquetas HTML, que son palabras encerradas entre paréntesis angulares como "<TABLE>", "<P>", "<STRONG>", "<FONT>", etc.

      Un requerimiento que usted debe respetar al construir su programa es procesar las letras de cada archivo HTML letra por letra. Puede usar estructuras de datos internas y convenientes como, por ejemplo, las que provee la biblioteca STL de C++, pero no puede acumular renglones y renglones en memoria. Su programa debe ser un algoritmo que trabaja en "tiempo real", pues no puede leer de nuevo, una y otra vez, el archivo HTML en proceso. Evite acumular cantidades enormes de letras en memoria; procese lo que necesita y avance a la siguiente letra.

      Use el lenguaje de programación que quiera. Eso sí, recuerde que: "¡los programadores de verdad usan C++!".

 

Entrega de la tarea

PROJECT_NAME          = "htmljw:"
OUTPUT_LANGUAGE       = Spanish
OUTPUT_DIRECTORY      = .
GENERATE_LATEX        = NO
GENERATE_MAN          = NO
GENERATE_RTF          = NO
CASE_SENSE_NAMES      = YES
INPUT                 = htmljw.cpp Tree.h Biblio.h Biblio.cpp
RECURSIVE             = NO
QUIET                 = YES
JAVADOC_AUTOBRIEF     = YES
EXTRACT_ALL           = YES
EXTRACT_PRIVATE       = YES
EXTRACT_STATIC        = YES
EXTRACT_LOCAL_CLASSES = YES
INLINE_INHERITED_MEMB = YES
SOURCE_BROWSER        = YES
INLINE_SOURCES        = NO
STRIP_CODE_COMMENTS   = NO
REFERENCED_BY_RELATION= NO
REFERENCES_RELATION   = NO
FULL_PATH_NAMES       = NO

SORT_MEMBER_DOCS      = NO
SORT_BRIEF_DOCS       = NO
CLASS_DIAGRAMS        = YES

ENABLE_PREPROCESSING  = YES
MACRO_EXPANSION       = YES
EXPAND_ONLY_PREDEF    = YES
PREDEFINED            = "DOXYGEN_COMMENT" \
                        "_MSC_VER=1300"

#--- TODOS ESTOS SON MENOS COMUNES ---
# DISTRIBUTE_GROUP_DOC = YES
# ENABLE_PREPROCESSING = YES
# EXAMPLE_PATH         = example_test.cpp
# FILE_PATTERNS        = diagrams_*.h
# GENERATE_TAGFILE     = example.tag
# HAVE_DOT             = YES
# PERL_PATH            = perl
# TAGFILES             = example.tag=../../example/html

# Manual ==> http://www.doxygen.org/manual.html

      Luego de imprimir la documentación de su programa, y entregarla en clase, envíe su trabajo por correo electrónico. Para esto, haga un archivo empacado .zip cuyo nombre sea su número de carnet. Incluya en ese archivo lo siguiente:

  1. Un documento en formato HTML que describa el trabajo que realizó. Incluya el nombre del compilador que usó.
  2. La especificación de su programa.
  3. Archivo de configuración Doxygen (los asistentes usrarán este archivo de configuración para generar la documentación de su programa, por lo que sobra que usted incluya esa documentaciónen su archivo .zip).
  4. El código fuente de sus programas (archivos de implementación *.c, *.cpp, *.h, etc.).
  5. Los archivos y datos de prueba para su programa.
  6. Un archivo de enlace Internet, con extensión .url que permita abrir la página Internet en que está la documentación completa de su programa.

      Las cuentas de computador en la ECCI se asignan de acuerdo al número de carnet. Por ejemplo, si su carnet es el número 95-28-09, para entregar su tarea usted debe crear el archivo 952809.zip para enviarlo por correo electrónico. Si varios alumnos participaron en la confección de la tareas, sus carnets deben incluirse en el nombre del archivo .zip: 952809-952810-952811.zip.

      Luego haga en su cuenta personal un subdirectorio llamado public_html, que es bajo el que se instalan todas sus páginas Internet. Por ejemplo, si su solución está en el archivo HTML llamado "OLP/t3sol952809.htm", entonces usted debe instalar esa página en el archivo
      public_html/OLP/t3sol952809.htm
de su cuenta. Luego, para acceder esa página Internet, debe entrar a este sitio:
      http://anubis.ecci.ucr.ac.cr/~e952809/OLP/t3sol952809.htm

[InternetShortcut]
URL=http://anubis.ecci.ucr.ac.cr/~e952809/OLP/t3sol952809.htm
952809.url

      Como todas las cuentas de estudiante son la letra "e" seguida del número de carnet, para el estudiante de carnet "952809" la cuenta es "e952809". Para indicarle al servidor Internet a cuál cuenta entrar se usa el caracter "~" (Alt-126), seguido del nombre de la cuenta: "~e952809". En este caso, el archivo de acceso rápido a su página Internet se llamaría "952809.url".

      Después de la fecha de entrega del programa, puede usted instalar en su cuenta personal su solución (no instale antes su solución en Internet, pues en ese caso sería usted culpable de facilitar la copia de su trabajo, y en consecuencia se haría acreedor a la sanción respectiva).

      Por ejemplo, para entregar su tarea programada, el estudiante 952809 crea su archivo 952809.zip en el que aparece estos archivos:

htmljw.cpp
Programa que produce el índice jerárquico de un documento HTML.
Biblio.cpp
Implementaciones de "Biblio.h".
 
Tree.h
Objeto Árbol genérico.
Biblio.h
Biblioteca personal de funciones.
 
952809.doc
Documentación, escrita con Word (incluye la portada)
952809.htm
Página Internet con toda la documentación
952809.dxg
Archivo de configuración Doxygen.
952809.url
Enlace para abrir la página Internet
 
htmljw.dsp
Archivo para compilar el programa con MSC++ v6.x
htmljw.vcproj
Archivo para compilar el programa con MSC++ .NET

 

Políticas de Corrección de Tareas

  1. La falta de cualquier especificación debe ser castigada fuertemente.
  2. Correcta indentación del código fuente.
  3. Correcto espaciado del código fuente.
  4. Código fuente escrito de manera que se legible y claro.
  5. Uso de indentificadores significativos.

[mailto:] Entrega de Tareas

Tiempo de entrega: 3 días
Entregue su documentación en la primera fecha, y luego entregue el programa completo en la segunda fecha.
Segunda etapa: 7 días
Modalidad: En parejas

Soluciones

[mailto:] Adolfo Di Mare <adolfo@di-mare.com>.
Copyright © 2006
Derechos de autor reservados © 2006
[home] <> [/\]