Estructura de Datos : Introducción

Definiciones

Estudio de Algoritmos ( Study of Algorithms )

Las ciencias de la computación son quienes estudian los algoritmos, interesadas en :

Máquinas que ejecutan algoritmos
Lenguajes que describen algoritmos
Fundamentos de los algoritmos
Análisis de los algoritmos
- Tiempo de computación
- Espacio de computación

Un algoritmo es un conjunto finito de instrucciones, el cuál, si se ejecuta, realiza una tarea particular, y debe satisfacer los siguientes criterios :

input : cero o más cantidades, las que son provistas externamente.
output : al menos una cantidad es producida.
ambiguedad : cada instrucción debe ser clara y no ambigua.
finitud : en todos los casos el algoritmo debe terminar, luego de un número finito de etapas.
efectividad : toda instruccion debe ser posible.

Un programa, no es un algoritmo, y puede no cumplir con el criterio de finitud.

Estudio de Datos ( Study of Data )

Las ciencias de la computación son quienes estudian los datos, interesadas en :

Máquinas que almacenan datos
Lenguajes que describen manipulación de datos
Fundamentos de refinamientos de datos, a partir de datos primitivos
Análisis de estructuras para representar datos
- Representación de los datos
- Algoritmos que operan sobre la estructura

Tipo de dato : la clase de datos que una variable puede guardar, por ejemplo, integer

Objeto de dato : un conjunto de elementos, por ejemplo, D = { ..., -3, -2, -1, 0, +1, +2, +3, ... }

Estructura de dato : describe los conjuntos de objetos de datos y como se relacionan, por ejemplo, arreglos

Estructura de Datos ( Data Structures )

Estructura de Datos describe el conjunto de operaciones que legalmente pueden aplicarse a los elementos de datos.

Es es una especificación de como almacenar y recuperar datos, tal que sea :

Facil de aprender
Conveniente de usar
A prueba de idiotas
Completamente genérica
Independiente del lenguaje
Eficiente al ejecutar

Estructura de Datos es una definición funcional donde se especifica las operaciones que estan permitidas. Esta funcionalidad puede ser aclarada a través de axiomas.

Estructura de Datos es una interfase y múltiples implementaciones

Estructura de Datos es una colección de datos que pueden ser caracterizados por su organización y las operaciones que se definen en ella.

Una estructura de datos es un conjunto de dominios D, un dominio designado de D, un conjunto de funciones F y un conjunto de axiomas A, conjunto de axiomas que describen la semántica de las operaciones. Tripleta ( D, F, A ) que denota la estructura de datos d y que usualmente se abrevia escribiendo d.

Especificación ( Specification )

Es la especificación de una estructura de datos.

Son especificaciones concretas, las que establecen la funcionalidad de una estructura de datos.

Implementación ( Implementation )

Es la representación de una estructura de datos.

Son realizaciones concretas, las que pueden diferir de la interfase en mayor o menor grado.

Ejemplo de Estructura de Datos

Supongamos que se desea definir la modesta estructura de datos numero natural, abreviada natno, donde natno = { 0, 1, 2, 3, ... }, y con dos operaciones, la que pregunta por cero y la que adiciona.

structure NATNO

        declare ZERO()                     ----> natno
                ISZERO(natno)              ----> boolean             Conjunto de funciones F
                SUCC(natno)                ----> natno               Conjunto de funciones F
                ADD(natno, natno)          ----> natno               Conjunto de funciones F

        for all x, y perteneciente a natno

        let
                ISZERO(ZERO)             ====> true                  Conjunto de axiomas A
                ISZERO(SUCC(x))          ====> false                 Conjunto de axiomas A
                ADD(ZERO, y)             ====> y                     Conjunto de axiomas A
                ADD(SUCC(x), y)          ====> SUCC(ADD(x, y))       Conjunto de axiomas A
        end

end NATNO

Conjunto de dominios D = { natno, boolean }

Dominio designado de D = natno

Terminos de Estructuras de Datos.

Abstract data type.

Concrete data type.

Specification ----> Que hace.

Implementation ----> Como lo hace.

Implementacion de una Estructura de Datos.

Una implementacion de una estructura de datos d es un mapping de d a otra estructura de datos e.

Ese mapping especifica como cada objeto de d va a ser representado con objetos de e.

Se requiere que cada funcion de d sea escrita usando las funciones de la estructura de datos implementada e.

Por ejemplo :

Los enteros son representados con cadenas de bits.
Los booleanos son representados con cero y uno.
Los arreglos son representados como un conjunto de palabras consecutivas en memoria.

Un lenguaje para la descripción de algoritmos.

Para presentar o describir un algoritmo puede usarse :

Un lenguaje existente.

Un lenguaje especial.

Los argumentos para usar un lenguaje especial para la descripción de algoritmos son :

No verse envuelto con la idiosincracia de un determinado lenguaje existente.
Algunos lenguajes existentes ya proveen los mecanismos que estamos interesados en discutir y analizar.
Cada lenguaje existente tiene sus seguidores y sus detractores, y un lenguaje especial sirve a todos.
No es realmente necesario escribir un algoritmo en un lenguaje existente, obviando los aspectos del lenguaje existente obligados y que no se usan para la escencia del algoritmo que se desea explicar.
El lenguaje especial es cercano a los lenguajes existentes, de tal manera que es facil una traducción a un lenguaje existente.

Los componentes del lenguaje especial para la descripcion de algoritmos son :

Variables
- Variables numericas
- Variables booleanas ( true, false )
- Variables caracteres
Operadores
- Operadores logicos ( and, or, not )
- Operadores relacionales ( <, not<, =<, =, not=, =>, not>, > )
Sentencias
- if condicion
  - then
    - bloque 1
  - else
    - bloque 2
- if condicion
  - then
    - bloque 1
- while condicion
  - do
    - bloque 1
  - end
- repeat
  - until condicion
- loop
  - foreever
- go to label
- exit
- for variable <---- comienzo to terminacion by incremento
  - do
    - bloque 1
  - end
- case
  - end
- procedure NAME ( lista de parámetros )
  - end
- call NAME ( lista de parámetros )
- read ( lista de argumentos )
- print ( lista de argumentos )

La traducción desde este lenguaje especial para la descripción de algoritmos a un lenguaje existente puede ser hecha según lo que muestra la siguiente figura :

                          +----------------+
                          |                |
                     +--->| Pre Procesador |---+
+----------------+   |    |                |   |    +----------------+        +----------------+        +----------------+
|    Lenguaje    |---+    +----------------+   +--->|    Programa    |        |   Compilador   |        |     Codigo     |
|                |                                  |    Lenguaje    |------->|    Lenguaje    |------->|                |
|    Especial    |---+    +----------------+   +--->|    Existente   |        |   Existente    |        |     Maquina    |
+----------------+   |    |   Traducción   |   |    +----------------+        +----------------+        +----------------+
                     +--->|                |---+
                          |    a   Mano    |
                          +----------------+

Nosotros utilizaremos el lenguaje especial enunciado para la descripción de muchos ejemplos de algoritmos del curso, y para otros tantos, utilizaremos el lenguaje existente Java.

Tiempos de Computación de un Algoritmo

Terminologia

Bloque
Los bloques son conjuntos de sentencias que se ejecutan en conjunto y en un tiempo que puede considerarse constante.

n
El parámetro n es el valor que caracteriza las entradas y/o salidas que debe procesar el algorítmo. Puede observarse, que aunque deban procesarse n elementos de entrada o salida, el tiempo de procesamiento, puede no depender de n.

Costo
Entendemos por costo, el tiempo que requiere un bloque para ser procesado. El costo del algoritmo, sera entonces, la sumatoria de los bloques que lo componen, ajustado a las veces que se ejecutan.

g(n)
Funcion en { 1, 2, 3, ... }, que determina el tiempo de ejecución de un algoritmo en función de n.

f(n)
Funcion en { 1, 2, 3, ... }. Si consideramos f(n) = O(g(n)) obtenemos la siguiente definición matemática precisa de f(n). Es f(n) = O(g(n)), sí y solo sí, existen dos constantes c y n0 tal que el valor absoluto de f(n) es menor o igual que c por el valor absoluto de g(n) para todo n >= n0. Así |f(n)| =< c * |g(n)|, para todos los enteros positivos n, excepto un numero finito de ellos.

O(g(n))
Denota el órden de magnitud del tiempo de ejecución de un algoritmo. Es una cota superior que tiene en cuenta los parametros de ejecucion de un algoritmo. Por ejemplo, O(n), denota que el órden de magnitud del tiempo de ejecución de un algoritmo es proporcional a n. La notación O(g(n)) significa que el órden de magnitud del tiempo de ejecución de un algorítmo no tarda más que una constante por g(n), donde n es un parámetro que caracteriza las entradas y/o salidas que debe procesar el algorítmo.

Tiempos de Computación Constantes - O(1) - K * 1

Algoritmo 1
    -----------;
    -----------;
    -----------;         Bloque A         Tiempo Algoritmo 1 = A                                                                        1
    -----------;
    -----------;                                        g(n) = K * 1

Algoritmo 2                                             g(n) = O(1) ( Constante )
    -----------;
    -----------;         Bloque B                                                                                                       1
    -----------;
    if ( ......... )
    {
        -----------;                      Tiempo Algoritmo 2 = B + C + E
        -----------;     Bloque C                                                                                                       1
        -----------;                                    g(n) = K * 1
    }
    else                                                g(n) = O(1) ( Constante )
    {
        -----------;                      Tiempo Algoritmo 2 = B + D + E
        -----------;     Bloque D                                                                                                       1
        -----------;                                    g(n) = K * 1
    }
    -----------;                                        g(n) = O(1) ( Constante )
    -----------;         Bloque E                                                                                                       1
    -----------;

Un ejemplo es el acceso a un elemento de un arreglo de n elementos.

Tiempos de Computación Lineal - O(n) - K * n

Algoritmo 1
    -----------;
    -----------;         Bloque A                                                                                                       1
    -----------;
    while ( ........ )
    {
        -----------;
        -----------;     Bloque B         Tiempo Algoritmo 1 = A + B * n + C                                                            100
        -----------;
    }                                                        = R + S * n =< R * n + S * n = K * n
    -----------;
    -----------;         Bloque C                       g(n) = O(n) ( Lineal )                                                          1
    -----------;

Un ejemplo es la recuperación de todos los elementos de un arreglo de n elementos.

Tiempos de Computación Cuadrático - O(n**2) - K * n**2

Algoritmo 1
    -----------;
    -----------;         Bloque A                                                                                                       1
    -----------;
    while ( ........ )
    {
        -----------;
        -----------;     Bloque B                                                                                                       100
        -----------;
        while ( ........ )
        {
            -----------;
            -----------; Bloque C         Tiempo Algoritmo 1 = A + ( B +  C * n + D ) * n + E                                           10000
            -----------;
        }                                                    = A + B * n + C * n**2 + D * n + E
        -----------;
        -----------;     Bloque D                            = R + S * n + T * n**2 =< R * n**2 + S * n**2 + T * n**2 = K * n**2        100
        -----------;
    }                                                   g(n) = O(n**2) ( Cuadratico )
    -----------;
    -----------;         Bloque E                                                                                                       1
    -----------;

Tiempos de Computación Cúbico - O(n**3) - K * n**3

Algoritmo 1
    -----------;
    -----------;             Bloque A                                                                                                   1
    -----------;
    while ( ........ )
    {
        -----------;
        -----------;         Bloque B                                                                                                   100
        -----------;
        while ( ........ )
        {
            -----------;
            -----------;     Bloque C                                                                                                   10000
            -----------;
            while ( ........ )
            {
                -----------;
                -----------; Bloque D     Tiempo Algoritmo 1 = A + ( B + ( C +  D * n + E ) * n + F ) * n + G                           1000000
                -----------;
            }                                                = A + ( B + C * n + D * n**2 + E * n + F ) * n + G
            -----------;
            -----------;     Bloque E                        = A + B * n + C * n**2 + D * n**3 + E * n**2 + F * n + G                   10000
            -----------;
        }                                                    = R + S * n + T * n**2 + U * n**3
        -----------;
        -----------;         Bloque F                        =< R * n**3 + S * n**3 + T * n**3 + U * n**3 = K * n**3                    100
        -----------;
    }                                                   g(n) = O(n**3) ( Cubico )
    -----------;
    -----------;             Bloque G                                                                                                   1
    -----------;

Tiempos de Computación Exponencial - O(2**n) - K * 2**n

Algoritmo 1
    -----------;
    -----------;         Bloque A                                                                                                       1
    -----------;
    while ( ........ )
    {
        -----------;
        -----------;     Bloque B         Tiempo Algoritmo 1 = A + B * 2**n + C                                                         2**100
        -----------;
    }                                                        = R + S * 2**n =< R * 2**n + S * 2**n = K * 2**n
    -----------;
    -----------;         Bloque C                       g(n) = O(2**n) ( Exponencial )                                                  1
    -----------;

Tiempos de Computación Logarítmico - O(log2 n) - K * log2 n

Algoritmo 1
    -----------;
    -----------;         Bloque A                                                                                                       1
    -----------;
    while ( ........ )
    {
        -----------;
        -----------;     Bloque B         Tiempo Algoritmo 1 = A + B * log n + C                                                        log2 100
        -----------;
    }                                                        = R + S * log2 n =< R * log2 n + S * log2 n = K * log 2 n
    -----------;
    -----------;         Bloque C                       g(n) = O(log2 n) ( Logaritmico )                                                1
    -----------;

Tiempos de Computación Compuesto - O(n log n) - K * n * log2 n

Algoritmo 1
    -----------;
    -----------;         Bloque A                                                                                                       1
    -----------;
    while ( ........ )
    {
        -----------;
        -----------;     Bloque B                                                                                                       100
        -----------;
        while ( ........ )
        {
            -----------;
            -----------; Bloque C         Tiempo Algoritmo 1 = A + ( B +  C * log2 n + D ) * n + E                                      100 * log2 100
            -----------;
        }                                                    = A + B * n + C * n * log2 n + D * n + E
        -----------;
        -----------;     Bloque D                            = R + S * n + T * n * log2 n                                               100
        -----------;
    }                                                        =< R * n * log2 n + S * n * log2 n + T * n * log2 n = K * n * log2 n
    -----------;
    -----------;         Bloque E                       g(n) = O(n * log2 n ) ( Compuesto )                                             1
    -----------;

Comparación de las funciones de tiempo de computación

*-----------------------------------------------------------------------------*
|   log2 n   |     n      |  n log2 n  |    n**2    |    n**3    |    2**n    |
|------------+------------+------------+------------+------------+------------|
|     0      |     1      |     0      |    1       |    1       | 2          |
|     1      |     2      |     2      |    4       |    8       | 4          |
|     2      |     4      |     8      |    16      |    64      | 16         |
|     3      |     8      |     24     |    64      |    512     | 256        |
|     4      |     16     |     64     |    256     |    4096    | 65536      |
|     5      |     32     |     160    |    1024    |    32768   | 2147483648 |
*-----------------------------------------------------------------------------*

Para grandes archivos de datos, algoritmos más complejos que n * log2 n, son a menudo imprácticos.

Selección de un algoritmo

Al analizar dos algoritmos que realizan la misma tarea normalmente se toma como superior el que tenga una O(g(n)) mejor para valores altos de n. Supongamos dos algoritmos, que cumplen con la misma tarea, con las siguiente funciones :

Algoritmo 1 : O(n) - K * n - 10 * n

Algoritmo 2 : O(n**2) - K * n**2 - 0,5 * n**2

*--------------------------------------*
|     n      |   10 * n   |    n**2    |
|------------+------------+------------|
|     1      |     10     |      0,5   |
|     5      |     50     |     12,5   |
|     10     |     100    |     50     |
|     15     |     150    |    112,5   |
|     20     |     200    |    200     |
|     25     |     250    |    312,5   |
|     30     |     300    |    400     |
*--------------------------------------*

Para n < 20 el algoritmo 1 es mejor que el algoritmo 2.
Para n = 20 el algoritmo 1 es igual que el algoritmo 2.
Para n > 20 el algoritmo 2 es mejor que el algoritmo 1.
Para valores de n chicos, las constantes deben determinarse precisamente, ya que dependen del lenguaje y la máquina en que corren, entre muchas otras variables. Quizas, en este caso, hasta haya que medir en la práctica el comportamiento de los algoritmos.

 450 *                             *              /
     |                                           /
     |                                          /
     |                                         /
     |                                        /
 400 *                                       *
     |                                      /
     |                                     /
     |                                    /
     |                                   /
 350 *                                  *
     |                                 /
     |                                /
     |                        *      /
     |                              /
 300 *                             *
     |                            /
     |                           /
     |                          /
     |                         /
 250 *                        *
     |                       /
     |                      /
     |                     /
     |                    /
 200 *                   *
     |                  /
     |                 /
     |                /
     |               /
 150 *              *
     |             /
     |            /
     |           /  *
     |          /
 100 *         *
     |        /
     |       /
     |      /
     |     /
  50 *    *    *
     |   /
     |  /
     | /  *
     |/
-----|----*----*----*----*----*----*----*-------------------------------> n
          5   10   15   20   25   30   35

      <------------------><------------------ .....

          Algortimo 1         Algortimo 2

Espacios de Computación de un Algoritmo

Un algoritmo debe ser analizado en función de :

Tiempo de ejecución del algoritmo

Espacio utilizado en memoria por el algoritmo

El segundo punto es el tema de este curso de Estructuras de Datos. En todos los casos comprometeremos tiempo por espacio o espacio por tiempo.

Bibliografía

Fundamentals of Data Structures

E. Horowitz, S.Sahni

Fundamentos de Programación. Algorítmos y Estructura de Datos.

Luis Joyanes Aguilar.

Estructuras de Datos con C y C++.

Yedidyah Langsam, Moshe J. Augenstein, Aaron M. Tenenbaum.

Data Structures and Program Design in C.

Robert L. Kruse, Bruce P. Leung, Clovis L. Tondo.