Para que necesitamos saber o utilizar un intervalo de confianza. Pues en palabras simples necesitamos saber si los dos sistemas que queremos comparar A y B por poner un ejemplo tienen un rendimiento similar. Digamos obtenemos mediante pruebas el rendimiento de ambos sistemas en los programas que nos interese y aplicamos el intervalo de confianza. Para aplicar el intervalo de confianza necesitamos saber que grado de error podemos permitir, lo mas usual es 5% o 1%. En intervalos de confianza se llama alfa:
1. El primer paso consiste en obtener los valores de rendimiento de ambos sistemas en programas que queremos, el resultado seria una tabla de 2 columnas. Despues obtenemos la tercera columna que es la resta de los valores de cada fila.
2. El segundo paso es calcular la media aritmética de la tercera columna y la varianza:
Vamos que calculamos la media y la varianza de las diferencias, es bastante logico ya que necesitamos saber cuanto varia el rendimiento de un sistema a otro.
Después miramos con el tamaño de la muestra que es “n” (por si no lo comente antes) y el error que admitimos que es “alfa” la tabla de la distribución de Student:
Tenemos que buscar este valor:
Ese valor básicamente relaciona el tamaño de la muestra con la precisión deseada, cuando mas pequeña es la muestra mas grande es el intervalo, algo parecido pasa con el valor de “alpha”. Es un valor que se puede calcular mediante una formula, pero casi siempre se utiliza la tabla de arriba…ya que los valores siempre son los mismos y perder el tiempo es tontería…
3. Ahora con los tres datos obtenidos construimos el intervalo de confianza siguiente:
Ahora teniendo el intervalo solo tenemos que mirar si contiene a 0, si lo contiene significa que los dos sistemas son prácticamente similares en rendimiento. Pero si no lo contiene, entonces uno es mejor que otro, pero aquí es un poco mas “difícil”, pero mucho mas lógico. Hay que fijarse como se hizo la diferencia de rendimientos y aplicar un poco la lógica cuando es mejor uno u otro. A veces obtenemos que el rendimiento es similar en ambos sistemas, pero uno cuesta mas que otro…
Conclusion:
Realmente para que se hace todo esto, pues cuando uno no esta muy contento con los benchmark disponibles en el mercado y decide inventarse uno nuevo. Inventa y realiza distintas pruebas sobre dos sistemas, mide tiempos, hace sus propios cálculos y saca sus propias conclusiones.
