Archivo de la etiqueta: Investigación

Trust Metric (Métrica o medida de Confianza)

En la psicología y la sociología, una Trust Metric (Métrica de Confianza) es una medida sobre la confianza que se tiene de un miembro de un grupo por parte de otros que lo conocen. Las Trust Metric pueden ser abstraidas de manera tal que puedan ser implementadas en computadoras. Esto lo hace de interés para el estudio y ingeniería de comunidades virtuales, como Friendster y LiveJournal. El Ataque resistencia (Resistance Attack) es una propiedad importante de las métricas de confianza que reflejan su capacidad de no ser demasiado influenciadas por los agentes que tratan de manipular la confianza y participan de mala fe (es decir, que tienen como objetivo la presunción de abuso de confianza).
Las primeras formas de Trust Metric en fueron usadas en sistemas de comercio electrónico como eBay ‘s la cual es una puntuación por votos cliente-vendedor. Slashdot introdujo su concepto de karma, obtenidos de las actividades para promover la eficacia del grupo, este enfoque es muy influyente en comunidades virtuales para evaluar la confianza entre miembros.
El recurso de desarrollo para software libre Advogato se basa en un nuevo enfoque de los ataques resistentes utilizando la Trust Metric Raph Levien. Levien observó que el algoritmo PageRank (usado por Google) puede ser entendido como una Trust Metric con ataque resistente.
En la figura se muestra un algoritmo de Trust Metric y su aplicación práctica, supongamos que en mi red de infuencia están Alicia (métrica de confianza=0,85) y Beto (metrica de confianza = 0,7). Y desearía saber de antemano poder hacer un negocio con Cacho (que no lo conosco), ahora bien Cacho está en la red de confianza de Alicia (0,1) y Beto (0,95). Entonces una métrica de confianza sería

MC=max{0,85*0,1;0,7*0,95}=0,665

y una métrica de desconfianza sería

MD=1-min{0,85*0,1;0,7*0,95}=0, 915

Como MD > MC puedo tomar la decisión de no hacer negocios con él. Por supesto puedo extender la decisión al terreno de la lógica difusa compensatoria (ver post anteriores) pero ese no es el tema de este post.

Reputation system y Sybil attack

Un Sistema de Reputación es un tipo de algoritmo de filtrado colaborativo que trata de determinar las calificaciones de un conjunto de entidades, en vista de una colección de opiniones que esas entidades tienen unos de otros. Es decir, esto es similar a un sistema de recomendación, pero con el fin de recomendar las entidades entre sí.
Los sistemas de reputación son útiles en las grandes comunidades on line en que unos usuarios tienen con frecuencia la oportunidad de interactuar con otros usuarios con los que no tienen experiencia previa o en comunidades en las que el contenido generado por el usuario es remitido públicamente para ser compartido, por ejemplo, YouTube o Sonico. En estos casos es útil tener una calificación asignada por otros de de un usuario desconocido para tomar la decisión de interactuar o no con él.
Un sistemas de reputación puede estar acompañado de un sistema de incentivos para premiar la buena conducta y castigar la mala conducta. Por ejemplo, a los usuarios con alta reputación se les pueden conceder privilegios especiales, mientras que los usuarios con poca o desconocida reputación tienen privilegios limitados.
Un simple sistema de reputación, empleados por MercadoLibre.com, es un registro calificación (ya sea positivo, negativo o neutro) posterior a que cada par de usuarios realiza una transacción. Es decir, luego de efectuar una transacción cada usuario califica a su interlocutor tanto como cleinte, como vendedor.
Algoritmos más sofisticados permiten evaluar la reputación de entidades. Uno de tales algoritmos es PageRank, esta es una marca registrada y patentada por Google el 9 de enero de 1999 que ampara una familia de algoritmos utilizados para asignar de forma numérica la relevancia de los documentos (o páginas web) indexados por un motor de búsqueda. PageRank ha tomado su modelo del Science Citation Index (SCI) elaborado por Eugene Garfield para el Instituto de información cientifica (ISI) en los Estados Unidos durante la década del 50. El Science Citation Index pretende resolver la asignación objetiva de méritos cientificos suponiendo que los investigadores cuyo factor de impacto (número de publicaciones y/o referencias bibliográficas en otros trabajos cientificos) es más alto colaboran en mayor medida con el desarrollo de su área de investigación. El índice de citación es un elemento determinante para seleccionar que investigadores reciben becas y recursos de investigación. Y han generado un lamentable atraso en los criterios de investigación, pues lo que importa es producir publicaciones y no el conocimiento humano.
Un Ataque Sybil o de Personalidades Múltiples es aquel en la que un atacante subvierte la reputación del sistema mediante la creación de un gran número de entidades seudónimas, y utilizarlos para obtener una influencia desproporcionadamente grande. Cuando en un sistema de reputación este aportaciones de las entidades que no tienen una cadena de confianza vincular y trata a todos las Entidades de la misma manera es fuertemente vulnerable a este tipo de ataque. Es el nombre de este ataque se asocia al libro Sybil, donde se estudio el caso de una mujer con trastorno de personalidad múltiple.

Bit Cumulant, what is this?

Los bit cumulats (BC) o cumulantes binarios, son usados para medir las fluctuaciones en los flujos de bits de distribuciones de probabilidad generadas por sistemas caóticos, informáticos, etc. El más importante de todos es el BC de orden dos, el cual mide la varianza de bits y es equivalente al calor específico de los sistemas termodinámicos. Cabe destacar que E(.) representa a la esperanza matemática. pi, es la distribución de probabilidades del flujo de bits. S es la entropía de Shannon del flujo.

La apatía en comunidades de correo técnicas.

En la figura de la izquierda se puede ver un seguimiento mes a mes, donde el mes 0 es enero y el 11 diciembre, de la participación de una lista de correos técnica de software libre en los años subsiguientes al 2003 (reactivación). Se puede apreciar el efecto supernova. En el cual la lista tuvo una máxima expansión a fines del 2003 en variedad de temas y cantidad de actores. Pero como se ve en la curva en amarillo en 2007 ha mostrado en efecto apatía, propio de la poca renovación de personas. Esto es similar al chiste de los contadores de historias alemanes. Y bueno ya pasó la ola de la novedad. Esta actitud es una transposición de conductas comunes. Por ejemplo esto pasa a los que siguen una dieta para bajar de peso. En el principio hay mucho entusiasmo, si alcanzan la meta, la motivación inicial va perdiendo brillo y de apoco la apatía lleva a la reincidencia. Por más esfuerzo que se haga para cambiar la motivación tarde o temprano el 60% de las personas reinciden. Visto desde el punto de vista de una sociedad, cuando se acaba la ilusión de la novedad en los promotores o hub sociales, si estos no se renuevan la listas va al letargo y la desaparición.

Point-Spread Function.

Cuando uno estudia un sistema de lentes como un filtro donde se procesa información de entrada (Ipf Imagen de Entrada en el plano fuente) para producir una salida filtrada (Ipf Imagen de Salida en el plano objeto) por el sistema de lentes, los libros de textos elementales sobre óptica solo encaran el problema desde el punto de vista de emisor puntual y coherente. Pero que pasaría si el emisor no fuese puntual, sino extendido y peor aún la fuente extendida está compuesta por un ensamble de fuentes incoherentes entre si? Acá es donde la Point Spread Function (PSF) ó función de punto extendida, en castellano. Donde interviene a travez de un producto de convolución para relacionar la entrada y la salida como se ve en la figura superior. La imagen de salida se forma en el plano focal del sistema de lentes. En si la PSF no solo caracteriza el sistema de lentes desde el punto de vista de la óptica geométrica, sino que además tiene en cuenta los efectos de difracción, tanto Franhofer para campo lejano, como Fresnel para campo cercano (Microscopios).

Lógica Difusa Compensatoria.

A diferencia de la lógica bimodal (que usa toda computadora digital), la vaguedad y la incertidumbre son las bases de la lógica difusa.
Esta idea nació en un artículo de Lofti A. Zadeh publicado en 1965 y titulado «Fuzzy Sets» (Conjuntos Difusos). La lógica difusa permite representar de forma matemática conceptos o conjuntos imprecisos, tales como días fríos, meses calurosos, personas altas, salarios bajos, guisos con mucho condimento, profesores poco valorados, etc. Pero hay que tener en cuenta que la idea en sí de que las cosas no son blancas o negras, sino que existen infinitos matices de grises viene ya desde la época de los primeros grandes filósofos como Platón. Posteriormente a ellos, otros grandes pensadores como David Hume o Kant apoyaban esta idea manteniendo que el razonamiento venía dado por las observaciones de las que somos testigos a lo largo de nuestra vida y la detección de algunos principios contradictorios en la lógica clásica. Tras la publicación de Lotfi A. Zadeh, se comenzó rápidamente a usar la lógica difusa en distintas aplicaciones prácticas, llegando a su máximo auge a principios de los años 90, y continuando éste hasta la época actual.
La lógica difusa compensatoria es un modelo lógico multivaluado alternativo al propuesto por Zadeh. En esta propuesta los operadores clásicos AND, OR y NOT (ver figura arriba) son funciones contínuas del [0,1] tales que verifican las reglas de Morgan (Espin, Logical management: Fuzzy logic integrated models for decision making in enterprise, Sevilla España 2004). A diferencia del uso de funciones de membresía (como se propone en control difuso) estos operadores son de simple implementación para el estudio masivo de datos y converge a los resultados clásicos si se reduce el dominio a {0,1}. El mayor inconveniente de este tipo de lógica es la decisión, ya que cuando algo es verdadero o es falso deja de ser absoluto.

El Mapa de la Internet.

El «mapa de Internet” se asemeja a hermosos fuegos artificiales o a un mapa del universo, con sus estrellas y constelaciones. Cada región del mundo está representada por su propio color, y está integrada por cada PC con conexión a Internet.
El mapa de Internet comenzó como un experimento personal, pero actualmente tiene una serie de aplicaciones, aparte de la hermosa realización visual. Por ejemplo, el mapa puede ser usado para ver la distribución de acceso a Internet en los distintos lugares del mundo y el acceso a direcciones IP disponibles. Asimismo, representa una oportunidad única de registrar el efecto de acontecimientos locales e internacionales. Hasta ahora se han destinado más de 300 horas para enviar 195 búsquedas de rutas aleatorias por segundo. El resultado de las búsquedas constituye el material básico con el que se va diseñando el mapa.
El mapa es generado en tiempo real con los resultados de las búsquedas. La razón de que haya densas constelaciones, con galaxias y «sistemas solares” se explica sencillamente con el hecho de que hay proveedores de conexión con muchos clientes. La lógica es que mientras mayor es el «hub”, mayor es la estrella.
Aunque los procedimientos que permiten la generación del mapa ya han concluido, la búsqueda de datos continuará incesantemente. Internet nunca está inactiva y su desarrollo continúa en todos los países.

El lugar oficial del sitio está en: http://www.opte.org/

Experimentos con Sparseness Time Interval en «pingueos»


Bueno, creo que cada vez que experimento más descubro cosas nuevas, por lo menos para mi. He finalizado las mediciones de los S.T.I. (Sparseness Time Interval) en los pingueos hacia Yahoo, Brasil, Francia y Japón. Como se ve en la figura en todos aparecen unos burst cada 20 horas en promedio y su duración es de 5 horas promedio. Pero además en el caso de Brasil ocurre un comportamiento de onda lenta que tiende a no hacer constante el mínimo en los S.T.I., cosa que no ocurre con los otros casos. Los motivos los desconozco.

Two-time correlation function en pruebas de «pingueo».

Como he mencionado en un post anterior, estoy estudiando la dinámica de la red de redes (Internet) efectuando testeos de ping respecto a 3 sitios definidos. En mi caso yahoo Brasil, Francia y Japón. En este caso me puse a medir la two-time correlation function (TTCF). La cual se la define como (formula escrita en LaTex):

C_t(t_1,t_2)=frac{E(x_1*x_2)-E(x_1)*E(x_2)}{sigma_1*sigma_2}

Donde x_1 y x_2 son dos subseries temporales disyuntas de longitud fija de la misma serie temporal. sigma es la varianza de cada subserie, E(.) es la esperanza estadística y t_1 menor que t_2. Pero de manera tal que no se solapen las muestras. En la figura se muestra esas mediciones para cada sitio en función de las muestras realizadas sobre subseries de 1700 valores cada una en diferentes fechas. En la siguiente tabla se da los resultados numéricos hallados.

Fecha | Brasil | Francia | Japón
2007/05/18 | 1.000000e-00 | 1.000000e-00 | 1.000000e+00
2007/06/19 | 5.018778e-02 | 4.243639e-02 | -9.786052e-03
2007/06/26 | 2.414457e-03 | 1.168911e-01 | 1.491142e-02
2007/07/05 | 1.365180e-01 | 2.005155e-01 | 1.192697e-01
2007/07/13 | 4.488001e-02 | 2.563852e-01 | 1.958555e-01
2007/07/21 | 2.917548e-02 | 2.390630e-01 | 5.458251e-03
2007/07/26 | 8.516783e-03 | 8.358991e-02 | 1.145037e-02

Lo difícil de verificar es la condición siguiente (dada la poca cantidad de puntos que tengo)

C_t(t_1,t_2)=C(t_2-t1)

donde C(.) es la función de auto correlación de la serie temporal. Pues si se verifica esta condición en sistema es Ergódico y además tiene la propiedad de Invariancia Traslacional de Tiempos o Time Translation Invariance en inglés. Esto permite garantizar que la serie temporal en cuestión tiene una medida invariante de probabilidad, cosa que supuse en un momento pero ahora lo estoy dudando.