De la lectura, la indexación y el análisis: una breve introducción a la indexación de datos Web3

6.549 0 9

1 Introducción

Desde la primera ola de dApps Etheroll, ETHLend y CryptoKitties en 2017 hasta el florecimiento actual de varias dApps financieras, de juegos y sociales basadas en diferentes cadenas de bloques, cuando hablamos de aplicaciones descentralizadas en cadena, ¿hemos pensado alguna vez en las fuentes de varios datos adoptados por estas dApps en sus interacciones?

En 2024, la atención se centrará en la IA y la Web3. En el mundo de la inteligencia artificial, los datos son como la fuente de vida de su crecimiento y evolución. Así como las plantas dependen de la luz solar y el agua para prosperar, los sistemas de IA también dependen de cantidades masivas de datos para aprender y pensar continuamente. Sin datos, por muy sofisticado que sea el algoritmo de IA, no es más que un castillo en el aire y no puede ejercer su inteligencia y eficiencia debidas.

Desde la perspectiva de la accesibilidad de los datos de blockchain, este artículo analiza en profundidad la evolución de la indexación de datos de blockchain en el proceso de desarrollo de la industria y compara el antiguo protocolo de indexación de datos The Graph con los protocolos emergentes de servicios de datos de blockchain Chainbase y Space and Time. En particular, explora las similitudes y diferencias entre estos dos nuevos protocolos que combinan la tecnología de IA en los servicios de datos y las características de la arquitectura del producto.

2. La complejidad y simplicidad de la indexación de datos: desde los nodos de blockchain hasta las bases de datos de cadena completa

2.1 Fuente de datos: nodo blockchain

Desde el principio, cuando se empieza a entender qué es blockchain, a menudo vemos esta frase: blockchain es un libro de contabilidad descentralizado. Los nodos de blockchain son la base de toda la red blockchain y son responsables de registrar, almacenar y difundir todos los datos de transacciones en la cadena. Cada nodo tiene una copia completa de los datos de blockchain para garantizar que se mantenga la naturaleza descentralizada de la red. Sin embargo, para los usuarios comunes, no es fácil construir y mantener un nodo de blockchain por sí mismos. Esto no solo requiere capacidades técnicas profesionales, sino que también conlleva altos costos de hardware y ancho de banda. Al mismo tiempo, los nodos comunes tienen capacidades de consulta limitadas y no pueden consultar datos en el formato requerido por los desarrolladores. Por lo tanto, aunque en teoría todos pueden ejecutar sus propios nodos, en la práctica, los usuarios generalmente prefieren confiar en servicios de terceros.

Para resolver este problema, surgieron los proveedores de nodos RPC (Remote Procedure Call). Estos proveedores son responsables del costo y la gestión de los nodos y proporcionan datos a través de puntos finales RPC. Esto permite a los usuarios acceder fácilmente a los datos de la cadena de bloques sin construir sus propios nodos. Los puntos finales RPC públicos son gratuitos, pero existen límites de velocidad, lo que puede tener un impacto negativo en la experiencia del usuario de las aplicaciones descentralizadas. Los puntos finales RPC privados proporcionan un mejor rendimiento al reducir la congestión, pero incluso la recuperación de datos simple requiere mucha comunicación de ida y vuelta. Esto los hace pesados en cuanto a solicitudes e ineficientes para consultas de datos complejas. Además, los puntos finales RPC privados suelen ser difíciles de escalar y carecen de compatibilidad en diferentes redes. Sin embargo, la interfaz API estandarizada del proveedor de nodos ofrece a los usuarios un umbral más bajo para acceder a los datos en la cadena, sentando las bases para el análisis y la aplicación de datos posteriores.

2.2 Análisis de datos: de datos prototipo a datos utilizables

Los datos obtenidos de los nodos de la cadena de bloques suelen ser datos sin procesar que han sido cifrados y codificados. Aunque estos datos conservan la integridad y la seguridad de la cadena de bloques, su complejidad también aumenta la dificultad del análisis de datos. Para los usuarios o desarrolladores comunes, procesar directamente estos datos prototipo requiere una gran cantidad de conocimientos técnicos y recursos informáticos.

El proceso de análisis de datos es particularmente importante en este contexto. Al analizar datos prototipo complejos y convertirlos a un formato que sea más fácil de entender y manejar, los usuarios pueden comprender y usar los datos de manera más intuitiva. El éxito del análisis de datos determina directamente la eficiencia y la eficacia de las aplicaciones de datos de blockchain y es un paso clave en todo el proceso de indexación de datos.

2.3 Evolución de los indexadores de datos

A medida que aumenta la cantidad de datos de la cadena de bloques, también aumenta la necesidad de indexadores de datos. Los indexadores desempeñan un papel fundamental en la organización de los datos en cadena y su envío a la base de datos para facilitar su consulta. Los indexadores funcionan indexando los datos de la cadena de bloques y poniéndolos a disposición a través de un lenguaje de consulta similar a SQL (API como GraphQL). Al proporcionar una interfaz unificada para la consulta de datos, los indexadores permiten a los desarrolladores recuperar de forma rápida y precisa la información que necesitan utilizando un lenguaje de consulta estandarizado, lo que simplifica enormemente el proceso.

Diferentes tipos de indexadores optimizan la recuperación de datos de diversas maneras:

Indexadores de nodos completos: estos indexadores ejecutan nodos de blockchain completos y extraen datos directamente de ellos, lo que garantiza que los datos sean completos y precisos, pero requieren mucho poder de almacenamiento y procesamiento.
Indexadores ligeros: estos indexadores se basan en nodos completos para obtener datos específicos según sea necesario, lo que reduce los requisitos de almacenamiento pero aumenta potencialmente los tiempos de consulta.
Indexadores especializados: estos indexadores se especializan en ciertos tipos de datos o cadenas de bloques específicas, optimizando la recuperación para casos de uso específicos, como datos NFT o transacciones DeFi.
Indexadores agregados: estos indexadores extraen datos de múltiples cadenas de bloques y fuentes, incluida información fuera de la cadena, y proporcionan una interfaz de consulta unificada, que es particularmente útil para aplicaciones descentralizadas de múltiples cadenas.

Actualmente, el modo de archivo del nodo de archivo Ethereum en el cliente Geth ocupa alrededor de 13,5 TB de espacio de almacenamiento, mientras que en el cliente Erigon, el requisito de archivo es de aproximadamente 3 TB. A medida que la cadena de bloques continúa creciendo, la capacidad de almacenamiento de datos del nodo de archivo también aumentará. Frente a una cantidad tan grande de datos, el protocolo de indexación convencional no solo admite la indexación de múltiples cadenas, sino que también personaliza el marco de análisis de datos para los requisitos de datos de diferentes aplicaciones. Por ejemplo, el marco Graphs Subgraph es un caso típico.

La aparición de indexadores ha mejorado enormemente la eficiencia de la indexación y consulta de datos. En comparación con los puntos finales de RPC tradicionales, los indexadores pueden indexar de manera eficiente grandes cantidades de datos y admitir consultas de alta velocidad. Estos indexadores permiten a los usuarios realizar consultas complejas, filtrar datos fácilmente y analizarlos después de la extracción. Además, algunos indexadores también admiten la agregación de fuentes de datos de múltiples cadenas de bloques, lo que evita el problema de implementar múltiples API en aplicaciones descentralizadas de múltiples cadenas. Al ejecutarse de forma distribuida en varios nodos, los indexadores no solo brindan mayor seguridad y rendimiento, sino que también reducen el riesgo de interrupciones y tiempos de inactividad que pueden causar los proveedores de RPC centralizados.

Por el contrario, el indexador utiliza un lenguaje de consulta predefinido para permitir a los usuarios obtener directamente la información requerida sin tener que procesar los complejos datos subyacentes. Este mecanismo mejora significativamente la eficiencia y la confiabilidad de la recuperación de datos y es una innovación importante en el acceso a datos de blockchain.

2.4 Base de datos de cadena completa: alineación de flujo primero

El uso de nodos de índice para consultar datos generalmente significa que la API se convierte en el único portal para digerir datos en cadena. Sin embargo, cuando un proyecto entra en la fase de expansión, a menudo requiere fuentes de datos más flexibles, que no pueden proporcionar las API estandarizadas. A medida que los requisitos de la aplicación se vuelven más complejos, los indexadores de datos primarios y sus formatos de índice estandarizados gradualmente encuentran difícil satisfacer requisitos de consulta cada vez más diversos, como búsqueda, acceso entre cadenas o mapeo de datos fuera de la cadena.

De la lectura, la indexación y el análisis: una breve introducción a la indexación de datos Web3

En las arquitecturas modernas de canalización de datos, el enfoque de flujo primero ha surgido como una solución a las limitaciones del procesamiento por lotes tradicional, lo que permite la ingesta, el procesamiento y el análisis de datos en tiempo real. Este cambio de paradigma permite a las organizaciones responder de inmediato a los datos entrantes, lo que les permite obtener información y tomar decisiones casi instantáneamente. De manera similar, el desarrollo de los proveedores de servicios de datos de blockchain también está avanzando hacia la creación de flujos de datos de blockchain. Los proveedores de servicios de indexación tradicionales han lanzado sucesivamente productos que obtienen datos de blockchain en tiempo real en forma de flujos de datos, como The Graphs Substreams, Goldskys Mirror y lagos de datos en tiempo real que generan flujos de datos basados en blockchains, como Chainbase y SubSquid.

Estos servicios están diseñados para abordar la necesidad de análisis en tiempo real de transacciones de blockchain y capacidades de consulta más completas. Así como la arquitectura de flujo de datos ha revolucionado la forma en que se procesan y consumen los datos en los canales de datos tradicionales al reducir la latencia y mejorar la capacidad de respuesta, estos proveedores de servicios de flujo de datos de blockchain también esperan respaldar el desarrollo de más aplicaciones y ayudar en el análisis de datos en cadena a través de fuentes de datos más avanzadas y maduras.

Al replantear los desafíos de los datos en cadena desde la perspectiva de un canal de datos moderno, podemos ver todo el potencial de gestionar, almacenar y ofrecer datos en cadena desde una perspectiva completamente nueva. Cuando comenzamos a pensar en los indexadores como los subgrafos y Ethereum ETL como flujos de datos en un canal de datos en lugar de resultados finales, podemos imaginar un mundo posible en el que los conjuntos de datos de alto rendimiento se puedan adaptar a cualquier caso de uso comercial.

3 ¿IA + base de datos? Comparación en profundidad de The Graph, Chainbase, Space and Time

3.1 El gráfico

La red Graph implementa servicios de indexación y consulta de datos de múltiples cadenas a través de una red de nodos descentralizados, lo que facilita a los desarrolladores indexar cómodamente los datos de la cadena de bloques y crear aplicaciones descentralizadas. Sus principales modelos de productos son el mercado de ejecución de consultas de datos y el mercado de caché de índices de datos. Ambos mercados atienden esencialmente las necesidades de consulta de productos de los usuarios. El mercado de ejecución de consultas de datos se refiere específicamente a los consumidores que pagan por los datos que necesitan para elegir el nodo de índice adecuado que proporciona los datos, mientras que el mercado de caché de índices de datos es un mercado en el que los nodos de índice movilizan la asignación de recursos en función de la popularidad histórica del índice de los subgrafos, las tarifas de consulta cobradas y la demanda de los curadores en cadena de resultados de subgrafos.

Los subgrafos son las estructuras de datos básicas de la red The Graph. Definen cómo extraer y transformar datos de la cadena de bloques en un formato consultable (como un esquema GraphQL). Cualquiera puede crear un subgrafo y varias aplicaciones pueden reutilizarlos, lo que mejora la reutilización y la eficiencia de los datos.

De la lectura, la indexación y el análisis: una breve introducción a la indexación de datos Web3

La estructura del producto Graph (Fuente: Libro blanco de The Graph)

The Graph network consists of four key roles: Indexers, Curators, Delegators, and Developers, who together provide data support for web3 applications. Here are their respective responsibilities:

Indexador: el indexador es un operador de nodos en la red The Graph. Los indexadores participan en la red apostando GRT (el token nativo de The Graph) y brindan servicios de indexación y procesamiento de consultas.
Delegante: los delegantes son usuarios que depositan tokens GRT en nodos de índice para respaldar sus operaciones. Los delegantes obtienen parte de las recompensas a través de los nodos de índice que delegan.
Curador: los curadores son responsables de indicar qué subgrafos deben indexarse en la red. Los curadores ayudan a garantizar que se prioricen los subgrafos valiosos.
Desarrollador: A diferencia de los tres primeros, que son proveedores, los desarrolladores son demandantes y los principales usuarios de The Graph. Crean y envían subgrafos a la red de The Graph, a la espera de que la red cumpla con los datos requeridos.

De la lectura, la indexación y el análisis: una breve introducción a la indexación de datos Web3

El Graph ahora se ha trasladado a un servicio de alojamiento de subgrafos completamente descentralizado, con incentivos económicos que circulan entre los diferentes participantes para garantizar el funcionamiento del sistema:

Recompensas del nodo de índice: los nodos de índice obtienen ingresos a través de las tarifas de consulta de los consumidores y una parte de las recompensas del bloque de tokens GRT.
Recompensas para delegadores: los delegadores reciben una parte de las recompensas de los nodos de índice que respaldan.
Recompensas para los curadores: si los curadores señalan un subgráfico valioso, pueden recibir una parte de la recompensa en tarifas de consulta.

De hecho, los productos de The Graphs también se están desarrollando rápidamente en la ola de IA. Como uno de los equipos de desarrollo principales del ecosistema de The Graph, Semiotic Labs se ha comprometido a utilizar la tecnología de IA para optimizar los precios de los índices y la experiencia de consulta del usuario. Actualmente, las herramientas AutoAgora, Allocation Optimizer y AgentC desarrolladas por Semiotic Labs han mejorado el rendimiento del ecosistema en muchos aspectos.

AutoAgora presenta un mecanismo de precios dinámico que ajusta los precios en tiempo real según el volumen de consultas y el uso de recursos, optimiza las estrategias de precios, garantiza la competitividad de los indexadores y maximiza los ingresos.
Allocation Optimizer resuelve el complejo problema de la asignación de recursos de subgrafos, ayudando a los indexadores a lograr una asignación óptima de recursos para mejorar los ingresos y el rendimiento.
AgentC es una herramienta experimental que permite a los usuarios acceder a los datos de la cadena de bloques de The Graph a través del lenguaje natural, mejorando así la experiencia del usuario.

La aplicación de estas herramientas permite a The Graph mejorar aún más la inteligencia y la facilidad de uso del sistema con la ayuda de IA.

3.2 Distancia entre cadenas

Chainbase es una red de datos de cadena completa que integra todos los datos de la cadena de bloques en una sola plataforma, lo que facilita a los desarrolladores la creación y el mantenimiento de aplicaciones. Sus características únicas incluyen:

Lago de datos en tiempo real: Chainbase proporciona un lago de datos en tiempo real dedicado a los flujos de datos de blockchain, lo que hace que los datos sean accesibles instantáneamente a medida que se generan.
Arquitectura de doble cadena: Chainbase construyó una capa de ejecución basada en Eigenlayer AVS, formando una arquitectura de doble cadena paralela con el algoritmo de consenso CometBFT. Este diseño mejora la programabilidad y componibilidad de los datos entre cadenas, admite alto rendimiento, baja latencia y finalidad, y mejora la seguridad de la red a través de un modelo de participación dual.
Estándares de formato de datos innovadores: Chainbase introdujo un nuevo estándar de formato de datos llamado manuscritos, que optimiza la forma en que se estructuran y utilizan los datos en la industria de las criptomonedas.
Modelo Crypto World: con sus vastos recursos de datos de blockchain, Chainbase combinó la tecnología de modelos de IA para crear un modelo de IA que puede comprender, predecir e interactuar de manera efectiva con las transacciones de blockchain. La versión básica del modelo, Theia, se ha lanzado para uso público.

De la lectura, la indexación y el análisis: una breve introducción a la indexación de datos Web3

Estas características hacen que Chainbase se destaque entre los protocolos de indexación de blockchain, con un enfoque particular en la accesibilidad a datos en tiempo real, formatos de datos innovadores y la creación de modelos más inteligentes para mejorar los conocimientos mediante la combinación de datos dentro y fuera de la cadena.

El modelo de IA de Chainbases Theia es el punto clave que lo distingue de otros protocolos de servicios de datos. Basado en el modelo DORA desarrollado por NVIDIA, Theia combina datos dentro y fuera de la cadena y actividades espaciotemporales para aprender y analizar patrones criptográficos y responder a través del razonamiento causal, explorando así en profundidad el valor potencial y la regularidad de los datos dentro de la cadena y brindando a los usuarios servicios de datos más inteligentes.

Los servicios de datos habilitados con IA hacen que Chainbase ya no sea solo una plataforma de servicios de datos de blockchain, sino un proveedor de servicios de datos inteligentes más competitivo. A través de potentes recursos de datos y análisis proactivo de IA, Chainbase puede proporcionar información más completa sobre los datos y optimizar el proceso de procesamiento de datos de los usuarios.

3.3 Espacio y tiempo

Space and Time (SxT) tiene como objetivo construir una capa de computación verificable y expandir las pruebas de conocimiento cero en almacenes de datos descentralizados para proporcionar un procesamiento de datos confiable para contratos inteligentes, modelos de lenguaje de gran tamaño y empresas. Actualmente, Space and Time ha recibido $20 millones en la última ronda de financiación de Serie A, liderada por Framework Ventures, Lightspeed Faction, Arrington Capital y Hivemind Capital.

En el campo de la indexación y verificación de datos, Space and Time ha introducido una nueva vía técnica: Proof of SQL. Se trata de una innovadora tecnología de prueba de conocimiento cero (ZKP) desarrollada por Space and Time para garantizar que las consultas SQL ejecutadas en almacenes de datos descentralizados sean a prueba de manipulaciones y verificables. Cuando se ejecuta una consulta, Proof of SQL genera una prueba criptográfica que verifica la integridad y precisión de los resultados de la consulta. Esta prueba se adjunta a los resultados de la consulta, lo que permite que cualquier verificador (como contratos inteligentes, etc.) confirme de forma independiente que los datos no han sido manipulados durante el procesamiento. Las redes de blockchain tradicionales suelen depender de mecanismos de consenso para verificar la autenticidad de los datos, mientras que Proof of SQL de Space and Times implementa una forma más eficiente de verificar los datos. Específicamente, en el sistema de Space and Times, un nodo es responsable de adquirir datos, mientras que otros nodos verifican la autenticidad de los datos a través de la tecnología zk. Este enfoque cambia el consumo de recursos de múltiples nodos que indexan repetidamente los mismos datos bajo el mecanismo de consenso hasta que finalmente llegan a un consenso para obtener los datos, y mejora el rendimiento general del sistema. A medida que esta tecnología madura, ha creado una base para una serie de industrias tradicionales que se centran en la confiabilidad de los datos para usar los datos en la cadena de bloques para construir productos.

De la lectura, la indexación y el análisis: una breve introducción a la indexación de datos Web3

Al mismo tiempo, SxT ha estado trabajando en estrecha colaboración con Microsoft AI Joint Innovation Lab para acelerar el desarrollo de herramientas de IA generativas que faciliten a los usuarios el procesamiento de datos de blockchain a través del lenguaje natural. Actualmente, en Space and Time Studio, los usuarios pueden experimentar la introducción de consultas en lenguaje natural, y la IA las convertirá automáticamente en SQL y ejecutará las declaraciones de consulta en nombre del usuario para presentar los resultados finales requeridos por el usuario.

3.4 Comparación de diferencias

De la lectura, la indexación y el análisis: una breve introducción a la indexación de datos Web3

Conclusión y perspectivas

En resumen, la tecnología de indexación de datos de blockchain ha experimentado un proceso de mejora gradual desde la fuente de datos del nodo inicial, pasando por el desarrollo de análisis de datos e indexadores, hasta el servicio de datos de cadena completa habilitado con IA. La evolución continua de estas tecnologías no solo ha mejorado la eficiencia y la precisión del acceso a los datos, sino que también ha brindado a los usuarios una experiencia inteligente sin precedentes.

De cara al futuro, con el desarrollo continuo de nuevas tecnologías como la IA y la prueba de conocimiento cero, los servicios de datos de blockchain se volverán más inteligentes y seguros. Tenemos motivos para creer que los servicios de datos de blockchain seguirán desempeñando un papel importante como infraestructura en el futuro, proporcionando un fuerte apoyo para el progreso y la innovación de la industria.

Este artículo proviene de Internet: De la lectura, la indexación y el análisis: una breve introducción a la ruta de indexación de datos Web3

Relacionado: 4Alpha Research: La Fed está recurriendo al equilibrio y la consistencia externa, pero su actitud hacia las criptomonedas sigue siendo conservadora

Con la próxima reunión del FOMC el 30 de julio, los funcionarios de la Fed han entrado en un período de silencio, y el mercado, que ha descontado plenamente la expectativa de un recorte de tasas, ha comenzado a esperar con ansias la nueva decisión sobre las tasas de interés y la declaración de política de la Fed. Aprovechando esta oportunidad, este artículo analiza la composición del actual comité de votación del FOMC, la evolución de la composición del FOMC en los últimos años y la actitud política de la Fed hacia la industria de las criptomonedas. Opiniones en pocas palabras La composición de los miembros votantes del FOMC tiende a ser equilibrada y neutral, con 7 miembros permanentes con derecho a voto permanente y los puestos restantes ocupados por presidentes regionales de la Fed de forma rotatoria. La mayoría de los miembros votantes actuales del FOMC se consideran neutrales. Entre los miembros rotatorios, dos…