แลกเปลี่ยนDEX+

ซื้อคริปโต ตลาด สปอต ฟิวเจอร์สSILVER Earn ศูนย์กิจกรรม

เพิ่มเติม

ฉันทิ้ง RPC Hell ไปแล้วอย่างถาวร: คู่มือ Parquet ฉบับสมบูรณ์ตั้งแต่ Genesis ถึง Tip สำหรับการวิเคราะห์ On-Chain อย่างรวดเร็วเหมือนสายฟ้า (ไม่มีข้อจำกัด Rate อีกต่อไป ไม่ต้องจ่ายรายเดือน $500 อีกแล้ว&ฉันทิ้ง RPC Hell ไปแล้วอย่างถาวร: คู่มือ Parquet ฉบับสมบูรณ์ตั้งแต่ Genesis ถึง Tip สำหรับการวิเคราะห์ On-Chain อย่างรวดเร็วเหมือนสายฟ้า (ไม่มีข้อจำกัด Rate อีกต่อไป ไม่ต้องจ่ายรายเดือน $500 อีกแล้ว&

ฉันทิ้ง RPC Hell ไปแล้วอย่างถาวร: คู่มือ Parquet ฉบับสมบูรณ์ตั้งแต่ Genesis ถึง Tip สำหรับความเร็วสูงสุด…

ผู้เขียน: Medium

แหล่งที่มา: Medium

2026/02/26 23:30

4 นาทีในการอ่าน

แชร์

ฉันหนีจากนรก RPC ได้แล้ว: คู่มือ Parquet ฉบับสมบูรณ์จาก Genesis ถึง Tip สำหรับการวิเคราะห์ On-Chain อย่างรวดเร็วเหมือนสายฟ้าแลบ

(ไม่มีข้อจำกัดอัตราอีกต่อไป ไม่มีค่าใช้จ่ายรายเดือน $500 อีกต่อไป)

สวัสดีครับ ผมชื่อ Mike Kuykendall — วิศวกรซอफต์แวร์มากกว่า 20 ปี อดีตจ่าสิบเอก USAF พ่อของเด็กสองคน และตอนนี้เป็นคนที่อยู่เบื้องหลัง Delta Zero Labs (@_MikeKuykendall บน X)

เป็นเวลาหลายปีที่ผมใช้ชีวิตกับ RPC ต้องการทุก ERC20 transfer สำหรับกระเป๋าเงินวาฬตั้งแต่ปี 2020 หรือ? เริ่มสคริปต์ที่วนลูป eth_getLogs ด้วยช่วงบลอก 10,000 บลอก จัดการข้อจำกัดอัตรา ลองใหม่เมื่อเจอ 429s แบ่งหน้า ลบข้อมูลซ้ำ ถอดรหัส ABI ด้วยตัวเอง เก็บมันไว้ที่ไหนสักแห่ง... ล้างและทำซ้ำสำหรับ DEX swaps, oracle ticks, liquidations

โปรเจ็กต์สุดสัปดาห์หนึ่งกลายเป็นบิล Alchemy $400 ต่อเดือนและ archive node 14 TB ที่กิน SSD ของผม ผมสาบานว่าต้องมีวิธีที่ดีกว่านี้

มีจริงๆ

ผมสร้าง (และตอนนี้ขาย) ชุดข้อมูล Parquet ระดับ production ที่ถอดรหัสอย่างสมบูรณ์จาก genesis ถึง tip สำหรับ Ethereum mainnet, BSC และ Sepolia ดาวน์โหลดครั้งเดียว ไฟล์เดียว (หรือชุดที่แบ่งพาร์ติชันอย่างสะอาด) ไม่ต้องใช้ RPCs อีกต่อไป สืบค้น 7.77 พันล้านเหตุการณ์ BSC หรือ 334 ล้านเหตุการณ์ Sepolia ภายในไม่กี่วินาทีบนแล็ปท็อปของคุณด้วย DuckDB หรือ Polars

นี่ไม่ใช่ indexer หรือ subgraph อีกตัวหนึ่ง นี่คือข้อมูลที่คุณควรจะดึงเองมาแล้ว — แต่ทำเสร็จแล้ว ถอดรหัสแล้ว จัดประเภทตาม signal_type บีบอัดแล้ว และพร้อมที่จะเป็นเจ้าของตลอดไป

ในโพสต์นี้ ผมจะให้คำแนะนำทีละขั้นตอนที่ชัดเจนซึ่งผมอยากได้เมื่อสองปีก่อน ท้ายที่สุดคุณจะรู้อย่างแม่นยำว่าจะ:

ดาวน์โหลดตัวอย่าง 10k แถวฟรี
โหลดมันในเครื่อง
ตอบคำถามใดๆ ที่คุณเคยต้องใช้ RPCs
ขยายไปยังชุดข้อมูลหลายพันล้านแถวเต็มรูปแบบ

มาฆ่าภาษี RPC ด้วยกันเถอะ

ทำไม RPCs ถึงใช้ไม่ได้สำหรับงานประวัติศาสตร์จริงๆ

ตรวจสอบความเป็นจริงอย่างรวดเร็ว (คุณรู้อยู่แล้ว แต่มาวัดความเจ็บปวดกัน):

eth_getLogs ช่วงสูงสุดมักจะเป็นบลอก 10k–50k บนผู้ให้บริการแบบชำระเงิน
Mainnet เต็มรูปแบบ = ~22 ล้านบลอกในปัจจุบัน
การสแกนเหตุการณ์ Transfer ทั้งหมดครั้งเดียว? คาดหวัง 200–500 API calls, ชั่วโมงของการรอคอย และบิล $87 ที่น่าประหลาดใจ
ต้องการ MEV backtesting ข้าม 3 ปีของ Uniswap V3? ขอให้โชคดี
ข้อจำกัดอัตรา ค่าใช้จ่าย archive-node, data drift เมื่อผู้ให้บริการเปลี่ยนสคีมา... ฝันร้าย

ผมเบื่อมันจริงๆ ดังนั้นผมจึงเขียน zero-RPC extraction engine (patent-pending Fused Semantic Execution — FSE) มันอ่านข้อมูลเชนดิบครั้งเดียว ถอดรหัสทุกเหตุการณ์เป็นคอลัมน์ที่สะอาด ติดแท็กด้วย signal_type และถ่ายโอนตรงไปยัง Parquet

ผลลัพธ์? ชุดข้อมูลเช่น:

Ethereum Mainnet (Chainlink oracles + WETH flows + full DEX core): ~358 ล้านสัญญาณ, genesis → tip, ~16 GB บีบอัด ใบอนุญาตตลอดชีพ $999 (ส่วนลด 25% สำหรับผู้ซื้อ 1,000 คนแรก)
BSC (7.77 พันล้านเหตุการณ์ที่ถอดรหัสแล้ว — PancakeSwap, Aave, Chainlink, Wormhole, ทุกอย่าง): genesis → บลอก 82M+ ซื้อครั้งเดียวในช่วง $999–$9,999 ขึ้นอยู่กับชุดย่อย
Sepolia full archive (334M+ เหตุการณ์ ทุกหมวดหมู่): Parquet เดียว ~12.3 GB

ทั้งหมดส่งมอบเป็น Parquet แบบคอลัมน์ บีบอัดอย่างไร้สาระ (เล็กกว่า CSV 5–10 เท่า) พร้อม predicate pushdown ใช้งานได้กับเครื่องมือข้อมูลทุกแบบสมัยใหม่

สิ่งที่อยู่ใน Parquet จริงๆ (สคีมา 19 คอลัมน์ที่คุณไว้วางใจได้)

ทุกแถวคือเหตุการณ์ที่ถอดรหัสแล้วหนึ่งรายการ นี่คือคอลัมน์หลักที่คุณจะใช้ทุกวัน (สเปค 19 คอลัมน์เต็มอยู่ในเอกสารดาวน์โหลด):

block_number (int64)
block_hash (string)
timestamp (int64 — วินาที Unix)
tx_hash (string)
tx_index (int32)
from_address (string)
to_address (string)
contract_address (string — สัญญาโทเค็นหรือโปรโตคอล)
signal_type (string — เช่น ERC20_Transfer, UniswapV3_Swap, Chainlink_PriceUpdate, AaveV3_Liquidation, WETH_Deposit, DAO_Vote, ฯลฯ)
value / amount / amount0 / amount1 (ทศนิยมหรือ int256 ที่ปรับให้เป็นมาตรฐานแล้ว)
price (สำหรับ oracles)
log_index, topic0–topic3, ฟิลด์ข้อมูลดิบสำหรับผู้ใช้ขั้นสูง
รวมถึงพารามิเตอร์ที่ถอดรหัสแล้วเฉพาะสำหรับแต่ละ signal_type (ที่อยู่ pool, tick, sqrtPriceX96 ฯลฯ สำหรับ DEX swaps)

หนึ่งแถว = หนึ่งเรคคอร์ดที่ชัดเจนเป็นคริสตัลและพร้อมสำหรับการวิเคราะห์ ไม่ต้องถอดรหัส ABI ในโค้ดของคุณอีกต่อไป

ทีละขั้นตอน: จากศูนย์สู่การสืบค้น 300M+ แถวภายในไม่ถึง 5 นาที

ขั้นตอนที่ 1: ดาวน์โหลดตัวอย่างฟรี (ไม่ต้องใช้อีเมล ไม่ต้องลงทะเบียน)

ไปที่ตัวอย่างอย่างเป็นทางการ:

https://huggingface.co/datasets/MikeKuykendall/ethereum-signals-sample

หรือกระจก Kaggle: https://www.kaggle.com/datasets/mikekuykendall/ethereum-onchain-signals

ดาวน์โหลดไฟล์ Parquet (~5–10 MB, 10,000 แถวแบบแบ่งชั้นครอบคลุมทุก signal_type)

ขั้นตอนที่ 2: ติดตั้งเครื่องมือ (ใช้เวลา 60 วินาที)

ผมแนะนำ DuckDB — มันมหัศจรรย์สำหรับสิ่งนี้

pip install duckdb pandas pyarrow
# หรือแค่ brew install duckdb บน Mac

ขั้นตอนที่ 3: โหลดและสำรวจ (คัดลอกวางเหล่านี้)

เปิด Jupyter notebook หรือแค่ DuckDB CLI

Python + Pandas (สำหรับการสำรวจขนาดเล็ก)

import pandas as pd

df = pd.read_parquet("ethereum_signals_sample.parquet")
print(df.shape) # (10000, 19)
print(df['signal_type'].value_counts())
print(df.head())

DuckDB SQL (นี่คือจุดที่เกิดเวทมนตร์ — หน่วยความจำเป็นศูนย์สำหรับไฟล์ขนาดใหญ่)

-- Launch DuckDB
duckdb

-- Attach the sample
SELECT * FROM read_parquet('ethereum_signals_sample.parquet') LIMIT 10;

ขั้นตอนที่ 4: คำถามจริงที่คุณสามารถตอบได้ทันที

"ที่อยู่นี้ทำ ERC20 transfers กี่ครั้ง?"

SQL

SELECT COUNT(*) as transfers,
SUM(amount) as total_volume
FROM read_parquet('your_full_dataset.parquet')
WHERE from_address = '0x1234...'
OR to_address = '0x1234...'
AND signal_type = 'ERC20_Transfer';

"10 โทเค็นอันดับต้นๆ ตามจำนวนการโอนในปี 2024"

SQL

SELECT contract_address,
COUNT(*) as tx_count
FROM read_parquet('your_full_dataset.parquet')
WHERE signal_type = 'ERC20_Transfer'
AND timestamp >= 1704067200 -- Jan 1 2024
AND timestamp < 1735689600 -- Jan 1 2025
GROUP BY contract_address
ORDER BY tx_count DESC
LIMIT 10;

"Uniswap V3 swaps ทั้งหมดสำหรับ pool เฉพาะ พร้อม price impact"

SQL

SELECT timestamp,
amount0,
amount1,
sqrtPriceX96,
(amount1::double / NULLIF(amount0,0)) as price_impact
FROM read_parquet('full_dataset.parquet')
WHERE signal_type = 'UniswapV3_Swap'
AND contract_address = '0x88e6a0c2ddd26feeb64f039a2c41296fcb3f5640' -- USDC/ETH 0.05%
ORDER BY block_number DESC
LIMIT 1000;

"Chainlink price ticks สำหรับ ETH/USD เมื่อเวลาผ่านไป" (สมบูรณ์แบบสำหรับ backtesting)

SQL

SELECT
date_trunc('day', to_timestamp(timestamp)) as day,
AVG(price) as avg_eth_price
FROM read_parquet('full_dataset.parquet')
WHERE signal_type = 'Chainlink_PriceUpdate'
AND contract_address = '0x5f4eC3Df9cbd43714FE2740f5E3616155c5b8419' -- ETH/USD
GROUP BY day
ORDER BY day;

เคล็ดลับมืออาชีพ: DuckDB สามารถอ่านโฟลเดอร์ที่แบ่งพาร์ติชันได้เช่นกัน:

SQL

SELECT COUNT(*) FROM read_parquet('mainnet_parquets/*.parquet');

มันใช้ predicate pushdown โดยอัตโนมัติ — การกรองบน block_number หรือ signal_type จะข้าม 99% ของข้อมูลบนดิสก์ คุณจะสืบค้นหลายพันล้านแถวได้เร็วกว่าคนส่วนใหญ่เลื่อน Twitter

ขั้นตอนที่ 5: ไปสู่ชุดข้อมูลเต็มรูปแบบ

ซื้อใบอนุญาตของคุณที่ https://deltazerolabs.dev (mainnet, BSC หรือชุด Sepolia)
ลิงก์ดาวน์โหลดทันที + คีย์ดาวน์โหลดซ้ำตลอดชีพ
แตกไฟล์ (ถ้าจำเป็น) → ชี้คิวรีของคุณไปที่ Parquet(s)
เสร็จสิ้น ไม่มีบิลรายเดือนอีกต่อไป

หมายเหตุการจัดเก็บ: ชุด BSC เต็มรูปแบบมีขนาดใหญ่แต่บีบอัดได้และทำงานได้ดีบนเครื่อง RAM 64 GB สำหรับเวิร์กโฟลว์ที่ใหญ่กว่า เพียงจัดตั้ง Hetzner box ราคาถูกด้วย RAM 128 GB และ DuckDB ยังคงดีกว่า cloud warehouses ในเรื่องค่าใช้จ่าย

ผลลัพธ์ในโลกจริงที่ผู้ซื้อของผมได้รับ

MEV searchers ทำ backtesting routing logic ข้าม 4 ปีของข้อมูล DEX ภายใน <2 นาที
ทีมปฏิบัติตามข้อกำหนดติดตามทุกการโอน NFT สำหรับคอลเลกชันโดยไม่มีข้อจำกัดอัตรา Etherscan
กองทุน Quant สร้างคะแนนสุขภาพกระเป๋าเงินจากโฟล์ WETH เต็มรูปแบบ + ประวัติการชำระบัญชี
นักวิจัยเขียนเอกสารด้วยคิวรีที่ทำซ้ำได้ (เพียงแชร์ SQL + เวอร์ชันชุดข้อมูล)

ผู้ซื้อคนหนึ่งบอกผมว่า: "ผมยกเลิกแผน RPC $1,200 ต่อเดือนในวันเดียวกับที่ชุดข้อมูลมาถึง"

ตารางเปรียบเทียบ (เพราะคุณชอบสิ่งเหล่านี้)

วิธีการค่าใช้จ่ายความเร็วสำหรับประวัติ 3 ปีการบำรุงรักษาความเป็นเจ้าของRaw RPC loops$200–2000/เดือนชั่วโมง–วันคงที่คุณสร้างใหม่Subgraphs/The Graphฟรี–ชำระเงินเร็วแต่ไม่สมบูรณ์ความเสี่ยงผู้ให้บริการไม่Cryo self-extractเวลาของคุณ + nodeวันในการดึงข้อมูลอย่างต่อเนื่องใช่Delta Zero Parquetครั้งเดียว $999+วินาทีศูนย์ตลอดไป

พร้อมที่จะฆ่าบิล RPC ของคุณหรือยัง?

ดาวน์โหลดตัวอย่างฟรีตอนนี้: https://huggingface.co/datasets/MikeKuykendall/ethereum-signals-sample
รันคิวรีข้างต้น สัมผัสความเร็ว
เมื่อคุณพร้อมสำหรับสัตว์ร้ายจาก genesis ถึง tip เต็มรูปแบบ (mainnet, BSC หรือ Sepolia) ไปที่ https://deltazerolabs.dev/bsc และรับใบอนุญาตตลอดชีพของคุณ

ผู้ซื้อ 1,000 คนแรกบน mainnet/BSC ได้รับส่วนลด 25% ด้วยโค้ด EARLY25 ที่เช็คเอาท์

มีคำถาม? DM ผมบน X @_MikeKuykendall หรือเข้าร่วมช่อง Telegram ที่เชื่อมโยงบนเว็บไซต์ ผมตอบทุกคำถาม — นี่คือการดำเนินงานเดี่ยวที่เป็นเจ้าของโดยทหารผ่านศึกและผมใส่ใจจริงๆ ที่คุณจะชนะด้วยข้อมูล

หยุดจ่ายค่าเช่าสำหรับข้อมูลที่ควรเป็นของคุณ

ดาวน์โหลดตัวอย่าง รันคิวรี จากนั้นอย่าเรียก eth_getLogs อีกครั้ง

เจอกันบนเชน (ออฟไลน์)

— Mike Kuykendall Delta Zero Labs ปล. chain drop ถัดไปจะมาเร็วๆ นี้ ต้องการการเข้าถึงก่อนใคร + signal types ที่กำหนดเอง? DM ผม

I Ditched RPC Hell for Good: Your Complete Genesis-to-Tip Parquet Handbook for Lightning-Fast… ถูกตีพิมพ์ครั้งแรกใน Coinmonks บน Medium ซึ่งผู้คนกำลังสนทนาต่อโดยการเน้นและตอบกลับเรื่องราวนี้

ข้อจำกัดความรับผิดชอบ: บทความที่โพสต์ซ้ำในไซต์นี้มาจากแพลตฟอร์มสาธารณะและมีไว้เพื่อจุดประสงค์ในการให้ข้อมูลเท่านั้น ซึ่งไม่ได้สะท้อนถึงมุมมองของ MEXC แต่อย่างใด ลิขสิทธิ์ทั้งหมดยังคงเป็นของผู้เขียนดั้งเดิม หากคุณเชื่อว่าเนื้อหาใดละเมิดสิทธิของบุคคลที่สาม โปรดติดต่อ crypto.news@mexc.com เพื่อลบออก MEXC ไม่รับประกันความถูกต้อง ความสมบูรณ์ หรือความทันเวลาของเนื้อหาใดๆ และไม่รับผิดชอบต่อการดำเนินการใดๆ ที่เกิดขึ้นตามข้อมูลที่ให้มา เนื้อหานี้ไม่ถือเป็นคำแนะนำทางการเงิน กฎหมาย หรือคำแนะนำจากผู้เชี่ยวชาญอื่นๆ และไม่ถือว่าเป็นคำแนะนำหรือการรับรองจาก MEXC