แลกเปลี่ยนDEX+

ซื้อคริปโต ตลาด สปอต ฟิวเจอร์สGOLD Earn ศูนย์กิจกรรม

เพิ่มเติม

การฉ้อโกงไม่ใช่แค่เรื่องน่ารำคาญ แต่เป็นอุตสาหกรรมมูลค่า 12.5 พันล้านดอลลาร์ ตามข้อมูลของ FTC ปี 2024 การรายงานความสูญเสียจากการฉ้อโกงเพิ่มขึ้นอย่างมหาศาล ระบบที่ใช้กฎแบบดั้งเดิมการฉ้อโกงไม่ใช่แค่เรื่องน่ารำคาญ แต่เป็นอุตสาหกรรมมูลค่า 12.5 พันล้านดอลลาร์ ตามข้อมูลของ FTC ปี 2024 การรายงานความสูญเสียจากการฉ้อโกงเพิ่มขึ้นอย่างมหาศาล ระบบที่ใช้กฎแบบดั้งเดิม

สร้างระบบป้องกันการฉ้อโกงด้วย AI แบบเรียลไทม์ด้วย Python, XGBoost และ BERT

ผู้เขียน: Hackernoon

แหล่งที่มา: Hackernoon

2025/12/15 04:04

3 นาทีในการอ่าน

แชร์

การฉ้อโกงไม่ใช่แค่เรื่องน่ารำคาญ แต่เป็นอุตสาหกรรมมูลค่า 12.5 พันล้านดอลลาร์ ตามข้อมูลของ FTC ปี 2024 ความสูญเสียจากการฉ้อโกงเพิ่มขึ้นอย่างมาก โดยการหลอกลวงด้านการลงทุนคิดเป็นเกือบครึ่งหนึ่งของยอดรวมทั้งหมด

สำหรับนักพัฒนาและสถาปนิกระบบ ความท้าทายมีสองประการ:

การฉ้อโกงธุรกรรม: การตรวจจับความผิดปกติในข้อมูลทางการเงินที่มีโครงสร้าง (ใครส่งเงิน? ที่ไหน? เท่าไร?)
การฉ้อโกงทางการสื่อสาร (สแปม/ฟิชชิ่ง): การตรวจจับเจตนาร้ายในข้อความที่ไม่มีโครงสร้าง (ลิงก์ SMS, อีเมลฟิชชิ่ง)

ระบบที่ใช้กฎแบบดั้งเดิม ("ถ้าจำนวนเงิน > $10,000 ให้ทำเครื่องหมาย") นั้นเปราะบางเกินไป พวกมันสร้างผลบวกลวงและพลาดเวกเตอร์การโจมตีที่วิวัฒนาการ

ในคู่มือวิศวกรรมนี้ เราจะสร้างระบบป้องกันแบบสองชั้น เราจะใช้โมเดล XGBoost ความเร็วสูงสำหรับการตรวจสอบธุรกรรมและเครื่องมือ NLP แบบ BERT สำหรับการตรวจจับสแปม โดยห่อหุ้มทั้งหมดในสถาปัตยกรรมไมโครเซอร์วิสแบบ cloud-native

มาเริ่มสร้างกัน

สถาปัตยกรรม: แบบเรียลไทม์และ Cloud-Native

เราไม่ได้สร้างงานแบบแบตช์ที่ทำงานข้ามคืน การฉ้อโกงเกิดขึ้นในระดับมิลลิวินาที เราต้องการเครื่องมืออนุมานแบบเรียลไทม์

ระบบของเราประกอบด้วยไปป์ไลน์สองส่วนที่แยกกันซึ่งป้อนเข้าสู่เครื่องมือตัดสินใจกลาง

เทคโนโลยีที่ใช้

ภาษา: Python 3.9+
การเรียนรู้แบบมีโครงสร้าง: XGBoost (Extreme Gradient Boosting) และ Random Forest
NLP: Hugging Face Transformers (BERT) และ Scikit-learn (Naïve Bayes)
การปรับใช้: Docker, Kubernetes, FastAPI

ส่วนที่ 1: ระบบป้องกันธุรกรรม (XGBoost)

เมื่อต้องจัดการกับข้อมูลทางการเงินแบบตาราง (จำนวนเงิน, เวลา, สถานที่, รหัสอุปกรณ์) XGBoost ปัจจุบันเป็นผู้นำในด้านนี้ ในการทดสอบประสิทธิภาพของเรา มันบรรลุ ความแม่นยำ 98.2% และ ความเที่ยงตรง 97.6% ซึ่งดีกว่า Random Forest ทั้งในด้านความเร็วและความน่าเชื่อถือ

ความท้าทาย: ข้อมูลไม่สมดุล

การฉ้อโกงเกิดขึ้นน้อย หากคุณมีธุรกรรม 100,000 รายการ อาจมีเพียง 30 รายการที่เป็นการฉ้อโกง หากคุณฝึกโมเดลด้วยข้อมูลนี้ มันจะเดา "ถูกต้องตามกฎหมาย" ทุกครั้งและบรรลุความแม่นยำ 99.9% ในขณะที่พลาดทุกกรณีการฉ้อโกง

วิธีแก้ไข: เราใช้ SMOTE (Synthetic Minority Over-sampling Technique) หรือการถ่วงน้ำหนักคลาสระหว่างการฝึก

พิมพ์เขียวการนำไปใช้

นี่คือวิธีตั้งค่าตัวจำแนก XGBoost สำหรับการให้คะแนนธุรกรรม

import xgboost as xgb from sklearn.model_selection import train_test_split from sklearn.metrics import precision_score, recall_score, f1_score import pandas as pd # 1. Load Data (Anonymized Transaction Logs) # Features: Amount, OldBalance, NewBalance, Location_ID, Device_ID, TimeDelta df = pd.read_csv('transactions.csv') X = df.drop(['isFraud'], axis=1) y = df['isFraud'] # 2. Split Data X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 3. Initialize XGBoost # scale_pos_weight is crucial for imbalanced fraud data model = xgb.XGBClassifier( objective='binary:logistic', n_estimators=100, learning_rate=0.1, max_depth=5, scale_pos_weight=10, # Handling class imbalance use_label_encoder=False ) # 4. Train print("Training Fraud Detection Model...") model.fit(X_train, y_train) # 5. Evaluate preds = model.predict(X_test) print(f"Precision: {precision_score(y_test, preds):.4f}") print(f"Recall: {recall_score(y_test, preds):.4f}") print(f"F1 Score: {f1_score(y_test, preds):.4f}")

ทำไม XGBoost ถึงชนะ:

ความเร็ว: มันประมวลผลข้อมูลตารางได้เร็วกว่า Deep Neural Networks อย่างมีนัยสำคัญ
ความเบาบาง: มันจัดการค่าที่หายไปได้อย่างสง่างาม (พบบ่อยในการระบุลายนิ้วมืออุปกรณ์)
การตีความได้: ไม่เหมือนกับ Neural Net แบบ "Black Box" เราสามารถแสดงความสำคัญของคุณลักษณะเพื่ออธิบายว่าทำไมธุรกรรมถึงถูกบล็อก

ส่วนที่ 2: ระบบล่าสแปม (NLP)

การฉ้อโกงมักเริ่มต้นด้วยลิงก์ "คลิกที่นี่เพื่ออัปเดต KYC ของคุณ" \n เพื่อตรวจจับสิ่งนี้ เราต้องใช้การประมวลผลภาษาธรรมชาติ (NLP)

เราเปรียบเทียบ Naïve Bayes (เบา, เร็ว) กับ BERT (Deep Learning)

Naïve Bayes: ความแม่นยำ 94.1% ดีสำหรับสแปมที่ยัดคีย์เวิร์ดแบบง่าย
BERT: ความแม่นยำ 98.9% จำเป็นสำหรับฟิชชิ่ง "ตามบริบท" (เช่น อีเมลที่ถูกออกแบบทางสังคมซึ่งไม่ดูเหมือนสแปม)

พิมพ์เขียวการนำไปใช้ (BERT)

สำหรับสภาพแวดล้อมการผลิต เราปรับแต่งโมเดล Transformer ที่ผ่านการฝึกอบรมมาแล้ว

from transformers import BertTokenizer, BertForSequenceClassification import torch # 1. Load Pre-trained BERT model_name = "bert-base-uncased" tokenizer = BertTokenizer.from_pretrained(model_name) model = BertForSequenceClassification.from_pretrained(model_name, num_labels=2) def classify_message(text): # 2. Tokenize Input inputs = tokenizer( text, return_tensors="pt", truncation=True, padding=True, max_length=512 ) # 3. Inference with torch.no_grad(): outputs = model(**inputs) # 4. Convert Logits to Probability probabilities = torch.nn.functional.softmax(outputs.logits, dim=-1) spam_score = probabilities[0][1].item() # Score for 'Label 1' (Spam) return spam_score # Usage msg = "Urgent! Your account is locked. Click http://bad-link.com" score = classify_message(msg) if score > 0.9: print(f"BLOCKED: Phishing Detected (Confidence: {score:.2%})")

ส่วนที่ 3: ขั้นตอนการ "หยุดแบบเด็ดขาด"

การตรวจจับไร้ประโยชน์หากไม่มีการดำเนินการ ส่วนที่สร้างสรรค์ที่สุดของสถาปัตยกรรมนี้คือตรรกะการแทรกแซง

เราไม่เพียงแค่บันทึกการฉ้อโกง แต่เรายังสกัดกั้นการเดินทางของผู้ใช้

ขั้นตอนการทำงาน:

ผู้ใช้ได้รับ SMS: "อัปเดตวิธีการชำระเงิน"
ผู้ใช้คลิก: การคลิกถูกส่งผ่านไมโครเซอร์วิสของเรา
การสแกนแบบเรียลไทม์: URL และเนื้อหาข้อความถูกให้คะแนนโดยโมเดล BERT
จุดตัดสินใจ:

ปลอดภัย: ผู้ใช้ถูกเปลี่ยนเส้นทางไปยังเกตเวย์การชำระเงินจริง
ฉ้อโกง: การแจ้งเตือน "หยุดแบบเด็ดขาด" จะปรากฏขึ้น

หมายเหตุ: ไม่เหมือนกับตัวกรองอีเมลมาตรฐานที่ย้ายรายการไปยังโฟลเดอร์ขยะ ระบบนี้อยู่ระหว่างการคลิกและปลายทาง ป้องกันไม่ให้ผู้ใช้โหลดเนื้อหาที่เป็นอันตรายเลย

ตัวชี้วัดสำคัญ

เมื่อนำไปใช้ในการผลิต "ความแม่นยำ" เป็นเพียงตัวชี้วัดที่ไร้สาระ คุณต้องดูความเที่ยงตรงและการเรียกคืน

ผลบวกลวง (ความเที่ยงตรงลดลง): คุณบล็อกผู้ใช้ที่ถูกต้องจากการซื้อกาแฟ พวกเขาโกรธและหยุดใช้แอปของคุณ
ผลลบลวง (การเรียกคืนลดลง): คุณปล่อยให้แฮกเกอร์ระบายบัญชี คุณสูญเสียเงินและชื่อเสียง

ในการวิจัยของเรา XGBoost ให้ความสมดุลที่ดีที่สุด:

ความแม่นยำ: 98.2%
การเรียกคืน: 95.3% (จับการฉ้อโกงได้ 95% ของทั้งหมด)
ความล่าช้า: การอนุมานที่รวดเร็วเหมาะสำหรับการบล็อกแบบเรียลไทม์

บทสรุป

ยุคของการตรวจสอบการฉ้อโกงด้วยมือสิ้นสุดลงแล้ว ด้วยปริมาณธุรกรรมที่เพิ่มขึ้นอย่างรวดเร็ว การป้องกันที่ปรับขนาดได้เพียงอย่างเดียวคือ AI

โดยการรวม XGBoost สำหรับข้อมูลธุรกรรมที่มีโครงสร้างและ BERT สำหรับข้อมูลการสื่อสารที่ไม่มีโครงสร้าง เราสร้างโล่ที่แข็งแกร่งซึ่งปกป้องผู้ใช้ไม่เพียงแค่จากการสูญเสียทางการเงิน แต่ยังรวมถึงวิศวกรรมสังคมที่มาก่อนด้วย

ขั้นตอนต่อไปสำหรับนักพัฒนา:

ทำเป็นคอนเทนเนอร์: ห่อหุ้มสคริปต์ Python ข้างต้นใน Docker
เปิด API: ใช้ FastAPI เพื่อสร้างจุดสิ้นสุด /predict
ปรับใช้: ผลักไปยัง Kubernetes (EKS/GKE) สำหรับความสามารถในการปรับขนาดอัตโนมัติ

\ \

โอกาสทางการตลาด

ราคา RealLink(REAL)

$0.05277

$0.05277$0.05277

-0.28%

USD

RealLink (REAL) กราฟราคาสด

ข้อจำกัดความรับผิดชอบ: บทความที่โพสต์ซ้ำในไซต์นี้มาจากแพลตฟอร์มสาธารณะและมีไว้เพื่อจุดประสงค์ในการให้ข้อมูลเท่านั้น ซึ่งไม่ได้สะท้อนถึงมุมมองของ MEXC แต่อย่างใด ลิขสิทธิ์ทั้งหมดยังคงเป็นของผู้เขียนดั้งเดิม หากคุณเชื่อว่าเนื้อหาใดละเมิดสิทธิของบุคคลที่สาม โปรดติดต่อ service@mexc.com เพื่อลบออก MEXC ไม่รับประกันความถูกต้อง ความสมบูรณ์ หรือความทันเวลาของเนื้อหาใดๆ และไม่รับผิดชอบต่อการดำเนินการใดๆ ที่เกิดขึ้นตามข้อมูลที่ให้มา เนื้อหานี้ไม่ถือเป็นคำแนะนำทางการเงิน กฎหมาย หรือคำแนะนำจากผู้เชี่ยวชาญอื่นๆ และไม่ถือว่าเป็นคำแนะนำหรือการรับรองจาก MEXC