এই সাক্ষাৎকারে, আমরা থেটার একজন প্রতিষ্ঠাতা প্রকৌশলী অ্যাশটনের সাথে রিইনফোর্সমেন্ট লার্নিং ইনফ্রাস্ট্রাকচারের অত্যাধুনিক বিষয় নিয়ে আলোচনা করি। তিনি ব্যাখ্যা করেনএই সাক্ষাৎকারে, আমরা থেটার একজন প্রতিষ্ঠাতা প্রকৌশলী অ্যাশটনের সাথে রিইনফোর্সমেন্ট লার্নিং ইনফ্রাস্ট্রাকচারের অত্যাধুনিক বিষয় নিয়ে আলোচনা করি। তিনি ব্যাখ্যা করেন

লেখকের সাথে পরিচয়: অ্যাশটন চিউ, থিটার প্রতিষ্ঠাতা ইঞ্জিনিয়ার

2025/12/15 04:25


চলুন শুরু করি! আপনার সম্পর্কে কিছু বলুন। উদাহরণস্বরূপ, নাম, পেশা এবং ব্যক্তিগত আগ্রহ।

হ্যালো! আমার নাম অ্যাশটন, এবং আমি থেটা-তে একজন প্রতিষ্ঠাতা প্রকৌশলী যেখানে আমি RL ইনফ্রা, RL, এবং বিতরণকৃত সিস্টেমের উপর কাজ করি। আমি বিশেষভাবে কম্পিউটার-ব্যবহার এবং টুল-ব্যবহারের উপর ফোকাস করি। আমার অতীতে, আমি অ্যামাজন AGI-তে কাজ করেছি এবং ইনফারেন্স এবং টুল-ব্যবহার ইনফ্রাস্ট্রাকচার নিয়ে কাজ করেছি। আমার অবসর সময়ে, আমি গ্রাফিক ডিজাইন, সাইড-প্রজেক্ট এবং বোল্ডারিং পছন্দ করি।

আকর্ষণীয়! আপনার সর্বশেষ হ্যাকারনুন টপ স্টোরি কী সম্পর্কে ছিল?

আমার সর্বশেষ গল্প, "আপনার AI কি আসলেই একটি কম্পিউটার ব্যবহার করতে পারে? কম্পিউটার-ব্যবহারের বেঞ্চমার্কের একটি ২০২৫ মানচিত্র," VC-তে এখন সবচেয়ে গরম স্পেসগুলির একটিকে স্পর্শ করেছে: RL পরিবেশ এবং মূল্যায়ন। আমি সবচেয়ে বেশি ব্যবহৃত কম্পিউটার-ব্যবহার বেঞ্চমার্কগুলির একটি ব্যাপক ওভারভিউ দিয়েছি, এবং কম্পিউটার-ব্যবহার এজেন্টদের প্রশিক্ষণ এবং পরীক্ষার জন্য বেঞ্চমার্ক কীভাবে বেছে নিতে হয় সে সম্পর্কে ব্যবহারিক পরামর্শ দিয়েছি।

আমি একই ফাঁকে পড়তে থাকি: এমন অনেক নিবন্ধ নেই যা বেঞ্চমার্কগুলি নিজেদের পর্যালোচনা করে। এবং যেহেতু এই ক্ষেত্রটি বাড়ছে, তাই আমরা আসলেই গুণমান মূল্যায়ন করছি তা নিশ্চিত করা অত্যন্ত গুরুত্বপূর্ণ, যা কিছু মেট্রিক গেমিং করতে পারে তা পুরস্কৃত করার পরিবর্তে। আমরা আগেও এখানে ছিলাম। LLM-এর প্রাথমিক দিনগুলিতে, বেঞ্চমার্কগুলি এতটাই এলোমেলো এবং ভিন্ন ছিল যে তারা কেবল দুর্বলভাবে প্রকৃত বিজয়ীকে প্রতিফলিত করত।

বেঞ্চমার্কগুলি "সেরা মডেল" এর জন্য ডি ফ্যাক্টো স্কোরবোর্ড হয়ে উঠেছিল, এবং তারপর লোকেরা বুঝতে পেরেছিল যে তাদের অনেকেই তারা যা দাবি করেছিল তা পরিমাপ করছিল না।

প্রাথমিক যুগের সবচেয়ে প্রকাশ্য ব্যর্থতাগুলির মধ্যে একটি ছিল যখন "পাঠ বোধ" চুপচাপ "ডেটাসেট কাঠামোতে প্যাটার্ন মিলানো" হয়ে গেল। গবেষকরা ইচ্ছাকৃতভাবে উস্কানিমূলক বেসলাইন (শুধুমাত্র-প্রশ্ন, শুধুমাত্র-শেষ-বাক্য) চালিয়েছিল, এবং ফলাফলগুলি একটি অস্বস্তিকর সম্ভাবনা তুলে ধরার জন্য যথেষ্ট উচ্চ ছিল: বেঞ্চমার্কটি ধারাবাহিকভাবে মডেলগুলিকে সম্পূর্ণ অনুচ্ছেদ ব্যবহার করতে বাধ্য করেনি। ২০১৮ সালের একটি সমালোচনায়, বিষয়টি এই ছিল না যে পড়া কখনও গুরুত্বপূর্ণ নয়, কিন্তু কিছু ডেটাসেট দুর্ঘটনাক্রমে এটিকে ঐচ্ছিক করে তুলেছিল সাম্প্রতিকতা এবং স্টেরিওটাইপ উত্তর প্রায়োরিটির মতো শর্টকাটগুলিকে অতিরিক্ত পুরস্কৃত করে।

\

# অনুমিত কাজ: প্রশ্নের উত্তর দিন অনুচ্ছেদ এবং প্রশ্ন দেওয়া হয়েছে অনুচ্ছেদ (সারাংশ): - বাক্য ১-৮: স্কুলে জনের দিন (বেশিরভাগ অপ্রাসঙ্গিক বিবরণ) - বাক্য ৯: "স্কুলের পরে, জন রান্নাঘরে গেল।" - বাক্য ১০: "সে তার হোমওয়ার্ক শুরু করার আগে একটি পিৎজার টুকরো খেয়েছিল।" প্রশ্ন: "জন কী খেয়েছিল?" উত্তর: "পিৎজা"

বেঞ্চমার্কটি দুর্ঘটনাক্রমে একটি শর্টকাটকে পুরস্কৃত করে যেখানে মডেলটি শেষ বাক্যটিকে অতিরিক্ত ওজন দেয় (কারণ উত্তরটি প্রায়ই শেষের দিকে থাকে) এবং সহজভাবে সর্বাধিক সাম্প্রতিক ক্রিয়ার সরাসরি বস্তুটি বের করে ("খেয়েছিল ___"), যা এই ক্ষেত্রে "পিৎজা" দেয়।

এবং তারপরে আসে আরও বেশি ক্ষতিকারক বেসলাইন: অনুচ্ছেদটি সম্পূর্ণরূপে সরিয়ে ফেলুন এবং দেখুন কী ঘটে। যদি শুধুমাত্র-প্রশ্ন মডেলটি প্রতিযোগিতামূলক হয়, তাহলে এটি একটি সংকেত যে ডেটাসেটটি অনুচ্ছেদ-ভিত্তিক বোধগম্যতা পরীক্ষা করার পরিবর্তে পুনরাবৃত্তি এবং প্রায়োরিটির মাধ্যমে সিগন্যাল ফাঁস করছে।

প্রশ্ন: "জন কী খেয়েছিল?"

এই বেসলাইনটি মূলত একটি সুস্থতা পরীক্ষা: মডেলটি কি অনুচ্ছেদে কোনও ভিত্তি ছাড়াই উচ্চ-ফ্রিকোয়েন্সি উত্তর টেমপ্লেটগুলির উপর নির্ভর করে ভালো স্কোর করতে পারে? বাস্তবে এটি শুধু একটি টোকেন অনুমান করে যা ডেটাসেটটি অসমানুপাতিকভাবে পুরস্কৃত করে ("পিৎজা," "স্যান্ডউইচ"), এবং যদি তা প্রয়োজনের তুলনায় বেশি কাজ করে, তাহলে আপনি বোধগম্যতা পরিমাপ করছেন না, বরং আপনি ডেটাসেটের প্রায়োরিটি পরিমাপ করছেন।

কম্পিউটার-ব্যবহার মূল্যায়নগুলি ইতিমধ্যে আরও বেশি আক্ষরিক শর্টকাট তৈরি করেছে: এজেন্টের একটি ব্রাউজার আছে, বেঞ্চমার্কটি সর্বজনীন, এবং মূল্যায়নটি শেষ পৃষ্ঠায় উত্তর কী সহ একটি ওপেন-বুক পরীক্ষায় পরিণত হয়। হোলিস্টিক এজেন্ট লিডারবোর্ড (HAL) পেপারে, লেখকরা এমন এজেন্টদের পর্যবেক্ষণ করার কথা জানিয়েছেন যারা কাজটি সমাধান করার পরিবর্তে HuggingFace-এ বেঞ্চমার্কটি খুঁজেছিল, একটি আচরণ যা আপনি কেবল লগগুলি পরিদর্শন করলেই ধরতে পারেন।

\

# অনুমিত কাজ: ওয়েব পরিবেশের মধ্যে একটি ওয়ার্কফ্লো সম্পূর্ণ করুন কাজ: "অ্যাপে সেটিং X কনফিগার করুন এবং এটি সক্ষম আছে কিনা যাচাই করুন।" ব্যর্থতার মোড: 1) একটি নতুন ট্যাব খুলুন 2) অনুসন্ধান করুন: "বেঞ্চমার্ক X প্রত্যাশিত সক্ষম অবস্থা" / "HAL <বেঞ্চমার্ক> সেটিং X" 3) খুঁজুন: রেপো / লিডারবোর্ড রাইটআপ / ডেটাসেট কার্ড / ইস্যু থ্রেড 4) প্রত্যাশিত শেষ অবস্থা (উত্তর) পুনরুৎপাদন করুন

সেই পর্যায়ে, মূল্যায়নটি পরিমাপ করছিল যে এটি উত্তর কী খুঁজে পেতে পারে কিনা।

কাজ: "সঠিক পৃষ্ঠা খুঁজুন এবং Y বের করুন।" ব্যর্থতার মোড: - অনুসন্ধান: "<বেঞ্চমার্ক নাম> Y" - একটি পাবলিক আর্টিফ্যাক্ট (ডকস, ফোরাম পোস্ট, ডেটাসেট কার্ড) থেকে কপি করুন - মানটি এজেন্ট আউটপুটে পেস্ট করুন যেন এটি ইন্টারঅ্যাকশন থেকে এসেছে

যদি একটি এজেন্ট একটি ডেটাসেট কার্ড বা রেপো থেকে মান টানতে পারে এবং তবুও "পাস" করতে পারে, তাহলে সাফল্য চেকটি ইন্টারঅ্যাকশন সঠিকতা নয়, সম্ভাব্যতা গ্রেডিং করছে। পাবলিক টাস্ক প্লাস অগভীর যাচাইকরণ ওয়েব সার্চকে একটি এক্সপ্লয়েটে পরিণত করে।

এই দুটি উদাহরণ হল সতর্কতামূলক শট: যদি আমরা প্রাথমিকভাবে কম্পিউটার-ব্যবহার বেঞ্চমার্কগুলিকে উচ্চতর মানদণ্ডে না রাখি, তাহলে আমরা LLM যুগটি পুনরাবৃত্তি করব শুধুমাত্র আরও ভাল UI এবং প্রতারণা করার আরও বিস্তৃত উপায় সহ।

আপনি কি সাধারণত অনুরূপ বিষয়গুলি নিয়ে লেখেন? যদি না হয়, তাহলে আপনি সাধারণত কী নিয়ে লেখেন?

হ্যাঁ! কম্পিউটার-ব্যবহারের চারপাশে RL পরিবেশ এবং RL ইনফ্রা নিয়ে কাজ করে, আমি সর্বদা সেরা কম্পিউটার-ব্যবহার মডেল এবং সবচেয়ে বাস্তবসম্মত প্রশিক্ষণ পরিবেশ দ্বারা বেষ্টিত। তাই আমি আরেকটি নিবন্ধ লিখেছি, "দ্য স্ক্রিন ইজ দ্য API," যা কম্পিউটার-ব্যবহারের পক্ষে এবং এটি কেন AI মডেলের ভবিষ্যৎ।

এই স্পেসটি দুটি কারণে অত্যন্ত কম রিপোর্ট করা হয়:

  1. মডেলগুলি অন্যান্য কাজের (কোডিং, গণিত ইত্যাদি) তুলনায় কম্পিউটার-ব্যবহারে ততটা সক্ষম নয়।
  2. কম্পিউটার-ব্যবহার দ্রুত চলমান এবং অত্যন্ত নতুন।

আমি তা পরিবর্তন করতে চাই।

চমৎকার! আপনার স্বাভাবিক লেখার রুটিন কেমন (যদি আপনার থাকে)

আমি সাধারণত অনেকগুলি গবেষণা পত্র পড়ি এবং একটি বিষয়ে তাদের চিন্তাভাবনা সম্পর্কে শিল্পের আমার সহকর্মীদের সাথে কথা বলি। এছাড়াও, আমি PG-এর মতো দুর্দান্ত ব্লগারদের দ্বারা লেখা নিবন্ধগুলি পড়তে অনেক সময় ব্যয় করি। তাই আমি সাধারণত আমার লেখায় অন্য লোকদের কাছ থেকে অনেক অনুপ্রেরণা নিই।

প্রযুক্তিতে একজন লেখক হওয়া একটি চ্যালেঞ্জ হতে পারে। এটি প্রায়শই আমাদের প্রধান ভূমিকা নয়, তবে অন্য একটির সাথে একটি সংযোজন। লেখার ক্ষেত্রে আপনার সবচেয়ে বড় চ্যালেঞ্জ কী?

বসে আমার জীবনের অভিজ্ঞতাকে শব্দে রূপান্তরিত করার সময় খুঁজে পাওয়া।

আপনার ক্যারিয়ারে আপনি পরবর্তী কী অর্জন করতে আশা করেন?

দুর্দান্ত লোকদের সাথে কঠিন সমস্যাগুলি সমাধান করা, সেই লোকদের কাছ থেকে শেখা এবং আমার অভিজ্ঞতা শেয়ার করা।

ওয়াও, তা প্রশংসনীয়। এখন, আরও অনানুষ্ঠানিক কিছু: আপনার পছন্দের দোষী আনন্দ কী?

সিনেমা দেখা! আমার এখন প্রিয় সিনেমা হল ক্যাচ মি ইফ ইউ ক্যান (২০০২)।

আপনার কি কোন নন-টেক-সম্পর্কিত শখ আছে? যদি হ্যাঁ, তাহলে সেটি কী?

আমি বোল্ডারিং পছন্দ করি কারণ এটি আমাকে এমন অনুভব করায় যেন আমি ক্লাইম্বিং ওয়ালের সাথে ইন্টারঅ্যাক্ট করছি একটি মানব কম্পিউটার-ব্যবহার এজেন্ট। আমি ঠাট্টা করছি। আমি মনে করি বোল্ডারিং অনেক মজার কারণ এটি আমাকে কাজের থেকে মন সরিয়ে আমার চিন্তাভাবনা একত্রিত করতে সাহায্য করে।

হ্যাকার নুন কমিউনিটি আপনার কাছ থেকে পরবর্তীতে কী পড়তে আশা করতে পারে?

আমি বর্তমানে RL পরিবেশ ইনফ্রাস্ট্রাকচার সম্পর্কে আরেকটি লেখা লিখছি!

লেখকদের জন্য একটি প্ল্যাটফর্ম হিসাবে হ্যাকারনুন সম্পর্কে আপনার মতামত কী?

আমি মনে করি রিভিউ কাঠামোটি দুর্দান্ত, এবং এটি আমার জন্য প্রযুক্তিগত পাঠকদের সামনে আমার চিন্তাভাবনা রাখার জন্য একটি দুর্দান্ত জায়গা ছিল।

আমাদের "লেখকের সাথে সাক্ষাৎ" সিরিজে যোগ দেওয়ার জন্য সময় নেওয়ার জন্য ধন্যবাদ। এটা একটি আনন্দ ছিল। আপনার কি কোন সমাপনী বক্তব্য আছে?

আমি লেখা পছন্দ করি। ধন্যবাদ, হ্যাকারনুন!

ডিসক্লেইমার: এই সাইটে পুনঃপ্রকাশিত নিবন্ধগুলো সর্বসাধারণের জন্য উন্মুক্ত প্ল্যাটফর্ম থেকে সংগ্রহ করা হয়েছে এবং শুধুমাত্র তথ্যের উদ্দেশ্যে প্রদান করা হয়েছে। এগুলো আবশ্যিকভাবে MEXC-এর মতামতকে প্রতিফলিত করে না। সমস্ত অধিকার মূল লেখকদের কাছে সংরক্ষিত রয়েছে। আপনি যদি মনে করেন কোনো কনটেন্ট তৃতীয় পক্ষের অধিকার লঙ্ঘন করেছে, তাহলে অনুগ্রহ করে অপসারণের জন্য service@support.mexc.com এ যোগাযোগ করুন। MEXC কনটেন্টের সঠিকতা, সম্পূর্ণতা বা সময়োপযোগিতা সম্পর্কে কোনো গ্যারান্টি দেয় না এবং প্রদত্ত তথ্যের ভিত্তিতে নেওয়া কোনো পদক্ষেপের জন্য দায়ী নয়। এই কনটেন্ট কোনো আর্থিক, আইনগত বা অন্যান্য পেশাদার পরামর্শ নয় এবং এটি MEXC-এর সুপারিশ বা সমর্থন হিসেবে গণ্য করা উচিত নয়।

আপনি আরও পছন্দ করতে পারেন

প্রেডিকশন মার্কেটস বাজি ধরছে যে বছর শেষের আগে BTC $১০০K ছুঁতে পারবে না, কিন্তু ETF ইনফ্লো সেন্টিমেন্ট উন্নতির সংকেত দিচ্ছে

প্রেডিকশন মার্কেটস বাজি ধরছে যে বছর শেষের আগে BTC $১০০K ছুঁতে পারবে না, কিন্তু ETF ইনফ্লো সেন্টিমেন্ট উন্নতির সংকেত দিচ্ছে

প্রেডিকশন মার্কেটগুলি বাজি ধরছে যে বছরের শেষের আগে বিটকয়েন (BTC) $১০০,০০০ পৌঁছাবে না, যা অস্থিরতার মধ্যে সতর্ক দৃষ্টিভঙ্গি প্রতিফলিত করে। তবে, ক্রিপ্টো ETF-গুলি $৭০০ মিলিয়ন ইনফ্লো আকর্ষণ করার সাথে সাথে সেন্টিমেন্ট উর্ধ্বমুখী হচ্ছে—যা ছয় সপ্তাহে দ্বিতীয় সর্বোচ্চ সাপ্তাহিক পরিমাণ। একই সময়ে, GameFi সেক্টরের মার্কেট ক্যাপ ১% কমে $৯ বিলিয়নে নেমে এসেছে, কিন্তু পাওয়ার প্রোটোকল এই প্রবণতার বিপরীতে গিয়ে +১১০% বৃদ্ধি পেয়েছে।
শেয়ার করুন
MEXC NEWS2025/12/15 15:38