ভূমিকা

বড় সিস্টেমে ডাটাবেস সবসময় বাধা হয়ে দাঁড়ায়। ট্রাফিক বাড়লে ডাটাবেস দুইভাবে ফেইল করে:

  • স্টোরেজ সীমা – ডাটা এত বড় যে একটি মেশিনে ধরে না
  • পারফরম্যান্স সীমা – ক্যুয়রি এত বেশি যে একটি মেশিন হ্যান্ডেল করতে পারে না

রেপ্লিকেশন (Replication) এবং শার্ডিং (Sharding) - এই দুই কৌশল একসাথে ব্যবহার করলেই ডাটাবেস স্কেল করা সম্ভব।

সহজ ভাষায়:
রেপ্লিকেশন = একই ডাটার একাধিক কপি তৈরি করা (পড়ার ক্ষমতা বাড়ায়)
শার্ডিং = ডাটাকে ভাগ করে একাধিক মেশিনে ছড়িয়ে দেওয়া (লেখার ক্ষমতা ও স্টোরেজ বাড়ায়)


পর্ব ১: রেপ্লিকেশন (Replication)

রেপ্লিকেশন কী?

রেপ্লিকেশন হলো একই ডাটাকে একাধিক সার্ভারে কপি করে রাখা। একটি প্রাইমারি (মাস্টার) সার্ভার থাকে যেখানে লেখা হয়, আর একাধিক সেকেন্ডারি (স্লেভ) সার্ভার থাকে যারা প্রাইমারির ডাটা কপি করে রাখে।

        [ক্লায়েন্ট]
             |
             ↓ (লেখার অনুরোধ)
      ┌─────────────┐
      │  প্রাইমারি   │
      │  (মাস্টার)   │
      └──────┬──────┘
             │ (রেপ্লিকেশন)
      ┌──────┴──────┬──────────┐
      ↓             ↓          ↓
┌──────────┐ ┌──────────┐ ┌──────────┐
│সেকেন্ডারি│ │সেকেন্ডারি│ │সেকেন্ডারি│
│ (স্লেভ)  │ │ (স্লেভ)  │ │ (স্লেভ)  │
└────┬─────┘ └────┬─────┘ └────┬─────┘
     │            │            │
     └────────────┴────────────┘
                  ↑
             (পড়ার অনুরোধ)
            [ক্লায়েন্ট]

রেপ্লিকেশনের প্রকারভেদ

প্রকার বর্ণনা সুবিধা অসুবিধা
সিঙ্ক্রোনাস প্রাইমারি লেখার পর সেকেন্ডারি নিশ্চিত না করা পর্যন্ত রেসপন্স দেয় না ডাটা কখনো হারায় না (কনসিস্টেন্সি) লেটেন্সি বাড়ে
অ্যাসিঙ্ক্রোনাস প্রাইমারি দ্রুত রেসপন্স দেয়, ব্যাকগ্রাউন্ডে রেপ্লিকেশন হয় দ্রুত, ভালো পারফরম্যান্স সাময়িক অমিল থাকতে পারে
সেমি-সিঙ্ক্রোনাস অন্তত একটি সেকেন্ডারি নিশ্চিত হওয়া পর্যন্ত অপেক্ষা করে ব্যালেন্সড কনফিগারেশন জটিল

রেপ্লিকেশন টপোলজি

১. মাস্টার-স্লেভ (এক মাস্টার, একাধিক স্লেভ)

  • লেখা শুধু মাস্টারে, পড়া যেকোনো স্লেভে
  • সবচেয়ে সাধারণ

২. মাল্টি-মাস্টার (একাধিক মাস্টার)

  • একাধিক মাস্টারে লেখা যায়
  • কনফ্লিক্ট রেজোলিউশন প্রয়োজন

৩. মাস্টার-মাস্টার (পিয়ার-টু-পিয়ার)

  • দুটি মাস্টার, দুটিতেই লেখা যায়
  • অ্যাপ্লিকেশন লেভেলে কনফ্লিক্ট হ্যান্ডেল করতে হবে

৪. ক্রেডেবল রেপ্লিকা

  • সেকেন্ডারিরাও লেখা নিতে পারে (স্থানীয়ভাবে)
  • পরবর্তীতে প্রাইমারির সাথে মিলিয়ে নেয়

রেপ্লিকেশনের সুবিধা

সুবিধা ব্যাখ্যা
উচ্চ অ্যাভেইলেবিলিটি একটি সার্ভার ডাউন হলেও অন্য সার্ভার থেকে পড়া যায়
স্কেলেবল রিড থ্রুপুট একাধিক স্লেভ থেকে রিকোয়েস্ট সার্ভ করা যায়
ডিজাস্টার রিকভারি ব্যাকআপ হিসেবে কাজ করে
লেটেন্সি কমানো ইউজারের নিকটবর্তী রেপ্লিকা থেকে পড়া যায় (জিও-ডিস্ট্রিবিউশন)
অ্যানালিটিক্স অফলোড রিপোর্টিং জেনারেশনের জন্য স্লেভ ব্যবহার করা যায়

রেপ্লিকেশনের চ্যালেঞ্জ

চ্যালেঞ্জ সমাধান
রেপ্লিকেশন ল্যাগ অ্যাসিঙ্ক্রোনাস রেপ্লিকেশনে স্লেভ পিছিয়ে পড়তে পারে → মনিটরিং ও থ্রটলিং
স্টেল রিড ইউজার নিজের লেখা ডাটা পড়তে না পারলে? → "রিড আফটার রাইট" কনসিস্টেন্সি
কনফ্লিক্ট (মাল্টি-মাস্টারে) লাস্ট রাইট উইন্স (LWW), ক্রিডিটিবল রেপ্লিকা, বা অ্যাপ্লিকেশন লেভেল রেজোলিউশন
ফেইলওভার জটিলতা মাস্টার ডাউন হলে স্বয়ংক্রিয়ভাবে নতুন মাস্টার নির্বাচন → কনসেনসাস অ্যালগরিদম (Raft, Paxos)

রেপ্লিকেশন কৌশল নির্বাচন গাইড

যদি চান তাহলে ব্যবহার করুন
একদম কনসিস্টেন্ট ডাটা সিঙ্ক্রোনাস রেপ্লিকেশন
দ্রুত রেসপন্স, সামান্য অমিল tolerable অ্যাসিঙ্ক্রোনাস রেপ্লিকেশন
যদি লেখাও স্কেল করতে চান মাল্টি-মাস্টার রেপ্লিকেশন
ভৌগোলিকভাবে ছড়ানো ইউজার জিও-ডিস্ট্রিবিউটেড রেপ্লিকা

পর্ব ২: শার্ডিং (Sharding)

শার্ডিং কী?

শার্ডিং হলো একটি বড় ডাটাবেসকে ছোট ছোট শার্ডে ভাগ করে একাধিক সার্ভারে ছড়িয়ে দেওয়া। প্রতিটি শার্ড স্বতন্ত্র ডাটাবেস (একটি মেশিনে)। ডাটা কীভাবে ভাগ হবে তা নির্ধারণ করে শার্ড কী

                    [অ্যাপ্লিকেশন]
                         |
                    (শার্ড কী: user_id)
                         |
        ┌────────────────┼────────────────┐
        ↓                ↓                ↓
   ┌────────┐       ┌────────┐       ┌────────┐
   │ শার্ড ১ │       │ শার্ড ২ │       │ শার্ড ৩ │
   │ user_id │       │ user_id │       │ user_id │
   │ 1-1000  │       │1001-2000│       │2001-3000│
   └────────┘       └────────┘       └────────┘
   মেশিন A          মেশিন B          মেশিন C

শার্ডিং স্ট্রাটেজি

১. রেঞ্জ-বেসড শার্ডিং

  • কী-র পরিসর অনুযায়ী ভাগ করা (যেমন: 1-1000, 1001-2000)
  • সহজ, রেঞ্জ ক্যোয়ারি সম্ভব
  • অসুবিধা: হট স্পট হতে পারে (নতুন ডাটা এক শার্ডে জমে)

২. হ্যাশ-বেসড শার্ডিং

  • শার্ড কী-র হ্যাশ নিয়ে modulo করা
  • ডাটা সমানভাবে বিতরণ হয়
  • অসুবিধা: রেঞ্জ ক্যোয়ারি কঠিন
# হ্যাশ-বেসড শার্ডিং উদাহরণ
shard_id = hash(user_id) % number_of_shards  # 0, 1, 2, ...

৩. ডিরেক্টরি-বেসড শার্ডিং

  • আলাদা লুকআপ টেবিল রাখা যা বলে কোন কী কোন শার্ডে আছে
  • সবচেয়ে ফ্লেক্সিবল
  • অসুবিধা: লুকআপ টেবিল নিজেই বটলনেক হতে পারে

৪. জিও-বেসড শার্ডিং

  • ভৌগোলিক অবস্থান অনুযায়ী (যেমন: ঢাকা শার্ড, চট্টগ্রাম শার্ড)
  • লেটেন্সি কমানোর জন্য

শার্ড কী নির্বাচনের নিয়ম

নিয়ম ব্যাখ্যা উদাহরণ
কার্ডিনালিটি বেশি শার্ড কী-র সম্ভাব্য মান অনেক হতে হবে user_id (ভালো), gender (খারাপ)
ইউনিফর্ম ডিস্ট্রিবিউশন প্রতিটি শার্ডে সমান ডাটা পড়বে hash(user_id)
কোয়েরি প্যাটার্ন যে ফিল্ড দিয়ে বেশিরভাগ কোয়েরি করবেন তা-ই শার্ড কী customer_id
অ্যাটমিক পরিবর্তন হওয়ার সম্ভাবনা কম জন্ম তারিখ (ভালো), বর্তমান শহর (খারাপ)

শার্ডিংয়ের সুবিধা

সুবিধা ব্যাখ্যা
অলিমিটেড স্টোরেজ নতুন শার্ড যোগ করেই ডাটা বাড়ানো যায় (হরাইজন্টাল স্কেলিং)
উচ্চ রাইট থ্রুপুট লেখা একাধিক সার্ভারে ছড়িয়ে যায়
ফল্ট টলারেন্স একটি শার্ড ডাউন হলেও অন্যগুলো কাজ করে
কোয়েরি পারফরম্যান্স প্রতিটি শার্ডে ডাটা কম → দ্রুত কোয়েরি

শার্ডিংয়ের চ্যালেঞ্জ

চ্যালেঞ্জ সমাধান
রিশার্ডিং (শার্ড বাড়ানো/কমানো) কনসিস্টেন্ট হ্যাশিং, লজিক্যাল শার্ড (ফিজিক্যালের ম্যাপিং আলাদা)
হট স্পট শার্ড কী নকশা ভালো করা, বা রাইট শার্ডিংয়ের বিকল্প পদ্ধতি
ক্রস-শার্ড কোয়েরি ডিনরমালাইজেশন, বা ম্যাপ-রিডিউস স্টাইল প্রসেসিং
জয়েন করা কঠিন অ্যাপ্লিকেশন লেভেলে জয়েন বা ডিনরমালাইজেশন
অ্যাটমিক ট্রানজেকশন নেই ডিস্ট্রিবিউটেড ট্রানজেকশন (২ পিএইচ) বা সাগা প্যাটার্ন

পর্ব ৩: রেপ্লিকেশন + শার্ডিং একসাথে

বাস্তব সিস্টেমে দুটো একসাথে ব্যবহার করতে হয়। এটাকেই বলে কম্বাইন্ড আর্কিটেকচার

                     [লোড ব্যালান্সার]
                            |
        ┌───────────────────┴───────────────────┐
        ↓                                       ↓
   [শার্ড এ]                                [শার্ড বি]
   (user_id 1-500)                          (user_id 501-1000)
        |                                           |
   (রেপ্লিকেশন)                               (রেপ্লিকেশন)
        ↓                                           ↓
   ┌────┴────┐                                 ┌────┴────┐
   ↓         ↓                                 ↓         ↓
[মাস্টার এ] [স্লেভ এ১]                      [মাস্টার বি] [স্লেভ বি১]
[স্লেভ এ২]                                 [স্লেভ বি২]

উদাহরণ: ই-কমার্স অর্ডার সিস্টেম

ধাপ ১: অর্ডার ডাটাকে order_id-এর হ্যাশ অনুযায়ী ৪টি শার্ডে ভাগ করুন (শার্ডিং)।

ধাপ ২: প্রতিটি শার্ডের জন্য ১টি মাস্টার ও ২টি স্লেভ রাখুন (রেপ্লিকেশন)।

ধাপ ৩:

  • লেখার অনুরোধ → প্রাসঙ্গিক শার্ডের মাস্টারে যাবে
  • পড়ার অনুরোধ → যেকোনো শার্ডের যেকোনো স্লেভে যাবে

ফলাফল:

  • ৪টি শার্ড → লেখার ক্ষমতা ৪ গুণ
  • প্রতি শার্ডে ৩টি করে সার্ভার (১ মাস্টার + ২ স্লেভ) → পড়ার ক্ষমতা ১২ গুণ

শিল্পে বাস্তব উদাহরণ

কোম্পানি পদ্ধতি বিবরণ
ফেসবুক রেঞ্জ শার্ডিং + মাল্টি-মাস্টার ইউজার আইডি অনুযায়ী শার্ড, প্রতিটি শার্ডের মাল্টি-মাস্টার
গুগল (Bigtable) হ্যাশ + রেঞ্জ হ্যাশের পর রেঞ্জ শার্ডিং
ইউটিউব ভিডিও আইডি-র হ্যাশ ভিডিও ভিউ ডাটা শার্ডিং
আমাজন (DynamoDB) হ্যাশ + রেঞ্জ (ADAPTIVE) স্বয়ংক্রিয়ভাবে পার্টিশন ভাগ করে

চিটশিট: কখন কোনটা ব্যবহার করবেন

যদি সমস্যা হয় সমাধান কেন?
পড়ার পরিমাণ বেশি, ডাটার পরিমাণ কম রেপ্লিকেশন একাধিক স্লেভ রিড সার্ভ করতে পারে
ডাটার পরিমাণ বেশি, লেখার পরিমাণ কম শার্ডিং ডাটা একাধিক মেশিনে ভাগ হবে
দুই-ই বেশি শার্ডিং + রেপ্লিকেশন লেখা শার্ডে, পড়া রেপ্লিকায়
ডাটা কম কিন্তু পড়া বেশি ক্যাশিং + রেপ্লিকেশন ক্যাশে দ্রুত, রেপ্লিকা ব্যাকআপ
ডাটা বিশাল কিন্তু প্রায়ই লেখা হয় না শার্ডিং কোল্ড স্টোরেজ
ট্রানজেকশন জরুরি রেপ্লিকেশন (মাস্টার-স্লেভ) শার্ডিং ক্রস-শার্ড জয়েন কঠিন

সচরাচর জিজ্ঞাসিত প্রশ্ন (FAQ)

১. শার্ডিং ছাড়া কি রেপ্লিকেশন চলে?

হ্যাঁ। ছোট সিস্টেমে রেপ্লিকেশন দিয়েই কাজ চলে (পড়া স্কেলিংয়ের জন্য)।

২. রেপ্লিকেশন ছাড়া কি শার্ডিং চলে?

না। শার্ড ডাউন হলে পুরো ডাটা হারানোর সম্ভাবনা। রেপ্লিকেশন দরকার।

৩. কোন কোম্পানি কেমন রেপ্লিকেশন ব্যবহার করে?

  • GitHub: মাস্টার-স্লেভ (MySQL)
  • Netflix: মাল্টি-মাস্টার (Cassandra)
  • Uber: শার্ডিং + রেপ্লিকেশন (MySQL)

৪. কনসিস্টেন্ট হ্যাশিং কীভাবে কাজ করে?

হ্যাশ রিংয়ে শার্ড ও কী উভয়কেই স্থাপন করে,শার্ড সংখ্যা বাড়ালে শুধু প্রতিবেশী শার্ড প্রভাবিত হয়।

Share