বুধবার, ৩১ অক্টোবর, ২০১৮

what is Roboot text? Robots.txt কী ?

Robots.txt কী ?


Robots.txt যখন সার্চ ইঞ্জিনগুলি ঘন ঘন আপনার সাইট পরিদর্শন করে এবং আপনার বিষয়বস্তুকে সূচী করে তবে অনেক সময় এমন কিছু ঘটনা ঘটে যখন আপনার অনলাইন সামগ্রীর অংশগুলিকে আপনি যা চান তা হয় না।

উদাহরণস্বরূপ, যদি আপনার কাছে একটি পৃষ্ঠার দুটি সংস্করণ থাকে (একটি ব্রাউজারে দেখার জন্য এবং একটি মুদ্রণের জন্য), আপনি বরং মুদ্রণ সংস্করণটিকে ক্রল করা থেকে বাদ দিতে চান, অন্যথায় আপনি একটি ডুপ্লিকেট সামগ্রী জরিমানা আরোপ করার ঝুঁকিতে থাকবেন৷ এছাড়াও, যদি আপনার সাইটে সংবেদনশীল ডেটা থাকে যা আপনি বিশ্বকে দেখতে না চান, তবে আপনি পছন্দ করবেন যে সার্চ ইঞ্জিনগুলি এই পৃষ্ঠাগুলিকে সূচীভুক্ত না করে (যদিও এই ক্ষেত্রে সংবেদনশীল ডেটা সূচীকরণ না করার একমাত্র নিশ্চিত উপায় হল এটি একটি পৃথক মেশিনে অফলাইনে রাখুন)।

অতিরিক্তভাবে, যদি আপনি ইমেজ, স্টাইলশীট এবং জাভাস্ক্রিপ্টকে সূচীকরণ থেকে বাদ দিয়ে কিছু ব্যান্ডউইথ সংরক্ষণ করতে চান তবে আপনাকে এই আইটেমগুলি থেকে দূরে থাকতে মাকড়সাদের বলার একটি উপায়ও প্রয়োজন।

আপনার ওয়েব সাইটের কোন ফাইল এবং ফোল্ডারগুলি এড়াতে হবে তা সার্চ ইঞ্জিনগুলিকে বলার একটি উপায় হল রোবট মেটাট্যাগ ব্যবহার করা।

কিন্তু যেহেতু সমস্ত সার্চ ইঞ্জিন মেটাট্যাগ পড়ে না, তাই রোবট ম্যাটাট্যাগগুলি অলক্ষিত হতে পারে। আপনার ইচ্ছা সম্পর্কে সার্চ ইঞ্জিনগুলিকে জানানোর একটি ভাল উপায় হল একটি robots.txt ফাইল ব্যবহার করা৷

Robots.txt কি?

Robots.txt হল একটি টেক্সট (এইচটিএমএল নয়) ফাইল যা আপনি সার্চ রোবটকে জানাতে আপনার সাইটে রাখেন যে কোন পৃষ্ঠাগুলি আপনি দেখতে চান না।

Robots.txt কোনোভাবেই সার্চ ইঞ্জিনের জন্য বাধ্যতামূলক নয় কিন্তু সাধারণত সার্চ ইঞ্জিনগুলি তাদের যা না করতে বলা হয় তা মেনে চলে।

এটা স্পষ্ট করা গুরুত্বপূর্ণ যে robots.txt আপনার সাইট ক্রল করা থেকে সার্চ ইঞ্জিনগুলিকে আটকানোর একটি উপায় নয় (অর্থাৎ এটি ফায়ারওয়াল, বা এক ধরনের পাসওয়ার্ড সুরক্ষা নয়) এবং আপনি যে একটি robots.txt ফাইল রাখেন তা হল এমন কিছু একটি আনলক করা দরজায় একটি নোট রাখা "দয়া করে, প্রবেশ করবেন না" - যেমন আপনি চোরদের ভিতরে আসতে বাধা দিতে পারবেন না কিন্তু ভাল ছেলেরা দরজা খুলে প্রবেশ করবে না।

এই কারণেই আমরা বলি যে আপনার কাছে যদি সত্যিই সংবেদনশীল ডেটা থাকে, তাহলে এটিকে সূচীকরণ এবং অনুসন্ধানের ফলাফলে প্রদর্শিত হওয়া থেকে রক্ষা করার জন্য robots.txt-এর উপর নির্ভর করা খুবই নির্বোধ। robots.txt এর অবস্থান খুবই গুরুত্বপূর্ণ।

এটি অবশ্যই প্রধান ডিরেক্টরিতে থাকতে হবে কারণ অন্যথায় ব্যবহারকারী এজেন্টরা (সার্চ ইঞ্জিন) এটি খুঁজে পেতে সক্ষম হবে না – তারা robots.txt নামের একটি ফাইলের জন্য পুরো সাইটটি অনুসন্ধান করে না। পরিবর্তে, তারা প্রথমে প্রধান ডিরেক্টরিতে দেখে (যেমন http://mydomain.com/robots.txt) এবং যদি তারা সেখানে এটি খুঁজে না পায় তবে তারা কেবল ধরে নেয় যে এই সাইটের কোনো robots.txt ফাইল নেই এবং তাই তারা তারা পথ বরাবর খুঁজে পাওয়া সবকিছু সূচক. তাই, যদি আপনি সঠিক জায়গায় robots.txt না রাখেন, তাহলে অবাক হবেন না যে সার্চ ইঞ্জিন আপনার পুরো সাইটকে ইনডেক্স করে।

robots.txt এর ধারণা এবং কাঠামো এক দশকেরও বেশি আগে তৈরি করা হয়েছে এবং আপনি যদি এটি সম্পর্কে আরও জানতে আগ্রহী হন তবে http://www.robotstxt.org/ এ যান অথবা আপনি সরাসরি রোবট বর্জনের জন্য স্ট্যান্ডার্ডে যেতে পারেন কারণ এই নিবন্ধে আমরা শুধুমাত্র একটি robots.txt ফাইলের সবচেয়ে গুরুত্বপূর্ণ দিকগুলি নিয়ে কাজ করব৷ এর পরে আমরা একটি robots.txt ফাইলের কাঠামোটি চালিয়ে যাব।



কোন মন্তব্য নেই:

একটি মন্তব্য পোস্ট করুন

গ্রামীণফোনের সিম থেকে ব্যালেন্স ট্রান্সফার করার নিয়ম

  গ্রামীণফোনের সিম থেকে ব্যালেন্স ট্রান্সফার করার নিয়ম  মাইজিপি থেকে খুব সহজেই ব্যালেন্স ট্রান্সফার করতে পারেন৷ ব্যালেন্স ট্রান্সফার করার স...