نشــریــه

وبلاگ اجتماعی- مذهبی و تخصصی رسانه

نشــریــه

وبلاگ اجتماعی- مذهبی و تخصصی رسانه

کتابخانه دیجیتال

یک کتابخانه دیجیتالی برای مربیان علوم کامپیوتری

کتابخانه دیجیتالی که ما در توسعه آن کمک کردیم با عنوان "The Computing Laboratory Repository"

نامگذاری شده است. این کتابخانه بوسیله [1]"SIGCSE" از [2]"ACM" پایه گذاری شده است. این مخزن مجموعة مواد آزمایشگاهی که بوسیلة مربیان علوم کامپیوتر برای توسعه و بهبود برنامه درسی فراهم آمده است را پشتیبانی می کند. این سایت  

(http://spring field.Tcnj.edu:8000/~compsci/index 2.html)

 

در حال حاضر واگذاری چکیده های آزمایشگاه را بصورت پیوسته (on line) حمایت کرده و اجازه بازیابی از طریق جستجوی کلید واژه ای را می دهد. در حال حاضر دو بخش مجزا برای کتابخانه دیجیتال ما وجود دارد: بخشهای "مرور شده توسط همتایان" (Peer-Reviewd) و "مرور شده توسط سردبیر" (editorreviewd). بخش مرور شده توسط همتایان شامل آزمایشگاهای on-line می باشد که توسط گروهی از منتقدین اهل فن داوری شده است. بخش مرور شده توسط سردبیر نیز شامل آزمایشگاههای on-line می باشد، اما این آزمایشگاهها فقط توسط سردبیر سایت مرور شده اند.

گروه کاری SIGCSE که بر روی آزمایشگاههای بسته کار می کند نیازهای اولیه برای مخزن آزمایشگاه را در تابستان 1995 شرح داده است. بعد از آن کار در زمینه ارائه راهبردهایی برای گسترش واگذاری و افزایش دسترس پذیری کتابخانه ادامه پیدا کرده است.

 

طراحی و اجرا

ملزومات

     یکی از مطالب اولیه طراحی به هنگام ایجاد یک کتابخانه دیجیتالی فراهم آوردن لیستی از ملزومات سطح بالا می باشد. این لیست شامل موارد زیر می شود: چه نوع اطلاعاتی کتابخانه در بر خواهد داشت، این اطلاعات چگونه تولید خواهند شد، چه مخاطبینی برای این اطلاعات انتظار می رود و داده ها چگونه در دسترس قرار خواهند گرفت. در مورد پروژه ما می خواستیم یک مخزن برای آزمایشگاههای علوم کامپیوتر ایجاد کنیم. مربیان از سراسر دنیا قادر خواهند بود وب سایت را ملاقات کنند و اطلاعاتی که در مورد آزمایشگاههایی که در کلاسهای درسشان از آن استفاده می کنند بدست آورند. با این تعریف می بینیم که: اطلاعات برای کتابخانه باید از طریق واگذاری پیوسته (on line) جمع آوری شود، مخاطبین مورد انتظار، مربیان علوم کامپیوتری در سراسر دنیا می باشند، و داده ها باید از طریق وب قابل دسترسی باشند. تمام این مطالب در گسترش یک کتابخانه دیجیتال باید در نظر گرفته شود. قبل از آنکه شروع به طراحی تفصیلی و گسترش کتابخانه شود، باید یک طرح روشن ارائه شود.

 

سخت افزار- کامپیوتر شخصی یا یونیکس

مطلب مهم دیگری که نیاز است قبل از گسترش سایت ارزیابی شود مکان ذخیره کتابخانه دیجیتالی می باشد. سرور وب باید به اینترنت دسترسی داشته باشد، فضای دیسک سخت وسیع داشته باشد و توانایی مواجهه با بار دسترسی مورد انتظار را داشته باشد، ترجیحاً کامپیوتر باید یک اتصال T1 یا اتصال بهتری به اینترنت داشته باشد. این امر به استفاده کنندگان امکان دسترسی سریعتر را خواهد داد. اگر از یک PC استفاده می شود، باید یک پنتیوم با سرعت حداقل100 MHz باشد، سرعتی مشابه برای ماشینهای UNIXپیشنهاد می شود. همچنین فضای دیسک سخت زیاد برای مواد کتابخانه ای توصیه می شود. ما حداقل MB 100 فضای دیسک سخت خالی توصیه می کنیم. این به کتابخانه شما فضای زیادی را برای توسعه و گسترش می دهد.

وقتی یک معماری خاص انتخاب شد، آنگاه باید یک سرور وب انتخاب شود. کسانیکه PC را انتخاب کرده اند، معمولاً از ویندوز NT استفاده می کنند. دوتا از مشهورترین سرورهای وب برای این سیستم عامل Microsoft Information Server و Netscpe Enterprise Server می باشند. اگر یک ماشین UNIX انتخاب شده است، یکی از چندین سرورهای مجانی وب می تواند از شبکه بارگذاری شود مثل NCSA HTTPd web Server انتخاب اینکه چه سخت افزار و نرم افزاری مورد استفاده قرار گیرد از تصمیم گیریهای مهم است. بسیاری از مردم فکر می کنند ماشینهای UNIX قابل اطمینان تر از PCها باشند. در ضمن نرم افزارهای ماشینهای یونیکس سالهاست که استفاده می شوند و بنابراین خوب آزمایش شده اند،‌ در حالیکه نرم افزارهای PC نسبتاً جدید هستند. ما استفاده از ماشین یونیکس در اتصال به یک خط T1 را انتخاب کردیم به خاطر قابلیت اطمینان و اعتماد و سرعت بالای این ترکیب. در حال حاضر از ایستگاه کاری SUN Ultra که Sun OS 5.6 را راه اندازی می کند استفاده می کنیم. همچنین استفاده از SUN Sparc که Sun OS 5.5.1 راه اندازی می کند را تجربه کرده ایم.

 

ذخیره- پایگاه داده ها یا ساخت بایگانی

تصمیم گیری بزرگ بعدی آن است که فایلهای کتابخانه دیجیتالی چگونه ذخیره شوند. چندین انتخاب امکان پذیر است. دو تا از روشهای ممکن استفاده از پایگاه داده ها و ایجاد یک دایرکتوری ویژه و ساخت بایگانی می باشد. چندین پایگاه داده برای انتخاب وجود دارد مانند oracle و MSQL و میکروسافت اکسس (Microsoft Access). اگر شما از یک PC استفاده می کنید Access احتمالاً‌ پایگاه داده انتخابی خواهد بود، چرا که خیلی سازگار با NT می باشد. Oracle انتخاب خوبی برای پایگاه داده ها بر روی ماشینهای UNIX می باشد چرا که خیلی قابل اطمینان و نسبتاً قابل انعطاف می باشد. در هر حال بعضی مشکلات وجود دارد که برخاسته از استفاده از پایگاه داده ها می باشد. مشکل اصلی نقص قابلیت انعطاف پذیری پایگاه داده می باشد. بعد از آنکه یک پایگاه داده ایجاد شد، اگر لازم باشدکه یک فیلد جدید اضافه شود، لازم است که یک پایگاه داده جدید ساخته شود. بر روی تعدادی از سیستم ها، انتقال داده ها از پایگاه قدیمی به پایگاه جدید مشکل و وقت گیر خواهد بود.

ما ایجاد دایرکتوری ویژه و ساخت بایگانی را بجای استفاده از از پایگاه داده ها انتخاب کردیم. این فایل شامل اطلاعات درباره آزمایشگاه از قبیل نام نویسنده، عنوان آزمایشگاه، موضوع آزمایشگاه و اطلاعات مربوط دیگر می باشد. ما برای هر آزمایشگاه بطور فعال یک دایرکتوری ساختیم که نام آن از نام نویسنده و عنوان آزمایشگاه درست شده است. این کار به ما در مورد نام دایرکتوری واحد برای هر آزمایشگاه اطمینان می داد و نیز با استفاده از کدهای قطعه قطعه که در زبان PERL  نوشنه شده است می تواند این کار انجام گیرد.

تمام فایلهای مربوط به هر آزمایشگاه در دایرکتوری مناسب ذخیره می شود. این طراحی قابل انعطاف تر از استفاده از پایگاه داده ها می باشد. برای مثال: فیلدهای جدید فقط با تغییر اسکریپت CGI می تواند اضافه شود.

مثالی از ساخت دایرکتوری که ما ایجاد کردیم در زیر نشان داده شده است. توجه کنید که نام دایرکتوری مرکب از نام نویسنده و عنوان آزمایشگاه می باشد. در این دایرکتوری فایلی وجود دارد که شامل چکیده آزمایشگاه می باشد و نیز فایلهای مرتبط دیگر

قابلیت دسترسی ـ Java یا HTML استاندارد/ وضوح بالا یا وضوح پایین

    موضوع مهم بعدی قابلیت دسترسی (accessibility) کاربران می باشد و این شامل تصمیم گیری در مورد مخاطبین هدف می باشد. باید تعیین شود که آیا وب سایت باید بوسیله هر کس بدون توجه به اختصاصات سیستم یا تنها بوسیله کاربرانی با سخت افزار و نرم افزار پیشرفته قابل دسترسی باشد. با پیشرفتهای کامپیوتر، در حال حاضر اختلافات زیادی بین سرعت ارتباط استفاده کنندگان وجود دارد. طیف کامپیوترها از آنهایی که با مودمهایی با سرعت 9600bps استفاده می کنند تا کامپیوترهایی که مستقیماً‌ به یک خط T3 وصل شده اند متغیر است. این یک مشکل است چرا که می تواند بر تعداد گرافیکهایی که بطور معقول باید در وب سایت باشد تاثیر بگذارد. برای کامپیوترهایی با سرعت ارتباط خیلی کند،‌ گرافیکها می توانند باعث رنجش کاربر شوند و باعث روبرگردانی کاربر از سایت شوند.

برای غلبه بر این مشکل ما تصمیم گرفتیم دو قسمت مجزای با وضوح بالا (High – resolution) و وضوح پایین (Low-resolotion) برای سایت وب خودمان طراحی کنیم. بخش وضوح پایین شامل صفحات وب HTML 2.0 بدون گرافیک می باشد. همچنین Java یا Java Script یا تصاویر در این صفحات وجود ندارد. این صفحه باندازه کافی سریع بارگذاری می شود که از طریق تمام ارتباطات قابل استفاده باشد و نیز می تواند از طریق جستجوگرهایی که فقط متن را شامل می شوند (Text only browser) مانند Lynx مشاهده شود. ما همچنین یک سایت پیشرفته تر با وضوح بالا ایجاد کردیم که شامل تصاویر، گرافیکها و Java script می شود. این از جهت بصری جذاب تر است و خیلی عملکردی تر؛ اما در هر حال محتوا مانند بخش با وضوح پایین می باشد.

 

موتور جستجو- برای خودتان بنویسید یا تجاری

قسمت مهم هر کتابخانه دیجیتال موتور جستجو می باشد. گزینه های مختلف زیادی وجود دارد که از بین آنها انتخاب شود. شما می توانید وقت صرف کنید و موتور جستجوی خودتان را ایجاد کنید یا یک موتور جستجوی مجانی از اینترنت بارگذاری کنید. بعضی از مزایای بارگذاری از اینترنت شامل سرعت، قیمت و زمان می باشد. ما سعی کردیم موتور جستجوی خودمان را بنویسیم، اما توان رقابت با آنکه از شبکه بارگذاری کردیم نداشت. موتور جستجوی تجاری که ما استفاده کردیم wwwwais 1.5 می باشد. این موتور جستجو را می توانید بدون هزینه بر روی وب بیابید، این موتور جستجو عملگرهای بولی را بکار می گیرد و بطور خودکار پیوندهایی به نتایج جستجو ایجاد می کند.

 

ایمنی و اطمینان – امتیازات و برتریهای فایل

کوششها و وقت بسیار زیادی لازم است تا وب سایت خود را بطور موفقیت آمیزی ایمن کنید، ما فقط چند مطلب کلیدی ایمنی را وقتی از UNIX استفاده می کنید ذکر خواهیم کرد. اول، بزرگترین مشکلی که ما با آن مواجه بودیم سروکار داشتن با اجازه های فایلها بود. سایت ما باید قادر می بود به منظور ذخیره اطلاعاتی که از صفحه وب گردآوری می شود فایلهایی را ایجاد کند. یک سرور وب استاندارد "ID" کاربری تحت عنوان "nobody" را راه اندازی می کند. تمام فایلهایی که با اسکریپت CGI درست شده اند نام "nobody" را بعنوان مالک فایل خواهند داشت. این امر ایجاد یک خطر امنیتی می کند چرا که اجازه های فایل باید جوری تنظیم شود که در تمام دنیا قابل خواندن، قابل نوشتن و قابل اجرا باشد. یک جفت راه حل برای این مشکل وجود دارد. یک راه حل استفاده از فرمان "chown" در اسکریپت های CGI شما می باشد. که متاس؀انه در بعضی سیستم ها امکان استفاده از این فرمان نیست. یک راه حل شدنی و بادوام تر دیگر آن است که یک سرور وب نصب و راه اندازی می شود و فایلهای پیکر بندی دستکاری شوند. بدین طریق، ID کاربر که سرور وب راه اندازی می کند می تواند تنظیم شود. ما تصمیم گرفتیم که سرور خودمان را جوری تنظیم کنیم که با ID کاربر راه اندازی شود.

گزینه دیگر آن سات که مناطق خاصی از وب سایت را امن کرد. هر دوی وب سرورهای NCSA و Apache این کار را انجام می دهند. در یک فایل پیکربندی که "htaccess" نامیده می شود. استفاده کنندگانی که اجازه دارند به مناطق خاصی از وب سایت دسترسی داشته باشند تعریف شده اند. وقتی یک کاربر سایت را مرور می کند و سعی می کند به صفحه وب در یک منطقه امن دسترسی پیدا کند، جعبه کلمه رمز و اجازه دخول به سیستم آشکار می شود. تنها Login و Password صحیح اجازه خواهد داد که استفاده کننده به آن بخش از وب سایت دسترسی یابد. در وب سرور NCSA، این کار با اضافه کردن فایل(.htaccess) به دایرکتوری که می خواهید ایمن شود انجام می گیرد.

 

زبانها

اسکریپتهای CGI

یک CGI Script برای گرفتن اطلاعات از وب، دستکاری کردن آن و نتیجه گیری استفاده می شود. این اسکریپتها در تعداد زیادی از زبانها می توانند نوشته شوند. دو تا از مشهورترین زبانها برای اسکریپتهای CGI، C و PERL هستند. ما بدلایل متعدد استفاده از PERL را برگزیدیم. PERL نحو و ترکیبی دارد که خیلی شبیه به C می باشد و تعدادی عملکردهای دستکاری رشته ای (String Manipulation Functions) دارد که بسیار مناسب هستند. بعلاوه احتیاجی به گردآوری و تالیف (Compilation) ندارد چرا که تفسیری (Interpreted) می باشد و یک زبان اسکریپتینگ خالص (Pure) می باشد. برای غلبه بر مخارج کلی تبدیل داده ها به اسکریپت از یک بروزر وب،     کتابخانه های مجانی قابل استفاده ای وجود دارند.

کتابخانه ای که ما استفاده کردیم (cgi-lib.pl) برای تبدیل اطلاعات به اسکریپت CGI خودمان بدون هیچ هزینه ای بر روی وب قابل استفاده است.

به منظور اینکه یک Script اجرا شود. سرور وب باید بداند که اسکریپت یک اسکریپت CGI می باشد. این کار به دو صورت می تواند انجام شود. اول، شما می توانید به بروزر بگویید تمام فایلهایی که به یک extension خاص ختم می شوند اسکریپتهای CGI هستند. برای مثال می توان به تمام اسکریپتهای CGI، پسوند ".cgi" داد و سرور وب را اینطور تنظیم کرد. وقتی سرور سعی می کند که یک فایل را با آن اکستنشن بارگذاری کند، درمی یابد که آن فایل یک اسکریپت است و بنابراین سعی خواهد کرد که آن را اجرا کند. اگر یک اسکریپت با هر اکستنش دیگری ذخیره شود، سرور وب محتویات آن اسکریپت را فقط بصورت یک متن ساده (plain) اعاده خواهد کرد و نمی تواند آن را اجرا کند. نتیجه استفاده از چنین روشی آن است که اسکریپتها می توانند در هر مکانی ذخیره شوند.

روش دوم به شما چنین آزادی را نخواهد داد. با این روش به سرور وب باید گفته شود کدام دایرکتوریها شامل اسکریپتها هستند. وقتی یک سرور سعی می کند به هر فایلی در آن دایرکتوری دسترسی پیدا کند، آن را یک اسکریپت CGI لحاظ کرده و سعی می کند آن را اجرا کند. هر اسکریپتی که در این دایرکتوری ذخیره نشده باشد بعنوان یک فایل متنی ساده پردازش خواهد شد. یک نام نوعی (Typical) که به این دایرکتوریهای CGI داده می شود، cge-bin می باشد. برای وب سرور NCSA یک cgi-bin می تواند به فایل srm.conf تنظیم شود.

این خط به وب سرور می گوید که اسکریپتهای CGI در دایرکتوری "www/cge-bin" از "user name" قرار دارند. نتیجه این روش آن است که یک مکان ذخیره مرکزی برای اسکریپتهای CGI فراهم آورده می شود. این روش همچنین به مدیران انعطاف پذیری بیشتری می دهد. چرا که به آنها اجازه می دهد تعیین کنند کدامیک از کاربران مجاز به استفاده از اسکریپتهای CGI هستند. اگر یک مدیر نخواهد که یک نفر این اجازه را داشته باشد، به او دایرکتوری cgi-bin نخواهد داد.

 

Java Script

اسکریپت Java توسط Netscape برای استفاده در بروزرهای آن ایجاد شده است تا وب سایتهایی را بیش از آنچه HTML اجازه دارد حمایت کند. Java Script توانایی تعیین بروزر مناسب و بارگذاری صفحه وب مربوط به آن را دارا می باشد. Java Script همچنین می تواند وب سایت را پویاتر کند. ما از Java Script برای اضافه کردن جلوه های بصری به وب سایت، از قبیل high light کردن اطلاعات متنی وقتی که نشانه موس بر روی آن قرار می گیرد، استفاده کردیم.

 

نتیجه

وقتی یک کتابخانه دیجیتالی ایجاد می شود مطالب زیادی باید در نظر گرفته شود. مهمترین این مطالب امنیت و انعطاف پذیری می باشد. اگر سایتی امن نباشد، داده های مهم براحتی می تواند گم شود یا خراب گردد. اگر سایتی منعطف نباشد، ساعتها وقت باید صرف شود تا یک تغییر جزیی ایجاد شود. موضوع مهم دیگر حفظ کیفیت داده ها در کتابخانه دیجیتالی می باشد. اگر یک کتابخانه دیجیتالی تمام واگذاریهای به آن را قبول کند، احتمالا شامل مقدار زیادی اطلاعات غیرمفید خواهد شد. راهی را که ما برای غلبه بر این موضوع بکار گرفتیم، داشتن یک سردبیر برای سایت یا گروهی از مرورکنندگان همتا Peer reviewers که بطور انتقادی اطلاعات عرضه شده جدید را نگاه می کنند.

سرانجام، مهمترین مطلب، تکنولوژی دائماً‌ در حال تغییر است. www هنوز خیلی جوان است و پیشرفتها همچنان ادامه دارند. مهم است که تمام استاندارهای ساخته شده برای وب در نظر گرفته شود. نمونه ای از آن Dubline core می باشد. DC شامل 15 عنصر از فراداده (meta data) می باشد که قصد دارد جستجو در منابع الکترونیکی را تسهیل کند.

فراداده بطور ساده (( داده دربارة داده)) می باشد. این یک روش شناسی و زبانی برای تشریح منابع یادگیری on line می باشد که جستجوی موثر را تسهیل می کند.

15 عنصر DC شامل: عنوان، موضوع، توصیف، منبع، زبان، ارتباط، پوشش، خالق اثر، ناشر، همکار، حقوق، تاریخ، نوع، فرمت و معرف می باشد.

((فرا برچسب ها)) (meta tags) کدهای HTML هستند که در بخش بالایی یک سند HTML قرار می گیرند.

 

علامت "DC" مشخص می کند که این ((فرا برچسب ها)) قسمتی از عناصر هسته دوبلین Dubline care می باشند. اولین برچسب ها خالق سند را نشان می دهد که در این مورد "John Doe" می باشد. برچسب دوم موضوع سند می باشد که در مورد مثال ما ((کتابخانه های دیجیتالی)) است. تمام عناصر هسته دوبلین از الگوی مشابهی پیروی می کنند. برای مثال اگر یک برچسب عنوان سند را نشان دهد، نام برچسب "Dc.title" خواهد بود. عنوان سند در فیلد محتویات برچسبی که ایجاد شده است قرار خواهد گرفت.

یک کتابخانه دیجیتالی از طریق روزآمد نگاهداشتن آن با آخرین تکنولوژی و استانداردها برای هزاران نفر از کاربران آن مفید واقع خواهد شد.  

ایجاد یک کتابخانه دیجیتال  Somlib(یک  راهنمای قدم به قدم )

این راهنمای قدم به قدم چگونگی ایجاد یک کتابخانه دیجیتالی somlib را بر اساس مجموعه متن های مشخص این مجموعه link هایی را جهت ارتباط با واحدهای مختلف مورد نیاز مانند توضیح درباره اینکه آنها چگونه یکی پس از دیگری ترکیب می شوند، را فراهم می آورد.

مجموعة استفاده شده در این نمونه (demo) تنها شامل 50 سند است که واقعاً کوچک است. یعنی آنقدر کوچک است که معلوم نیست نشاندهندة همه جنبه های سیستم باشد. هنوز هم این تنها راه سریع و مستقیم برای نمایش آسان است و زمانهای پردازش در آن در حد ثانیه است تا دقیقه این قسمت نه تنها چگونگی استفاده از برنامه های مختلف را شرح می دهد که اساساً‌ از دو برنامه استفاده می کند و احتمالاً‌یک یا دو نسخه در بین دارند، بلکه منطق چگونگی مرتب شدن پارامترها و چگونگی آنالیز نتایج حد واسط و چگونگی ارزیابی بازده هر مرحلة پردازش را نیز ارائه می دهد.

مراحل مختلف بدین شرح اند:

پیش پردازش: تمیز کردن متن ها مانند نواری کردن Stripping  علائم HTML، یعنی حذف پیشوند و پسوندها، همچنین تقسیم کردن متن به قسمت های مختلف در مورد فایل های بزرگ

تجزیه (Parsing): ایجاد یک ناقل نشاندهنده (نماینده) متن ها که بتواند برای آموزش نقشه خودسازمان یافته استفاده شود.

آموزش: مرحلة آموزش شاخه هایی از مقالات را بر اساس جدید بودن (by topic) فراهم می کند. هم آموزش SOM استاندارد و هم آموزش SOM سلسله مراتبی (GHSOM) شرح داده شده اند. این همچنین شامل استخراج نشانه ها (Labels) SOM های سلسله وار شرح دهندة شاخه های مختلف می شود.  

راهنمای قدم به قدم – ایجاد یک کتابخانه دیجیتالی SOMLib

پیش پردازش

     به منظور فراهم کردن یک مجموعه جدید و با کیفیت بالا از مدارک نوشتاری در کتابخانه بعضی مراحل پیش پردازش ممکن است برای بالا بردن کیفیت خود data انجام می شود. بعضی از این مراحل مانند حذف دستورات formatting (نمایی – شکلی) کاملاً غیروابسته به زبان هستند در صورتیکه سایر موارد مانند Stemming (اگر لازم به استفاده باشند جزء مراحل مورد نیاز نیست) به ابزارهای اختصاصی زبان نیازمندند.

اگر مدارک شما به شکل معمول در ASCII از قبل موجود باشد میتوانید این قسمت را نادیده گرفته و مستقیماً به مرحلة پردازش Parsing بروید.

برای مراحل زیرین فرض می شود که همه مدارک در فرمت ASCII-File قابل دسترسی اند مانند متن ساده یا HTML آنهم در یک دایرکتوری تحت نام experiments/files

 

مرحله (قدم) اول:

یک دایرکتوری تحت نام experiments/files بسازید، ترجیحاً در شاخة زیر دایرکتوری www و همه فایل های موجود در کتابخانه SOMLib را بداخل آن تحت فرمت ASCII یعنی فرمت متن ساده یا HTML کپی نمایید.

به عنوان راه دوم (و ترجیحاً این راه) می توانید یک Link مناسب بر دایرکتوری مربوط که فایل ها در آن است بدهید.

براساس تجربیات ما مجموعه ای از مقالات علمی خلاصه شده (abstract) را استفاده می کنیم که در این جا قابل download  است.

برای استخراج مقاله از آنها باید آنها را unzip و untar نمایید و بعداً می توانید آرشیو اصلی tar.gz را حذف (delete) نمائید.

حال مجموعه ای از 51 فایل HTML در دایرکتوری مورد نظر داریم، شامل خلاصه مقالات چاپ شده در WIRN 1995

Expenineut/ Riles/wirn98.HTML

 

(رفع) برداشت اطلاعات فرمت شده

     برای اینکه اطلاعات بر اساس محتوی و ترجیحاً‌ markuptags، کلمات کلیدی فرمت شده به شکل SOM درآید نیاز به تغییر فرمت اطلاعات است. برای فایل های HTML ما نیاز به برخی از برنامه هایی داریم که فایل ها را از حالت HTML خارج کند. این کار نیاز به مبدل های html2txt قابل دسترس دارد. ما برای اینکار از مبدل های html2txt استفاده می کنیم. می توانید این مبدل را در این سایت Download  کنید و آنرا در دایرکتوری experiments خودتان به نام programs قرار دهید.

سپس از دایرکتوری، فایل های دارای فایل های HTML خود را به html2txt بخوانید و هر کدام از فایل را برای ساختن یک ASCII استفاده می کنیم.

برای برخی از فایل های HTML شما ممکن است یک پروسه تکراری را برای از بین رفتن HTMLTags، ذخیره کردن فایل های حد وسط در دایرکتوری Temp انجام دهید. قبل از دستور نهایی بررسی یک ASCII text کامل عملیات زیر را انجام دهید.

 

تجزیه مدارک در چند بخش

مدارک و Document های طولانی در بخشهای کوچکتر متعدد تجزیه می شوند و همه بخش ها در سرفصل های همانند نمایش داده می شوند. برای اینکار باید از دستور CSplit استفاده کنید.

 

منقسم کردن Stemming

پیشوند ها و پسوندها ممکن است در هر شاخه تغییر کند که آن تغییر ارائه معنی را بهتر کند. برای رسیدن به این هدف از برنامه stemming استفاده می شود.

این برنامه خیلی وابسته به زبان است. در زبان انگلیسی، خوب دانستن و خوب ساختن Porter's Stemmor با هدف ارائه معنای بهتر انجام می شود.

توجه کنید که وسایل برنامه Stemming تا حد زیادی به ابزار اجرای بعد از آن وابسته است. اگر شما برنامه Stemmer مناسب برای زبان مربوط به استنادهای خود ندارید، تجربه نشان داده است که شما نباید از برنامه Stemming استفاده کنید و می توانید بدون تکنیک های Stemming اقدام کنید.

در آخر شما باید یک دایرکتوری حاوی فایل های ascii خالص داشته باشید تا شما بتوانید سیستم SOMLib کتابخانه دیجیتال را پیاده کنید. 

- تجزیه

     این پروسه موارد تصویر را که در منزل توصیف شده است تهیه می کند برای درک این مسئله به Section on Text Represatation  در SOMLib Project Hompage دقت کنید برای اینکار از برنامهJava استفاده می کنند که می توانید این برنامه را در experiments های خود Download کنید. دایرکتوری Programs در زیر مجموعه و برای مدل های مختلف از SOMLib parser script  استفاده کنید که لیست از پارامترهای کاربردی آن در زیر آمده است.

 

آموزش

    به دنبال پروسه ساختن vector ما می توانیم نقشه های خود سازمان یافته را آموزش دهیم. به همین منظور ما می توانیم از برنامه GHSOM استفاده کنیم (Hierar chical self organizing Map) که قابلیت تولید برنامه های زیر را دارد.

Conventional SOMS

Growing SOMS

Growing hierarchical SOMS

می توانید برنامه GHSOM را از این سایت نصب کنید و آنرا در دایرکتوری Programs  قرار دهید.

این برنامه می تواند برای ایجاد سه نوع SOMS مناسب و مختلف استفاده شود به نام های

SOM ثابت و محلی

Growing SOM که ردیف ها و ستون ها به SOM اضافه می شود تا به یک اندازه معین رسیده باشد.

Growing hierarchical SOM

مثالهایی از هر سه نوع برنامه و نقشه در جزوه زبان اصلی آمده است.

 

4- Lib viewer Representation

ناظر نمایش کتابخانه یک نمایش گرافیکی از متن شما را به عنوان یک کتابخانه کتب در قفسه ها تهیه می کند. این برنامه یک دید گرافیکی نسبت به اسناد و موقعیت آنها در کتابخانه دارد.

برای مثال این برنامه نمایشی یک تعامل کاربران را با مجموعه اسناد به شکل گرافیکی به نمایش می کشاند.  

5- Download

یک سری برنامه هایی که هم Script  و هم برنامه های java را در بردارند و یک سری فایل های جاوای گردآوری شده و با طراحی x86 جمع آوری می کند.

برای مثال:

Demo – Collection: یک مجموعه از 51 خلاصه علمی کوتاه از دپارتمان تکنولوژی نرم افزاری

Html2txt: یک برنامه مبدل متن html به متن ASCII که از Stdin می خواند و از Stdout  می نویسد.

Porterstem: ابزار گوناگون ساقه های الگوریتم پورتر قابل دسترسی است.

SOMLib Parser Script

SOMLib Java Packing  

GhSOM که قادر به تهیه SOM های قراردادی و رشد یافته و hierarchical است.

یک مجموعه از برنامه های Java که می تواند در ایجاد سیستم های کتابخانه های SOMLib استفاده شود که شامل:

1- Feature Extraction

2- Feature Space pruning  

3- Feature vector creation

4- Feature vector normalization

5- SOM training

6- SOM Labeling

7- Lib viewer

نکته: همانطوریکه آموزش SOM به شکل رایانه ای لازم است شما باید از یک ابزارهای غیر Java برای متن های بزرگ استفاده کنید.  

تاسیس یک مرکز کتابخانه دیجیتالی

این مقاله بر اساس موارد زیر تنظیم گردید ه است  :

تجربه های نویسنده که در چهار مرکز کتابخانه دیجیتالی و آموزشی پیشرفته انگلستان کار کرده است

  مردم مختلفی که در پروژه های کتابخانه الکترونیکی یا دیجیتالی مشغول هستند و سرویسهای ده ساله گذشته را ارائه می کردند وبه سوالات پست الکترونیکی شده در رابطه با موضوعات مختلف مراکز کتابخانه های دیجیتالی پاسخ میدهند.

از موارد مطالعاتی که بر روی مراکز کتابخانه های دیجیتال انجام شده است.

قبل از تاسیس یک مرکز کتابخانه ای دیجیتال , شما اساسآ نیاز به یک برنامه ریزی تصمیم و تصور و سرمایه

دارید . این مسئله برای بانیان کار و سرمایه گذاران و مسئولین جذب نیرو مفید است.

برنامه ریزی از مرکز کتایخانه کتابخانه دیجیتالی حول حوشی چند مسئله می چرخد:

برخی از موضوعات اصلی برای مثال یک مرکز ارائه میدهد یک تعداد سرویسهای شامل مجلات الکترونیکی, منابع دسترسی و مرجع و آموزش اینترنت

برخی از انواع سرویس های کتابخانه دیجیتال مانند یک مرکز که بتواند به شکل تخصصی سرویس دهی, تحقیق و در موضوعات گوناگون ایجاد ، نگهداری و دسترسی و هزینه  مشاوره انجام دهد

منطقه جغرافیایی، یک مرکز بایستی جهت فعالیت های تحقیقاتی در منطقه خاصی از کشور قرار گیرد .

یک منبع مالی خاص

برخی از کاربران خاص مانند معلمان ، دبیران ،کتابداران, دانش آموزان یا انواع دیگر اقشار کاربران

 این برنامه ریزی نتایج یک پروژه را تعیین می کند علاوه بر آن مهارت و تجارت کارکنان که در مرکز کار خواهند کرد می تواند عامل مهمی در برنامه ریزی باشد.

هزینه مرکز

مرکز شما با داشتن تعدادی پروژه درگیر کار پر هزینه ای شده است و مقدار زیاد هزینه پرسنل بایستی متحمل شود.

تمرکز بر روی برنامه ریزی یا هزینه

2 تا از هزینه های خیلی زیاد یک مرکز کتابخانه دیجیتال موارد ذیل می باشد:

1- منابع ارزیابی دقیق مهارت و وسایل سرمایه گذاری لازم که در ردیف منابع مالی مشاوره انجام دهد

2- پیشنهاد های مفید و جمع آوری آنها به عبارت در آوردن کتابخانه های دیجیتال

مرکز پرسنل

یک مرکز DLC به یک سری پرسنل نیاز دارد که شامل موارد ذیل است:

یک مدیر که در رآس امور و یک رئیس بی نفوذ در مرکز باشد.

مدیر پروژه و هماهنگ کننده پرسنل

پرسنل فنی جهت نگهداری سرویس ها و سیستم و PC  و حفظ شبکه

پرسنل پذیرش

پرسنل مالی

پرسنل مرکز توسعه مانند افرادی که در تولید وب سایت مرکز فعالیت می کنند یا در امور نشریات و ........

پرسنل آشنا به امور کپی رایت و مقالات IPR

پرسنل مجرب در بالا بردن در آمد و ارائه پیشنهادات

و البته پرسنلی که در پروژه و سرویس ها فعالیت کنند.

آن مسئله مهم است که نباید پرسنل اداره را تقلیل داد.

تجزیه و تحلیل نقش افراد پرسنل و اعضاء مرکز کتابخانه نشان داده است که برای هر پرسنل غیر اداری بین 5/3 تا 5/5 پرسنل اداری مورد نیاز است , وظایف­مالی­ و پذیرش پروژه در حد کارهای دیگر پروژه مورد اهمیت است.
تنظیم مهارت کارمندان کتابخانه دیجیتال

در اگوست سال 2001 نویسنده این مقاله از یکسری افراد درگیر با  کتابخانه های دیجیتال در رابطه با مشخصات یک پرسنل خوب مرکز کتابخانه دیجیتال مشاوره کرد و موارد زیر ارائه شد:

یک هدایت کننده تیم که هم در سطح مرکز و هم در سطح پروژه کار کند

کارمندان با حداقل نظارت و انفصال کار کنند

یک گرداننده شبکه

استفاده از مهارتهای آنان در کمک به پروژه آنها در مرکز

ارتقاء مرکز به عنوان بخشی از پروژه آنان

عدم مخالفت جهت مسافرت ویا کار شبانه

ارتباط دهنده خوب

انگلیسی خوب صحبت کند و خوب بنویسد

آنطور که انتظار می رود کار و تولید کند

فرصت های مناسب راجهت پیشرفت مرکز دریابد

خالصا تولید کننده باشد یا به عنوان یک کارمند بیشتر وقت خود را در مورد کار بگذارند

این مهم  است که به  نکات توجه شود و به ارتباط در مرکز و اطراف آن دقت شود

تعیین درست پرسنل

برخی از مردم تکنیکهایی را پیشنهاد می کنندکه می تواند برای تعیین پرسنل صحیح با دقت بیشتر استفاده شود اینها شامل موارد زیر است:

گذاشتن وقت بیشتر برای درجات مصاحبه

مصاحبه و مشاوره گروهی علاوه بر مصاحبه در محور شخصی

پرسش های مستقیم و سوالات کامل مثل اینکه در طی 5 سال گذشته شما کجا بودید و اگر شخصی کار کرده است در یک پروژه تحقیقاتی آن وقت می توانید بپرسید که چه منابع و چه پیشنهاداتی داشته است.

دادن پیشنهاد و برخی فرصتها برای اثبات علم و دانش که در گذشته اندوخته است

تحقیق از افرادی که اورا یا کار اورا می شناسند

ارتباط با موسسات همکار

از آنجائیکه بیشتر یا همه هزینه های پروژه و سرویس های یک کتابخانه دیجیتالی از بیرون موسسات میزبان می آید ارتباط با یک انستیتو اغلب یک بخش کتابخانه است. اگر چند کتابخانه برای بدست آوردن وسیع منفعت هدایت و مدیریت می شود اما به سرویس ها و تجهیزات وسیع مانند سیستم حمایت مالی , حمایت شبکه , الکترونیک , تخلیه , ارتباطات بین کتابخانه ای نیز بایستی اعتماد و توجه کرد

ارتباطات خوب بین مرکز کتابخانه دیجیتالی و واحد های مختلف بسیار اساسی است و پیشنهاد می شودکه پرسنل در این ارتباط بکوشند و به پرسنل کلیدی در واحدهای حمایتی زیر توجه داشته باشند:

دارایی برای هر چیزی مانند ساختمان , سازمان و یا وام

امور مالی برای دریافت به موقع اطلاعات جزئی از وضعیت مالی پروژه و سرویس ما و پاسخ به درخواست های مالی

ارتباط خارجی مانند انتشارات دانشگاهها

پرینت و رپروگرافیک برای تولید مواد PR

سرویس های کامپیوتری برای مسائل شبکه در سرویسهای کتابخانه

دیجیتالی شما

تدارکات برای جلسات , کارگاهها و سمینارها

اتاق کتب جهت فضا و تسهیلات برای کارگاهها و سمینارها

مرکز مدیریت مرکز

حراست مخصوصا زمانی مفید است که شما دارای سخت افزارها و Server های گران قیمت باشید

مرکز پرسنلی

کتابخانه برای نیازهای کتب و مقالات به عنوان یک مرکز پرسنل جدید که می خواهند با چیزهای دیجیتال آشنا شوند

فرصت های شغلی برای قراردادن فرصت ها و شرکای تجاری

حمایت های تحقیقاتی برای اهداف و موافقت های سرویس پروژه