مقاله ترجمه شده الگوریتمی برای داده کاوی سریع و کارآمد متن به منظور ایجاد اتوماتیک پایگاه داده حاوی اطلاعات سینتیک آنزیم ها

مشخصات محصول

قیمت:	10000تومان
دسته بندی:	مهندسی کامپیوتر و فناوری اطلاعات

سال نشر: ۲۰۱۳

تعداد صفحه انگلیسی:۹

تعداد صفحه ترجمه فارسی: ۲۰ صفحه word

(دانلود رایگان مقاله انگلیسی)

کد محصول:CM9

عنوان فارسی:

مقاله ترجمه شده الگوریتمی برای داده کاوی سریع و کارآمد متن به منظور ایجاد اتوماتیک پایگاه داده حاوی اطلاعات سینتیک آنزیم ها

عنوان انگلیسی:

An algorithm for fast and efficient text mining used to automatically generate a database containing kinetic information

چکیده فارسی:

پیش زمینه: مقدار اطلاعات بیولوژیکی در دسترس به سرعت رو به افزایش بوده و تمرکز تحقیقات بیولوژیکی از بخش های مجزا به سمت شبکه ها و حتی پروژه های بزرگتر کشانده شده که هدف آن ها تجزیه و تحلیل، مدلسازی و شبیه سازی شبکه های بیولوژیکی و همچنین مقایسه در سطح بالای ویژگی های سلولی می باشد. بنابراین ضروری است تا اطلاعات بیولوژیکی به آسانی در دسترس باشد. به هر حال، بیشتر اطلاعات در تحقیقات انجام شده به صورت غیرساختاری بوده و به این خاطر روش هایی برای استخراج نظامند اطلاعات، مستقیما از تحقیقات اولیه می بایست توسعه یابد.

شرح مطلب: در اینجا ما الگوریتم داده کاوی را برای استخراج اطلاعات سینتیک همانند و غیره و همچنین اطلاعات مربوطه همانند نام آنزیم ها، تعداد EC، لیگاندها، ارگانیسم ها، مناطق، PH و دما نشان می دهیم. با استفاده از این قوانین و رویکرد بر پایه واژه نامه، این امکان وجود دارد تا به اندازه ۵۱۴۳۹۴ پارامتر سینتیک ۱۳ دسته ( فعالیت های خاص، ) از حدود ۱۷ میلیون مطالب نتتشر شده، استخراج کرده و آن ها را با داده های دیگر خلاصه مطالب دیگر ترکیب کنیم.

تایید دستی تقریبا ۱۰۰۰ نتایج انتخاب شده تصادفی، موارد فراخوانی شده بین ۵۱% و ۸۴% و محدوده دقیق ۵۵% تا ۹۶% را نشان داده که بستگی به فهرست های جستجو شده دارد.

نتایج در پایگاه داده ذخیره شده و توسط KID” یا پایگاه داده سینتیک” از طریق اینترنت در دسترس می باشد.

نتیجه گیری: الگوریتم نشان داده شده، اطلاعات مهمی را ارائه می دهد و کمکی به شتاب بخشیدن تحقیقات و تجزیه و تحلیل مورد نیاز برای روش های بیولوژی سیستم های امروزی می باشد. پایگاه های داده حاصل شده از تجزیه و تحلیل چکیده مقاله های منتشر شده می تواند کمک ارزشمندی در حوزه جنبش های بیولوژیکی و شیمیایی باشد. این فرایند کاملا بر مبنای داده کاوی و همچنین تکمیل پایگاه داده ایجاد شده می باشد.

این پایگاه داده از سایت http://kid.tu-bs.de در دسترس است. کد مبدا الگوریتم تحت مجوز مجوز دولتی GNU ایجاد شده و بنا به درخواست محققان در دسترس قرار می گیرد.

پیش زمینه

در دسترس بودن تعداد متنوعی از فناوری های OMICS این امکان را به وجود آورده که- علاوه بر روش های بیولوژی ملکولی سنتی- کل سیستم ها، از شبکه های ملکولی از طریق سلول ها و ارگان ها تا کل ارگانیسم ها در تمام علوم زیستی به عنوان مرکز پروژه های تحقیقی در سطح گسترده باشند. در حالی که این امکان همچنان وجود دارد تا به صورت دستی تحقیقات را در حوزه های محدود رشد سریع تحقیقات علمی دنبال کنیم که امکان استخراج اطلاعات را از تمام آنزیم ها در ارگانیسم های خاص از تحقیقات در زمان قابل پیش بین ایجاد نکرده، یا مقایسه سطح بالایی را بین نقش متابولیکی ارگانیسم های مختلف انجام دهیم. علاوه بر این در حوزه های ایجاد دارو، اطلاعات در مورد خصوصیات پیوند بین آنزیم و لیگاند مهم می باشد.

چندین پایگاه داده در دسترس می باشند که اطلاعاتی را در مورد آنزیم ها و خصوصیات ان ها فراهم می کنند که به ترتیب عبارتند از: BRENDA [2-4] با ۹۲۲۹۱ مدخل برای KM، ۳۲۴۸۴ مدخل برای ، ۲۱۸۳۳ مدخل برای و ۳۳۳۷۲ مدخل برای فعالیت های خاص، Kinetikon [5], KMedDB [6], KDBI [7], DOQCS [8], SABIO-RK [9] and IUPAC-kinetic [10].

ص ۲

به هر حال این پایگاه های داده کامل نبوده، و دانشمندان را در صورتی که رویکرد تحقیقی نظامندی دنبال گردد، مجبور به انجام فعالیت های زمان بر استخراج اطلاعات از تحقیقات پیشین می کند .

یک روش برای دسترسی ساده تر و سریعتر به این اطلاعات استفاده از داده کاویی می باشد، یعنی، استخراج اطلاعات به کمک کامپیوتر از متون نوشتاری بدیهی. الگوریتم های کنونی شامل آموزش ماشینی ( برای مثال. Kinetikon [5])، آمار ( برای مثال FRENDA و AMENDA [3])، مبنای قوانین (KiPar [18] and BioRAT [19]) و روش های ترکیبی (SUISEKI [20]) می باشند.

در اینجا ما الگوریتم داده کاویی بر مبنای قوانین و واژه نامه را برای استخراج اطلاعات سینتیک با تمرکز بر روی زمان محاسبه سریع و دقت بالای اطلاعات دریافتی نشان می دهیم.

اطلاعات آنزیم سینتیک حاصل شده ذخیره می شود و در پایگاه داده ” KID یعنی پایگاه داده سینتیک” نشان داده می شود، که شامل اطلاعات استخراج شده از ۱۷ میلیون چکیده مطالب PubMed [21] می باشد.

پایگاه داده, داده کاوی, سینتیک آنزیم ها