عنوان فایل ترجمه فارسی: یکپارچه سازی داده های استخراجی به منظور ایجاد پایگاه داده منسجم و پایدار.
عنوان نسخه انگلیسی: Integration of the extracted data to produce a consistent and coherent database
مرتبط با رشته های : فناوری اطلاعات و کامپیوتر
تعداد صفحات مقاله فارسی: ۴۰ صفحه
این فایل ترجمه شده به صورت ورد word است و دارای امکان ویرایش می باشد.
و دریافت رایگان متون لاتین در قسمت پایین با فرمت pdf آمده دانلود است.
قسمتی از متن انگلیسی:
In this type of matching, value
characteristics are exploited to match schema elements [53, 145, 327,
531, 558]. For example, the two attribute names may match according to
the linguistic similarity, but they may have different domain value
characteristics. Then, they may not be the same but homonyms. For
example, Location in a real estate sell may mean the address, but could
also mean some specific locations, e.g., lakefront property, hillside
property, etc. In many applications, data instances are available, which
is often the case in the Web database context. In some applications,
although the instance information is not available, the domain
information of each attribute may be obtained. This is the case for Web
query interfaces. Some attributes in the query interface contain a list
of possible values (the domain) for the user to choose from. No type
information is explicitly given, but it can often be inferred. We note
that the set of value instances of an attribute can be treated in the
similar way as a domain. Thus, we will only deal with domains below.
قسمتی از ترجمه مقاله
ما به بررسی استخراج داده از صفحات وب می پردازیم. داده های استخراج
شده در جداول قرار داده می شود. برای کاربرد، به هر حال، برای کاربرد آن،
کافی نیست تا داده ها را تنها از یک سایت خاص استخراج کنیم. درعوض داده های
حاصل شده از تعداد زیادی از سایت ها به منظور ایجاد خدمات ارزش افزوده
گرداوری می گردد. در چنین مواردی استخراج تنها بخشی از داستان می باشد. بخش
دیگر یکپارچه سازی داده استخراج شده به منظور ایجاد پایگاه داده منسجم و
پایدار می باشد، زیرا سایت های مختلف معمولا از فرمت های دادهای متفاوتی
استفاده می کند. به طور تجربی، یکپارچه سازی به معنی انطباق ستون ها در
جداول داده مختلف می باشد که حاوی انواع مشابهی از اطلاعات می باشند ( به
عنوان مثال نام محصول) و منطبق با ارزش هایی می باشند که از نقطه نظر
معنایی مشابه بوده اما در وب سایت های مختلف به طور متفاوتی نشان داده می
شوند ( برای نمونه کوک و کوکاکولا). متاسفانه پژوهش های یکپارچه محدودی تا
به حال در این زمینه خاص انجام شده است. بسیاری از تحقیقات مربوط به
یکپارچه سازی داده های وب تمرکزش را نبر روی یکپارچه سازی رابط های پرس و
جوی وب قرار داده است. این مقاله دارای چندین بخش در مورد با یکپارچگی داده
می باشد. به هر حال بسیاری از ایده های توسعه یافته برای یکپارچه سازی
داده های استخراجی کاربردی می باشند زیرا مسائل مشابه می باشند.
رابط پرس و جو وب برای تنظیم جستجوها به منظور بازیابی داده مورد نیاز
از پایگاه داده وب مورد استفاده قرار می گیرد ( که به نام مرکز وب می باشد)
شکل ۱۰٫۱، دو رابط جستجوگر را از دو سایت مسافرتی expedia.com و
vacation.com نشان می دهد. کاربری که قصد خرید بلیط هواپیما را دارد معمولا
به سایت های زیادی سر می زند تا ارزان ترین بلیط را پیدا کند. با توجه به
تعداد زیادی از سایت های پیشنهادی، فرد می بایست به هر کدام بطور جداگانه
دسترسی داشته تا بهترین قیمت را پیدا کند، که کار خسته کننده ای می باشد.
برای کاهش دادن تلاش فیزیکی، می توانیم رابط های جستجوگر جهانی را ایجاد
کنیم که دسترسی یکپارچه ای را به منابع وابسته مختلف امکان پذیر می کند. به
این ترتیب کاربر می تواند نیازمندی های خود را در این رابط سراسری مجزا
تکمیل کرده و تمام منابع مورد نظر ( پایگاه داده ای) به صورت اتوماتیک پر
شده و جستجو می گردد.