طراحي و تعيين ساختار داده اي پايگاه داده تحليلي جغرافيايي يا GDW (بخش دوم و پاياني)
طبقه بندي موضوعي : ساير مقالات
نويسنده : مهدي سرگلزاييsargolzaei@aut.ac.ir ،دکتر احمد عبدالله زادهahmad@ce.aut.ac.ir (دانشگاه صنعتي اميركبير، دانشكده ي مهندسي كامپيوتر) ناشر : همكاران سيستم تاريخ انتشار : 29/10/13837 يک مثال کاربردي
در اين جا به عنوان يک مثال، کاربردي براي پايگاه داده ي تحليلي جغرافيايي مطرح مي کنيم که مبتني بر داده هاي شبکه ي جاده ها در سيستم حمل و نقل است. داده هاي سيستم اطلاعات جغرافيايي حمل و نقل شامل موقعيت جغرافيايي جاده ها روي نقشه، نام محورها و نواحي جاده اي، ميزان لغزندگي جاده، شيب جاده، متوسط ترافيک روزانه ي جاده و ميزان تصادفات روزانه است. سيستم هاي اطلاعات جغرافيايي حمل و نقل، به روز است و تنها داده هاي جاري (روزانه) جاده ها را نگه داري مي کنند، اما در صورت طراحي پايگاه داده ي تحليلي جغرافيايي براي اين سيستم، اطلاعات جاده ها به صورت خلاصه شده و تاريخچه اي[2] نگه داري مي شوند. يعني GDW که براي اين سيستم حمل و نقل طراحي مي شود، علاوه بر اطلاعات ثابت زماني شامل موقعيت و نام جاده ها، محورها و نواحي و همچنين شيب جاده ها بايد حاوي اطلاعات دوره اي شامل اندازه ي لغزندگي، شيب، متوسط ترافيک روزانه و تعداد تصادفات رخ داده در روزهاي مختلف سال نيز باشد. بر اساس اين داده ها مي توان اطلاعاتي نظير ميزان ترافيک و تعداد تصادفات رخ داده در دوره هاي مختلف زماني (روز، ماه و سال) را استخراج کرد و به پرسش هاي تحليلي کاربران مانند مشخص کردن نواحي پرترافيک و يا حادثه خيز در زمان هاي خاص جواب داد و در واقع به تصميم گيري مديران کمک کرد.8 مكعب ساختاري داده
مدل داده اي که براي طراحي سيستم هاي پردازش تراکنش برخط سنتي استفاده مي شود، براي طراحي پايگاه داده ي تحليلي مناسب نيست[7]. در سيستم هاي پردازش تراکنش برخط پرسش ها ساده و از پيش تعريف شده هستند، اما در محيط هاي پايگاه داده ي تحليلي پاسخ پرسش ها به طور معمول پيوند چندين جدول را در بر دارد و زمان محاسباتي آن ها بالاست. بنابراين مدل داده ي جديدي در آن ها مورد نياز است. به اين منظور مدل داده ي چندبعدي مدل مناسبي است و روشي را براي تحليل داده ها در چندين ويژگي _که بعد ناميده مي شوند_ فراهم مي آورد.يك پايگاه داده ي تحليلي برپايه مدل چند بعدي داده ها بنا شده است كه داده را در يک ساختار چند بعدي به وسيله ي مكعب ساختاري داده[3] ارايه مي کند. مكعب ساختاري داده بر ابعاد[4] و اندازه ها[5] متکي است. ابعاد، معرف مولفه هاي تحليلي هستند، در حالي که اندازه ها مقادير عددي حاصل از تحليل ابعاد متفاوت اند. مكعب ساختاري داده اجازه مي دهد كه داده ها در ابعاد مختلف مدل شوند و از ديدگاه هاي مختلف مورد بررسي قرار گيرند. هريك از ابعاد مختلف داده كه مورد بررسي قرار مي گيرد در يك جدول بعد قرار مي گيرد. براي دست رسي به اين جداول بعد, يك جدول حقايق مركزي در نظر گرفته مي شود كه در واقع حاوي كليدهاي مرتبط با هر يك از جداول بعد است. اندازه مي تواند به عنوان متغير وابسته در نظر گرفته شود، در صورتي که ابعاد متغيرهاي مستقلي هستند. يک بعد داراي اعضايي است که به صورت سلسله مراتبي داخل سطوحي سازمان دهي مي شوند. اعضاي هر بعد داراي دانه بندي[6] متفاوتي هستند که اين دانه بندي ها از سطوح جمع شده به طرف سطوح ريز شده براي رسيدن به سطح جزييات مطلوب ريز و کوچک مي شوند. به عنوان مثال در شبکه ي جاده ها، بعد زمان مي تواند شامل سه سطح روز، ماه و سال باشد که اندازه ها در سطح روزها جمع شده و اندازه هاي سطح ماه را مي سازند. به همين ترتيب ماه ها جمع مي شوند و سطح سال ها را تشکيل مي دهند. به عبارت ديگر اندازه ها در سطوح پاييني مطابق با سلسله مراتب و قوانين و الگوريتم هاي مجموع سازي براي توليد اطلاعات سطوح بالاتر جمع مي شوند.5-1- مكعب ساختاري داده جغرافيايي
زمان ساخت يك پايگاه داده ي تحليلي جغرافيايي چند بعدي علاوه بر بعد زمان و بعد داده هاي معنايي معمول نياز به يك بعد مكاني خواهيم داشت. به عنوان مثال در مکعب ساختاري داده شبکه ي جاده ها، شيب جاده مي تواند به عنوان يک بعد معنايي ساده در نظر گرفته شود و همان طور که در بخش قبل توضيح داده شد، يک بعد زماني نيز شامل روز، ماه و سال فرض شود. در نهايت نام و موقعيت جاده، محور و ناحيه را نيز به عنوان بعد مکاني در نظر مي گيريم.بعد مكاني را در مكعب ساختاري داده جغرافيايي به سه شکل زير در نظر مي گيريم:· بعد مكاني غير جغرافيايي
اين بعد تنها محتوي داده هاي غيرجغرافيايي است، يعني مراجع جغرافيايي تنها توسط داده هاي اسمي (به عنوان مثال نام جاده) مشخص مي شوند و هيچ نمايش کارتوگرافيک يا هندسي به اعضاي بعد تخصيص داده نمي شود. اين نوع از ابعاد جغرافيايي شبيه ديگر ابعاد مفهومي هستند که در پايگاه هاي داده ي تحليلي رايج استفاده مي شوند و لذا استفاده از آن براي سيستم ما، نيازمندي هاي جديدي را تعريف نمي کند.بعد مكاني جغرافيايي به غير جغرافيايي
در اين بعد داده هاي اوليه به صورت جغرافيايي هستند اما عمومي سازي آن در سطوح بالاتر به داده هاي غير جغرافيايي منتهي مي شود. به عنوان مثال ناحيه اي در نقشه توسط چندضلعي مشخص مي شود، يعني داده ي جغرافيايي است. اما همين داده در سطوح بعدي و دانه بندي به نام شهرها، مناطق و... مي رسد كه از نوع داده هاي غيرجغرافيايي هستند.بعد مكاني تمام جغرافيايي
در اين بعد هم داده هاي اوليه و هم تمام داده هاي حاصل از عمومي سازي و دانه بندي در سطوح بالاتر از نوع جغرافيايي هستند. در واقع ابعاد نوع دوم و سوم امکان ويژوالي شدن اعضاي بعد و پرس وجوي گرافيکي را به کاربر مي دهند. اين اشياي هندسي در حالت بعد مکاني تمام جغرافيايي، در تمام سطوح وجود دارند، ولي در حالت ادغام شده يا بعد مکاني جغرافيايي به غير جغرافيايي اين اشيا تنها در چند سطح وجود دارند و در سطوح ديگر از داده هاي اسمي استفاده مي شود.در زمينه ي مكعب ساختاري داده جغرافيايي، نه تنها ابعاد بلکه اندازه ها نيز مي توانند شامل اشياي جغرافيايي بوده و آن ها را پردازش کنند. بنابراين در يک سيستم پايگاه داده ي تحليلي جغرافيايي دو نوع اندازه تعريف مي کنيم :· اندازه عددي
اين اندازه گيري تنها شامل داده هاي عددي است. به عنوان مثال در شبکه ي جاده ها اندازه متوسط ترافيک جاده که عملگر Roll up روي آن مي تواند به وسيله بعد زماني (ماه - سال) و يا بعد مکاني (محور، ناحيه، استان) تعريف شود.· اندازه گيري مكاني
اين نوع اندازه گيري شامل يك مجموعه از اشياي جغرافيايي خواهد بود. به عنوان مثال در مكعب ساختاري داده جغرافيايي شبکه ي جاده ها، مناطقي كه در بازه ي خاصي از شيب جاده هستند، در داخل سلول يكساني قرار گيرند. از آن جا که ذخيره ي منابع جغرافيايي به عنوان اندازه هاي جغرافيايي در داخل سلول هاي مکعب ساختاري داده مشکل است، ما خود اشياي جغرافيايي را داخل سلول ها قرار نمي دهيم، بلکه يك مجموعه از اشاره گرها به منابع جغرافيايي را داخل اين سلول ها ذخيره مي کنيم.9 توابع مجموع سازي جغرافيايي
داده هاي OLAP به صورت چندبعدي و جمع بندي شده از پايگاه هاي داده ي تحليلي استخراج مي شوند، بنابراين عملگرهاي OLAP نظير drill-down و roll-up به توابع مجموع سازي[7] براي محاسبه ي مقادير اندازه ها نياز خواهند داشت. به عنوان مثال مکعب ساختاري داده براي شبکه ي جاده ها را به صورت دو بعدي در نظر مي گيريم که يک بعد آن ماه هاي سال(بعد زماني) و بعد ديگر آن نام جاده ها (بعد مکاني جغرافيايي به غيرجغرافيايي) باشد. اگر اندازه ي نگه داري شده در سلول هاي آن را تعداد سوانح رانندگي رخ داده تعريف کنيم، آن گاه مقدار ذخيره شده در مختصات (x,y) متناظر تعداد سوانح رانندگي رخ داده طي ماه x در جاده ي y خواهد بود. عملگر roll-up متناظر انجام عمل group by بر روي يکي از ابعاد است. براي مثال مي توان تعداد کل سوانح رخ داده در جاده y را طي شش ماهه اول سال تعيين کرد و يا سانحه خيزترين ماه سال براي جاده y را مشخص نمود. ملاحظه مي شود که عملگر roll-up براي اولين گزارش نياز به تابع مجموع سازي SUM و براي دومين نياز به تابع مجموع سازي MAX خواهيم داشت. حال اگر بخواهيم عملگر roll-up را بر روي بعد مکاني اعمال کنيم؛ يعني شکل توپوگرافيک جاده را مورد پرس و جوي تحليلي قرار دهيم، بايد از توابع مجموع سازي متناسب با داده هاي جغرافيايي استفاده کنيم. به عنوان مثال به جاي تابع مجموع سازي MAX بايد از تابع مجموع سازي جغرافيايي Union استفاده کنيم که اندازه ي حاصل از اجتماع چند شي جغرافيايي در بعد مکاني را محاسبه مي کند. در جدول1-1 نمونه هايي از انواع توابع مجموع سازي براي دو نوع داده هاي جغرافيايي و عددي نشان داده شده است. توابع مجموع سازي را به سه دسته ي توزيعي، جبري و هاليستيک[8] تقسيم مي کنيم[2].جدول1-1- نمونه هايي از انواع توابع مجموع سازي براي دو نوع داده هاي جغرافيايي و عددي
نوع مجموعه ي داده هاتوابع مجموع سازيتوزيعيتوابع مجموع سازي جبريتوابع مجموع سازي هاليستيکعدديكمينه(MIN)، بيشينه(MAX) جمع(SUM) و تعداد(Count)ميانگين (Average)ميانه (Median)جغرافياييحداقل مستطيل محيطي (Minimal orthogonal bounding box)، اجتماع جغرافيايي(Union) و اشتراک جغرافيايي(Intersection)مرکز ثقل (Centroid)نزديک ترين همسايه (Nearest neighbour)10 پياده سازي GDW
با توجه به مشخصات بيان شده مي توان يک سيستم GDW را با يک بانک اطلاعاتي که مي تواند داده هاي مکاني را ذخيره كند، پياده سازي کرد. در اين تحقيق با در نظرگرفتن توانايي هايي که براي ذخيره ي داده هاي مکاني در بسته ي Spatial Oracle به نسخه ي Oracle9i اضافه شده، استفاده از اوراکل براي پياده سازي GDW در ادامه ي اين تحقيق در نظر گرفته شده است.11 نتيجه گيري
در اين مقاله ما پايگاه هاي داده ي تحليلي جغرافيايي را به عنوان ابزاري قوي جهت پاسخ گويي سريع به پرسش هاي تحليلي کاربران سيستم هاي اطلاعات جغرافيايي و هم چنين جهت کمک به تصميم گيري مديران اين سيستم ها معرفي کرديم. همچنين در اين نوشتار موضوعات وابسته به ساخت پايگاه هاي داده ي تحليلي جغرافيايي به همراه مشخصات هر يک از اجزاي آن و ساختار داده اي مناسب GDW ارايه گرديده است. پايگاه داده ي تحليلي جغرافيايي مبتني بر مکعب ساختاري داده جغرافيايي و خود اين مکعب شامل ابعاد و اندازه هاي مکاني و جغرافيايي است. براي عمليات roll-up و drill-down در داخل OLAPهاي جغرافيايي نيز نيازمند تعريف توابع مجموع سازي خاص داده هاي جغرافيايي هستيم که نمونه هايي از اين توابع و کاربرد آن ها به صورت دسته بندي شده ارايه شده است.12 منابع
[1] T. Bossomaier and D. Green . Online GIS and Metadata , taylor & francis,2002.[2] J. Miller, J. Han. Geographic Data Mining & Knowledge Discovery ,2001.[3] F.Escobar and G. Hunter and I. Bishop and A. Zerger. Introduction to GIS,Department of Geomatics, The University of Melbourne,1999. http ://www.sli.unimelb.edu.au/gisweb/[4] S. O penshaw. G eographical datamining : key designissues , Centre for Computational Geographic,1999. [5] J. han, K. Koperski and N. Stefanovic. GeoMiner: ASystem Prototype for Spatial Data Mining ,1997.[6] S.Samtani and Y.Kambayashi. Recent Advances and Research Problems in Data Warehousing , Dept of Computer Science Telecommunications, University of Missouri-Kansas. 1999.[7] S. Gatziu and A. Vavouras. Data Warehousing: Concepts and Mechanisms ,1999[8] J. Liu and M. Vincent, An architecture for data warehouse systems , IEEE , 107-110, 1998.[9] M. Golfarelli and D. Maio and S. Rizzi. Conceptual Design of Data Warehouses from E/R Schemas , IEEE, 334-343, 1998.[10] S. Spaccapietra AND C. Parent and C. Vangenot , GIS Databases: From Multiscale to MultiRepresentation , SARA 2000 : 57-70,1999.[1] Geographical Data Warehouse[2] historical[3]Data Cube [4] Dimensions [5]Measurements [6] Granularity [7]Aggregation Function[8]Holistic