Global Center Point Splitting: New Linear Node Splitting Algorithm for R-Trees

Thumbnail Image
Date
2016
Authors
Manar Arafat
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
We introduce a new linear algorithm to split overflowed nodes of an R-tree index called the Global Center Point Splitting (GCPS) algorithm. The proposed method is an enhancement of the Quadratic splitting algorithm proposed by Guttmann (Guttman A, 1984; 47–57). Most known algorithms do not take advantage of the fact that most spatial objects data is known beforehand, and these objects are relatively easy to identify. In this paper we have adopted an informative approach by making use of spatial information provided by the problem space. Objects in the problem space are scanned and the Global Center Point (GCP) that the objects are concentrated around is determined. The GCPS algorithm uses the proximity between the Global Center Point (GCP) and the remaining objects in selecting a splitting axis that produces the most even split. We conducted several experiments using both real and synthetic data sets. Results show that the proposed splitting method outperforms the quadratic version in terms of construction time especially for nodes with high capacity. The query performance approximately remains the same.
في هذا البحث سنقوم بتقديم خوارزمية خطية جديده لتقسيم عقدة ممتلئة في دليل R-tree لقواعد البيانات تسمى خوارزمية التقسيم حول المركز العام (GCPS). هذه الخوارزمية هي تحسين للخوارزمية ذات الدرجة الثانية التي تم طرحها من قبل (Guttman, A. 1984; 47–57) Guttmann. معظم الخوارزميات لا تستفيد من حقيقة ان معظم البيانات ثنائية الفضاء معروفة مسبقا. في هذا البحث سنستفيد من هذه البيانات في ايجاد نقطة المركز العام (GCP) التي تتجمع حولها هذه البيانات، وبناء على تقارب البيانات مع هذه النقطة, تقوم خوارزمية (GCPS) بتحديد المحور الامثل لتقسيم البيانات. لقد قمنا باجراء اختبارات للخوارزمية الجديدة باستخدام بيانات حقيقية وبيانات مصطنعة. النتائج تشير الى ان الخوارزمية الجديدة مقارنة -بالخوارزمية ذات الدرجة الثانية- تعطي نتائج افضل. حيث ان وقت بناء دليل قاعدة البيانات يصبح اقل مع المحافظة على نفس الاداء.
Description
Keywords
Citation