Giáo trình Cơ sở dữ liệu phân tán

Những năm của thập kỷ 70, máy tính đã có đủ khả năng xây dựng hệ thống thông tin và hệ cơ sở dữ liệu. Một mặt đã hình thành và phát triển các mô hình lý thuyết cho hệ cơ sở dữ liệu và mặt khác những nguồn phát triển hệ thống ứng dụng ngày càng có nhiều kinh nghiệm. Hệ thống thông tin hình thành trên cơ sở kết nối các máy tính khác nhau.

Những năm gần đây, hệ cơ sở dữ liệu phân tán được phát triển dựa trên cơ sở dữ liệu và mạng máy tính. Cơ sở dữ liệu phân tán gồm nhiều cơ sở dữ liệu tích hợp lại với nhau thông qua mạng máy tính để trao đổi dữ liệu, thông tin. Cơ sở dữ liệu được tổ chức và lưu trữ ở những vị trí khác nhau trong mạng máy tính và chương trình ứng dụng làm việc trên cơ sở truy cập dữ liệu ở những điểm khác nhau đó.

Vấn đề hoàn toàn mới là xây dựng và cài đặt một cơ sở dữ liệu phân tán. Cần giải quyết vấn đề xây dựng và cài đặt cơ sở dữ liệu phân tán cụ thể như vấn đề thiết kế phân tán, thiết kế cơ sở dữ liệu.

I.CƠ SỞ DỮ LIỆU

Về cơ bản cơ sở dữ liệu (Database) là tập hợp dữ liệu được lưu trữ một cách có tổ chức để phục vụ cho công việc sử dụng thuận tiện nhất. Dữ liệu là số liệu, hình ảnh. cần được lưu trữ dưới dạng file, record.tiện lợi cho người dùng đối với việc tham khảo, xử lý.

Mỗi cơ sở dữ liệu cần có chương trình quản lý, xắp xếp, duy trì.dữ liệu gọi là hệ quản trị cơ sở dữ liệu (DBMS - Database Management System). Hệ quản trị cơ sở dữ liệu được coi là bộ diễn dịch ngôn ngữ bậc cao để dịch các công việc người sử dụng thao tác trên dữ liệu mà người dùng không cần quan tâm đến thuật toán.

 

doc74 trang | Chia sẻ: lethuong715 | Lượt xem: 781 | Lượt tải: 0download
Bạn đang xem trước 20 trang mẫu tài liệu Giáo trình Cơ sở dữ liệu phân tán, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
ng các thuộc tính của quan hệ R và số lượng các bó có khả năng lớn thêm. Vì vậy thể hiện của quan hệ lớn, theo hướng tiếp cận heuristic cần thiết để xác định các phần hay các nhóm thuộc tính để phân chia hợp lý. Có hai cách phân chia các thuộc tính:
-Hướng chia từ trên xuống: quan hệ được liên tục chia thành các đoạn (không chọn lọc).
-Hướng nhóm từ dưới lên: các thuộc tính liên kết để tạo thành các đoạn (có chọn lọc).
	Cả hai hướng có thể được phân loại riêng rẽ như dãy heuristic, các đoạn này được sử dụng để chuyển sang đánh dấu mỗi công việc lặp lại khả năng lựa chọn tốt nhất. Trong cả hai trường hợp sử dụng công thức báo hiệu khả năng chia hay hợp tốt nhất. Một số kiểu lùi có thể được dùng để thử chuyển thuộc tính từ tập thuộc tính này sang tập thuộc tính còn lại để chia tiếp. 
	Nhóm các thuộc tính theo chiều dọc đưa ra bản lặp một số thuộc tính trong các đoạn qua việc đánh đấu mỗi khả năng chọn tốt nhất những công việc lặp lại. Bản lặp lại có ảnh hưởng khác nhau đến chương trình ứng dụng có thuộc tính chỉ đọc và cập nhật. Chương trình ứng dụng có thuộc tính chỉ đọc có lợi thế của bản lặp lại vì các chương trình này làm công việc giống như tham chiếu đến dữ liệu ở địa phương. Đối với chương trình úng dụng có thuộc tính chỉ cập nhật, tạo bản lặp lại không thích hợp khi các chương trình này cập nhật mọi bản sao để bảo đảm tính đúng đắn.
4.Phân đoạn hỗn hợp:
Cách đơn giản nhất để phân đoạn hỗn hợp gồm có :
-áp dụng phân đoạn ngang cho các đoạn phân chi theo chiều dọc.
-áp dụng phân đoạn dọc cho các đoạn phân chi theo chiều ngang.
Mặc dù các công việc này có thể lặp lại, tạo ra cây phân đoạn phức tạp nào đó, có nghĩa là có hai hay nhiều cấp phân đoạn sinh ra trong thực tế. Hai vấn đề trên cho phép cả hai cách phân đoạn được xem xét mỗi quan hệ và vì vậy không đạt được tiện lợi cần thiết. Cách phân đoạn lần thứ hai có thể áp dụng cho đoạn con từ cách phân đoạn thứ nhất.	
III.Cấp phát cho các đoạn:
Cách dễ nhất thực hiện công việc cấp phát file là xem mỗi đoạn như một file riêng rẽ. Tuy nhiên cách này không thích hợp do ba lý do:
-Các đoạn không mô hình hóa thích hợp như các file riêng rẽ vì các đoạn không có cấu trúc như file dẫn đến khó tác động đến đoạn.
-Số đoạn nhiều hơn quan hệ cơ sở như vậy nhiều mô hình phân tích không tính toán được giải pháp cho vấn đề này.
-Mô hình hóa tác động chương trình ứng dụng với hệ thống file rất đơn giản trong khi chương trình ứng dụng ở cơ sở dữ liệu phân tán có thể tạo cách sử dụng dữ liệu dễ dàng.
Một số vấn đề này hiện chưa được giải quyết thỏa đáng, ví dụ như vấn đề thứ 3 đặc biệt khó vì đòi hỏi phải tối ưu chương trình ứng dụng, tái tạo lại quan hệ và nhiều tính toán phức tạp.
1.Các chuẩn thông thường của công việc cấp phát cho các đoạn:
Trong các công việc cấp phát cho các đoạn, quan trọng phân biệt được thiết kế cấp phát cho các đoạn dư thừa hay không dư thừa. Cách dễ nhất là hướng “phù hợp nhất”: tiêu chuẩn vị trí kết hợp với khả năng cấp phát cho các đoạn. Hướng này không quan tâm đến ảnh hưởng qua lại của việc đặt một đoạn ở vị trí những đoạn liên quan cũng đặt ở vị trí đó.
Bản lặp lại các đoạn làm phức tạp công việc thiết kế hơn vì:
-Cấp độ những bản sao của mỗi đoạn thích hợp với vấn đề có thể thay đổi thiết kế.
-Mô hình hóa chương trình ứng dụng có thuộc tính chỉ đọc bị làm phức tạp bởi thực tế chương trình ứng dụng có thể chọn một trong số vài vị trí khác nhau để truy cập đến các đoạn.
Để xác định cấp phát đoạn dư thừa thì phải dùng hai cách thức sau:
-Xác định nhóm mọi vị trí có lợi ích dụng cấp phát đoạn và cấp phát bản sao của đoạn cao hơn chi phí và cấp phát các bản sao của đoạn cho các vị trí thành phần của nhóm này. Cách này có nghĩa là lựa chọn các vị trí có lợi nhất.
-Đầu tiên xác định giải pháp của bài toán cấp phát không sao lại các đoạn và sau đó tiếp tục sao lại các bảo sao bắt đầu từ nơi có tính chất lợi ích nhất. Tiến trình này được kết thúc khi bản sao không có lợi.
Cả hai phương pháp có một số nhược điểm. Trong phương pháp mọi vị trí có lợi nhất đánh giá chi phí và lợi ích cơ bản cho việc cấp phát các đoạn riêng rẽ hơn trường hợp không dư thừa vì không quan tâm đến tác động qua lại khi cấp phát những bản sao khác nhau của cùng một đoạn. Phương pháp thêm bản lặp lại là hướng tiếp cận theo heuristic theo cách này có thể đưa vào nguyên nhân tăng mức độ dư thừa ít hơn phương pháp tốt nhất. Cả hai tính sẵn có và tính dư thừa của hệ thống tăng nếu có hai bản sao của mỗi đoạn nhưng những bản sao sau này ít tăng theo tỉ lệ.
2.Đánh giá mức độ quan trọng về giá trị và lợi ích của công việc cấp phát đoạn:
Công thức đơn giản để đánh giá giá trị và lợi nhuận của công việc cấp phát đoạn cho quan hệ R.
nkj = Gkj + uki
 	Với: i là đoạn index và J là vị trí index.
ũkj tần xuất sử dụng của chương trình ứng dụng k tại vị trí j.
Gkj là số lượng tham chiếu có tính chất hồi phục của chương trình ứng dụng k sang đoạn j.
ukj số lượng tham chiếu có thuộc tính cập nhật của chương trình ứng dụng k sang đoạn i;
Đối với phân đoạn ngang:
-Sử dụng hướng phân đoạn phù hợp nhất đối với cấp phát không lặp lại: đặt đoạn R ở vị trí có số lượng chương trình ứng dụng tham chiếu đến đoạn R lớn nhất. Đánh giá số lượng tham chiếu của các chương trình ứng dụng ở địa phương tới đoạn Ri ở vị trí j được tính theo công thức tổng các tham chiếu hồi phục với tần xuất sử dụng:
 Bij = Sk ũkj. Gkj
Bij số lượng tham chiếu của các chương trình ứng dụng. 
Đoạn Rj được đặt tại vị trí j* với Bỵi* cực đại (j*là vị trí lựa chọn) .
-Sử dụng phương pháp đặt đoạn ở mọi vị trí có lợi nhất đối với công việc cấp phát các bản sao: đặt đoạn Rj ở các vị trí j có chi phí tham chiếu, hồi phục của chương trình lớn hơn chi phí tham chiếu cập nhật đến đoạn Ri từ chương trình ở các vị trí khác. Biểu thức đánh giá tính như sau:
 	Bi j =Sk Ư k j . Gk i - C. Sk Sj’ ạ j Ưk j’ uk i 
Với C là hằng số, hằng số này là tỷ lệ giữa chi phí loại truy cập để cập nhật và loại chi phí để hồi phục . Truy cập mang tính cập nhật đắt hơn khi yêu cầu số lượng lớn thông báo điều khiển và thực hiện nhiều công việc của chương trình ứng dụng ở địa phương ( vì vậy C ³ 1).
Đoạn Ri được cấp phát ở mọi vị trí j*với biểu thức đánh giá Bi j* với giá trị tuyệt đối. Bản sao của đoạn Ri được cấp phát ở vị trí với biểu thức đánh giá Bi j lớn nhất.
3.Sử dụng phương pháp thêm bản Ri đối với cách phân đoạn lặp lại. 
Chỉ có thể đo lợi ích đặt bản sao của đoạn Ri trong giới hạn khả năng tăng và khả năng sẵn có của hệ thống. Khi bắt đầu công việc cấp phát, lợi ích này không tăng tỷ lệ với độ dư thừa của đoạn Ri. Giả sử di tương đương với cấp độ dư thừa của đoạn Ri và giả sử Fj tương đương với lợi ích với việc có đoạn Rj đầy lặp lại đủ ở mỗi vị trí. Hàm b(di) đo lợi ích này:
	b(di) = ( 1 - 21-di )Fi
Chú ý b( 1 ) = 0, b ( 2 ) = Fi/2, b( 3 ) = 3Fi. Sau đó tính toán lợi ích của việc rút ra bản sao mới của Ri ở vị trí j qua việc thay đổi công thức ở trường hợp 2 như sau:
 Bi j =Sk Ư k j . Gk i - C. Sk Sj’ ạ j Ưk j’ uk i + b(di)
Đánh gía số lượng tham chiếu đến phân đoạn theo chiều ngang:
Để đo lợi ích của các phần phân đoạn ngang của đoạn Ri đặt ở vị trí thành hai đoạn Rs và Rt đặt ở vị trí r và vị trí t. Xem xét các tập sau đây: 
 -Có hai nhóm chương trình ứng dụng As và At sử dụng thuộc tính chỉ từ Rs và Rt đoạn của chương trình ứng dụng xử lý ở vị trí s và t và đưa ra ở vị trí địa phương s và t, mối liên quan giữa các chương trình ứng dụng này là đều tham chiếu từ xa.
-Có một tập At chương trình ứng dụng tại vị trí r và chỉ sử dụng các thuộc tính của Rs hoặc Rt. Các chương trình ứng dụng này cần tạo ra một tham chiếu địa phương từ xa.
-Có một tập A2 chương trình ứng dụng tại vị trí r và sử dụng cả các thuộc tính của Rs và Rt. Các chương trình ứng dụng này cần tạo ra hai tham chiếu địa phương từ xa.
-Có một tập A3 chương trình ứng dụng ở các vị trí khác nhau r, s và t tham chiếu đến cả hai đoạn Rs và Rt. Các chương trình ứng dụng này cần tạo một tham chiếu địa phương từ xa
Đo lợi ích này theo công thức sau:
Btst = S kẻA sƯksnki + S kẻAtƯktnki - S kẻA1Ưkrnki + 2 S kẻA2 . Ưkrnki +
 S kẻA3Skẽ r, s, tƯkjnki
Để đơn giản hoá, công thức này đếm số lượng các lần truy cập. Phân biệt truy cập hồi phục và cập nhật đưa vào tài khoản các giá trị khác nhau, các giá trị này không hiệu quả khi dùng (rk i + C . uki) thay vì nk i.
Công thức này có thể sử dụng trong thuật toán chia nhỏ để xác định có chia Ri ở vị trí i vào đoạn Rsở vị trí s và đoạn Rt ở vị trí t thích hợp qua việc thử mọi khả năng kết hợp của vị trí s và t chú ý trường hợp khi r = s hay r = t.
Nhóm theo các thuộc tính chiều dọc:
Đo lợi ích của việc nhóm các thuộc tính của đoạn Ri j theo chiều dọc ở vị trí r thành hai đoạn đặt ở vị trí s và t với thuộc tính lặp là I. Việc nhóm đòi hỏi các nhóm chương trình ứng dụng tương đương đưa ra từ các phần theo chiều ngang:
+As gồm các chương trình ứng dụng đặt ở vị trí s vì các chương trình này:
	-Đọc các thuộc tính của đoạn Rs hoặc
	-Cập nhật các thuộc tính của Rs không lặp lại ở thuộc tính lặp I cũng như đối vơí As.
+As gồm các chương trình ứng dụng có thuộc tính chỉ đọc một cách hình thức đặt vào vị trí R một thao tác truy cập vào thuộc tính lặp I thì thao tác này truy cập đến cả hai đoạn Rs và Rt..
+As gồm các chương trình ứng dụng ở các vị trí khác r,s hay t cập nhật vao thuộc tính I thì phải truy cập đến cả hai đoạn Rs và Rt..
Chương III 
 Xây dựng một hệ cơ cở dữ liệu trong kế toán 
tài chính
I.Yêu cầu
	 Một trong những điều quan trọng đảm bảo cho kinh doanh thành công là có hệ thống kế toán. Hệ thống kế toán giúp cho các nhà doanh nghiệp, người đầu tư, người quản lý thấy rõ được thực chất của quá trình kinh doanh qua số liệu cụ thể, chính xác, khách quan và khoa học. 
Kế toán được coi là hoạt động có tính dịch vụ. Chức năng của kế toán là đo lường các hoạt động kinh doanh bằng cách lưu trữ các số liệu để sử dụng trong tương lai và qua xử lý để đưa thông tin hữu ích cho những người quyết định cũng như những người có quyền lợi trong hoạt động kinh doanh. Thông tin đó phải có bản chất tài chính và

File đính kèm:

  • docCo so du lieu phan tan.doc