Gửi dữ liệu lên cổng
Chuyển đến nội dung
Những thách thức đặt ra bởi dữ liệu mở
Trong bài viết này, các chuyên gia đã phác thảo một số thách thức đặt ra bởi dữ liệu mở được công bố chính thức và khám phá cách tiếp cận thực tế của công ty công nghệ Doorda có trụ sở tại London
Người đăng: Quản trị hệ thống - 23-05-2023 10:14

Các chuyên gia tin rằng hiện tại, các tổ chức tư nhân và công cộng cần tận dụng làn sóng của dữ liệu mở để cung cấp các sản phẩm và dịch vụ được cải thiện. Hơn nữa, các tổ chức cần truy cập vào toàn bộ làn sóng, không chỉ là một phần của nó. Cuối cùng, họ cần kết hợp tất cả vào dữ liệu hiện tại của họ.

Định nghĩa dữ liệu mở (Open data)

Dữ liệu được coi là mở nếu có ai đó tự do sử dụng, tái sử dụng và phân phối lại nó. Hầu hết các chính phủ tại các quốc gia đang đẩy mạnh việc xuất bản dữ liệu mở, được thực hiện bởi các tổ chức chính thức, trên toàn quốc và khu vực.

Dữ liệu mở thường là thông tin và thống kê về dân số, khu vực người dân sinh sống, các tổ chức, doanh nghiệp mà họ làm việc, và những thứ ảnh hưởng đến cuộc sống của họ - giao thông, tội phạm, y tế, thương mại, chi tiêu khu vực công, giáo dục, xe cộ, thời tiết v.v... Danh sách này phát triển hàng ngày.

Mặc dù dữ liệu mở là phi cá nhân, hoàn toàn tránh được những lo ngại về quyền riêng tư như Quy định bảo vệ dữ liệu chung (GDPR), dữ liệu đó có những thách thức đáng kể.

Thử thách của dữ liệu mở

Thật không may, các tổ chức hiếm khi sử dụng sự giàu có của loại dữ liệu này vì nó được xuất bản theo những cách khó hiểu, không nhất quán và thường không thể dễ dàng liên kết với nhau.

Dữ liệu được cung cấp ở nhiều nơi và ở các định dạng khác nhau (trang web quốc gia, cơ sở dữ liệu khu vực, tài liệu phi cấu trúc, thông điệp bán cấu trúc và hồ sơ có cấu trúc) và có thể truy cập theo nhiều cách khác nhau (trên trang web, tập tin hoặc lập trình).

Đôi khi, dữ liệu được xuất bản tự động đến một vị trí trên internet; đôi khi nó được làm sẵn theo yêu cầu; đôi khi nó lại được gửi qua email. Tần suất xuất bản thay đổi tùy theo nguồn dữ liệu, và có thể là bất kỳ sự kết hợp nào giữa các năm, hàng năm, hàng quý, hàng tháng và hàng ngày. Việc xuất bản cũng có thể không thường xuyên, tùy thuộc vào yếu tố con người hoặc sự kiện.

Vì có hàng ngàn các tổ chức khác nhau tham gia vào việc thu thập dữ liệu, và hầu hết dữ liệu được nhập thủ công, nên chất lượng và tính nhất quán của dữ liệu này rất kém. Acme Widgets Limited ở một thị trấn có thể bị nhập thành Acme Widgets tại một thị trấn khác. Hơn nữa, việc không thể xác định một cách đáng tin cậy và nhất quán một tài sản, khu vực hoặc công ty bởi một định danh chính thức duy nhất là vấn đề khi cố gắng liên kết hoặc nối dữ liệu mở với dữ liệu nội bộ hiện có.

Mặc dù dữ liệu mở hầu như luôn cung cấp chế độ xem mới nhất hoặc hiện tại, nhiều nhà xuất bản không cung cấp chế độ xem lịch sử. Ví dụ, không thể xem dữ liệu như vào thời điểm một quyết định được đưa ra hoặc để xem các thay đổi trải qua thời gian. Việc thực hiện các quy trình tự động để cung cấp lịch sử thường rất phức tạp và tốn kém.

Việc xuất bản dữ liệu mở của các tổ chức khu vực công không phải là trọng tâm chính của họ, vì vậy các giải pháp xuất bản dữ liệu thường rất mong manh. Bất chấp những nỗ lực của các đội tham gia, việc mất dữ liệu trên mạng là cực kỳ phổ biến.

Những người muốn truy cập và sử dụng dữ liệu thường không có đủ công cụ và chuyên môn kỹ thuật cần thiết.

Sử dụng dữ liệu

Tuy nhiên, có những phần thưởng cho những người có thể vượt qua được những thách thức trên.

Các nhà khoa học dữ liệu rất muốn thêm dữ liệu mới vào các mô hình dự đoán rủi ro của họ. Các tổ chức muốn cung cấp một giao diện web không ma sát, tự động điền thông tin chính xác để giảm lỗi và tăng tốc đăng ký cho khách hàng. Ví dụ, một số trang web sử dụng số đăng ký xe để tự động điền và tạo mẫu. Nhiều tổ chức muốn phân tích xu hướng chi tiêu khu vực công. Các nhà tiếp thị đang làm phong phú thêm thông tin nội bộ với dữ liệu mới, cải thiện tỷ lệ thành công tiềm năng của họ.

Các ví dụ khác:

Thu hút khách hàng

Phân khúc khách hàng để xác định tốt hơn thị trường mục tiêu, cải thiện các mô hình phản ứng tiếp thị, tinh chỉnh các đánh giá rủi ro và cung cấp các dịch vụ một cách nhanh chóng và chính xác.

Quản lý khách hàng

Các mô hình khách hàng hoàn thiện hơn tối đa hóa doanh thu tiềm năng, đánh giá các sự kiện rủi ro và tối ưu hóa thu hồi công nợ.

Kế hoạch kinh doanh

Dữ liệu rộng hơn, đầy đủ hơn giúp cải thiện quy hoạch vị trí, đánh giá nhà cung cấp và trí thông minh cạnh tranh.

Tài chính thương mại

Chủ động tìm kiếm nhu cầu tài trợ tiềm năng và cải thiện phản ứng tiếp thị, phân tích rủi ro khách hàng.

Tài sản thương mại

Cải thiện quy hoạch vị trí, xếp hạng tỷ lệ và phân tích đầu tư.

Mua bán sát nhập/Thị trường vốn

Sử dụng một bản tóm tắt về mặt bằng giao dịch, tài sản, các bên kiểm soát, hợp đồng và biên lai của khu vực công để thông báo kết luận và quyết định.

Cách tiếp cận tốt nhất

Các chuyên gia đã làm việc với dữ liệu mở trong nhiều năm nay, nghiên cứu, thu thập, hợp nhất và liên kết hàng ngàn bộ dữ liệu Nguồn mở từ các nguồn chính thức như HMRC, Ordnance Survey, Các cơ quan đăng ký đất đai, chính quyền địa phương. Các chuyên gia tin rằng việc tận dụng giá trị của làn sóng dữ liệu này có ba chủ đề chính:

Dữ liệu sẵn sàng cho doanh nghiệp

Dữ liệu phải được thực hiện trên thị trường, sẵn sàng cho các chuyên gia, cho phép các chuyên gia tập trung ngay vào phân tích và hiểu biết sâu sắc, đồng thời tránh sự chậm trễ lặp lại, chi phí và rủi ro trong việc tìm kiếm và chuẩn bị dữ liệu. Trong thực tế, bằng cách hài hòa dữ liệu từ nhiều nguồn, có thể giải quyết nhiều mâu thuẫn và giảm thiểu lỗi, cung cấp chất lượng dữ liệu tốt hơn so với bất kỳ nguồn nào.

Phải có các quy trình để xác định và lưu trữ các thay đổi trong dữ liệu nguồn, xây dựng một dấu vết lịch sử cập nhật. Các dữ liệu chi tiết vẫn chưa được xử lý vẫn phải có sẵn, cho phép các nhà phân tích và nhà khoa học dữ liệu tạo ra cái nhìn sâu sắc và lợi thế cạnh tranh độc đáo của riêng họ.

Dữ liệu đã tham gia

Các dữ liệu phải liên tục và đáng tin cậy, kết hợp với dữ liệu mở từ tất cả các nguồn, kết hợp với dữ liệu của bên thứ ba khác và với dữ liệu nội bộ do tổ chức nắm giữ. Trong quá trình hài hòa hóa, một số yếu tố dữ liệu quan trọng cần phải được xác định, làm sạch và chuẩn hóa để cho phép tham gia - địa chỉ bưu chính, mã bưu điện và tên công ty.

Không giống như các giải pháp khớp dữ liệu cũ, dịch vụ đối sánh dữ liệu mới này phải được tự động hóa, không yêu cầu bất kỳ sự can thiệp nào của con người và tránh các lỗi giả mạo. Dịch vụ đối sánh dữ liệu phải có sẵn để xóa và khớp với các nguồn dữ liệu khác khi được yêu cầu.

Nền tảng đám mây tự phục vụ

Dữ liệu phải có sẵn trên nền tảng đám mây tự phục vụ, với các nguồn cấp dữ liệu tự động, giữ cho dữ liệu luôn mới và xây dựng một lộ trình kiểm toán lịch sử. Tuy nhiên, việc truy cập dữ liệu vẫn cần phải đơn giản, truy cập hàng loạt (được trích xuất hoặc truy vấn) hoặc bằng giao dịch riêng lẻ thông qua các giao diện lập trình (SQL và API).

Phần kết luận

Vượt qua những thách thức để tận dụng giá trị của Dữ liệu mở sẽ tránh được những lo ngại về quyền riêng tư như GDPR. Tuy nhiên, giá trị của dữ liệu mở cho các tổ chức không nằm ở các tệp bị cô lập, đó là sự hợp nhất tất cả dữ liệu có liên quan vào một nền tảng duy nhất và cung cấp sự truy cập dễ dàng.