Networks Business Online Việt Nam & International VH2

Dữ liệu lớn – Wikipedia tiếng Việt

Đăng ngày 09 November, 2022 bởi admin
Sự tăng trưởng và số hóa các khả năng lưu trữ thông tin trên toàn cầu[1]

Dữ liệu lớn (Tiếng Anh: Big data) là một thuật ngữ cho việc xử lý một tập hợp dữ liệu rất lớn và phức tạp mà các ứng dụng xử lý dữ liệu truyền thống không xử lý được. Dữ liệu lớn bao gồm các thách thức như phân tích, thu thập, giám sát dữ liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan, truy vấn và tính riêng tư. Thuật ngữ này thường chỉ đơn giản đề cập đến việc việc sử dụng các phân tích dự báo, phân tích hành vi người dùng, hoặc một số phương pháp phân tích dữ liệu tiên tiến khác trích xuất giá trị từ dữ liệu mà ít khi đề cập đến kích thước của bộ dữ liệu.[2] “Vài nghi ngờ cho rằng số lượng của dữ liệu có sẵn hiện nay thực sự lớn, nhưng đó không phải là đặc trưng phù hợp nhất của hệ sinh thái dữ liệu mới này.”[3]

Phân tích tập dữ hợp liệu hoàn toàn có thể tìm ra đối sánh tương quan mới tới ” xu thế kinh doanh thương mại hiện tại, phòng bệnh tật, chống tội phạm và vân vân “. [ 4 ] Các nhà khoa học, điều hành doanh nghiệp, y bác sĩ, quảng cáo và những chính phủ nước nhà cũng tiếp tục gặp những khó khăn vất vả với những tập hợp dữ liệu lớn trong những nghành nghề dịch vụ gồm có tìm kiếm internet, thông tin kinh tế tài chính doanh nghiệp. Các nhà khoa học gặp số lượng giới hạn trong việc làm cần đo lường và thống kê rất lớn, gồm có khí tượng học, bộ gen, [ 5 ] mạng thần kinh, những mô phỏng vật lý phức tạp, sinh vật học và điều tra và nghiên cứu thiên nhiên và môi trường. [ 6 ]Tập dữ liệu đang tăng rất nhanh một phần vì chúng được tích lũy bởi số lượng thiết bị internet vạn vật ngày càng rẻ và nhiều, ví dụ như những thiết bị di động, anten, nhật ký ứng dụng, những thiết bị thu hình, thu thanh, đầu đọc RFID và mạng cảm ứng không dây. [ 7 ] [ 8 ] Khả năng tàng trữ thông tin của quốc tế đã tăng trung bình gấp đôi sau mỗi 40 tháng từ những năm 1980 [ 9 ] ; riêng năm 2012, mỗi ngày quốc tế tạo ra 2.5 exabytes ( 2.5 × 1018 ) [ 10 ]. Một câu hỏi cho những tổ chức triển khai kinh doanh thương mại lớn là xác lập ai nên chiếm hữu những ý tưởng sáng tạo dữ liệu lớn có tác động ảnh hưởng tới hàng loạt tổ chức triển khai. [ 11 ]

Hệ quản trị cơ sở dữ liệu quan hệ, máy bàn và các gói ảo hóa thường khó xử lý dữ liệu lớn. Công việc khổng lồ này yêu cầu được xử lý bởi hàng chục, hàng trăm, hoặc thậm chí hàng nghìn máy chủ.[12] Người ta quan niệm dữ liệu lớn khác nhau phụ thuộc vào khả năng của người dùng và công cụ họ dùng, và khả năng mở rộng làm cho dữ liệu lớn luôn thay đổi. “Các tổ chức đối diện với hàng trăm gigabytes dữ liệu ở thời gian đầu gây ra sự cần thiết phải xem xét lại các tùy chọn quản trị dữ liệu. Mặt khác, có thể tạo ra hàng chục hoặc hàng trăm terabytes trước khi kích thước dữ liệu trở thành một lý do quan trọng”.[13]

Hình ảnh trực quan của sửa đổi trên Wikipedia hằng ngày được tạo ra bởi IBM. Với kích cỡ vài terabyte, các văn bản và hình ảnh trên Wikipedia là một ví dụ của dữ liệu lớn.

Dữ liệu lớn thường bao gồm tập hợp dữ liệu với kích thước vượt xa khả năng của các công cụ phần mềm thông thường để thu thập, hiển thị, quản lý và xử lý dữ liệu trong một thời gian có thể chấp nhận được. Kích thước dữ liệu lớn là một mục tiêu liên tục thay đổi. Như năm 2012 thì phạm vi một vài tá terabytes tới nhiều petabytes dữ liệu. Dữ liệu lớn yêu cầu một tập các kỹ thuật và công nghệ được tích hợp theo hình thức mới để khai phá từ tập dữ liệu đa dạng, phức tạp, và có quy mô lớn.

Trong báo cáo giải trình điều tra và nghiên cứu năm 2001 và những diễn thuyết tương quan, META Group ( giờ đây là Gartner ) nhà nghiên cứu và phân tích Doug Laney định nghĩa những thử thách và thời cơ tăng dữ liệu như thể 3 chiều, tăng giá trị dữ liệu, vận tốc vào ra của dữ liệu ( velocity ), và khổ số lượng giới hạn của kiểu dữ liệu ( variety ). Gartner, và nhiều ngành công nghiệp liên tục sử dụng quy mô ‘ 3V s ‘ để diễn đạt dữ liệu lớn. Trong năm 2012, Gartner đã update định nghĩa như sau : ” Dữ liệu lớn là khối lượng lớn, vận tốc cao và / hoặc mô hình thông tin rất phong phú mà nhu yếu phương pháp xử lý mới để cho phép tăng cường ra quyết định hành động, tò mò bên trong và xử lý tối ưu “. Định nghĩa ‘ 3V s ‘ của Gartner vẫn được sử dụng thoáng rộng, và trong tương thích với định nghĩa đồng thuận. là : ” Dữ liệu lớn tiêu biểu vượt trội cho tập thông tin mà đặc thù như khối lượng lớn ( Volume ), vận tốc cao ( Velocity ) và phong phú ( Variety ) để nhu yếu phương pháp nghiên cứu và phân tích và công nghệ tiên tiến riêng không liên quan gì đến nhau để biến nó thành có giá trị “. Thêm nữa, vài tổ chức triển khai đã thêm vào tính xác nhận ( Veracity ) để diễn đạt về nó. 3V s đã được lan rộng ra để bổ trợ đặc tính của dữ liệu lớn .

  • Volume: Khối lượng – dữ liệu lớn không có mẫu; nó chỉ thực hiện và lần theo những gì diễn ra
  • Velocity: Tốc độ – dữ liệu lớn thường được xử lý thời gian thực
  • Variety: Đa dạng – dữ liệu lớn có thể thu thập từ văn bản, hình ảnh, âm thanh, video, cộng với nó hoàn thành các phần dữ liệu thiếu thông qua tổng hợp dữ liệu
  • Machine Learning: Máy học – dữ liệu lớn thường không hỏi tại sao và đơn giản xác định hình mẫu.
  • Digital footprint: Dấu chân kỹ thuật số – dữ liệu lớn thường là phụ sinh miễn phí của quá trình tương tác kỹ thuật số.

Big Data được miêu tả bởi những đặc trưng sau :

Volume (Dung lượng)

Số lượng dữ liệu được tạo ra và tàng trữ. Kích thước của dữ liệu xác lập giá trị và tiềm năng insight – và liệu nó hoàn toàn có thể thực sự được coi là dữ liệu lớn hay không .

Variety (Tính đa dạng)

Các dạng và kiểu của dữ liệu. Dữ liệu được tích lũy từ nhiều nguồn khác nhau và những kiểu dữ liệu cũng có rất nhiều cấu trúc khác nhau .

Velocity (Vận tốc)

Trong trường hợp này nghĩa là vận tốc những dữ liệu được tạo ra và xử lý để phân phối những nhu yếu và thử thách trên con đường tăng trưởng và tăng trưởng .

Veracity (Tính xác thực)

Chất lượng của dữ liệu thu được hoàn toàn có thể khác nhau rất nhiều, ảnh hưởng tác động đến sự nghiên cứu và phân tích đúng mực .Nhà máy và những mạng lưới hệ thống không thực-ảo hoàn toàn có thể có một mạng lưới hệ thống 6C gồm có :• Kết nối ( cảm ứng và mạng )• Đám mây ( đo lường và thống kê và dữ liệu theo nhu yếu )• Nội dung ảo ( mẫu và bộ nhớ )• Nội dung / ngữ cảnh ( ý nghĩa và đối sánh tương quan )• Cộng đồng ( san sẻ và cộng tác )• Tùy chỉnh ( cá thể hóa và giá trị )Dữ liệu phải được xử lý bằng những công cụ tiên tiến và phát triển ( nghiên cứu và phân tích và thuật toán ) để cho ra những thông tin có ý nghĩa. Ví dụ, để quản trị một nhà máy sản xuất phải xem xét cả hai yếu tố hữu hình và vô hình dung với những thành phần khác nhau. Các thuật toán tạo thông tin phải phát hiện và xử lý những yếu tố không nhìn thấy được như sự xuống cấp trầm trọng của máy, mài mòn linh phụ kiện, vv. trong xí nghiệp sản xuất .
Nguồn dữ liệu lớn đã sống sót dưới nhiều hình thức, thường được thiết kế xây dựng bởi những công ty cho những nhu yếu đặc biệt quan trọng. Bắt đầu từ những năm 1990, những nhà sản xuất thương mại tham gia cung ứng những mạng lưới hệ thống quản trị cơ sở dữ liệu song song cho những dữ liệu lớn. Trong nhiều năm, WinterCorp là công ty phát hành báo cáo giải trình lớn nhất về cơ sở dữ liệu. [ 14 ]Năm 1984, Tập đoàn Teradata đưa ra thị trường mạng lưới hệ thống xử lý dữ liệu song song DBC 1012. Các mạng lưới hệ thống của Teradata là những mạng lưới hệ thống tiên phong tàng trữ và nghiên cứu và phân tích đến 1 terabyte dữ liệu vào năm 1992. Ổ đĩa cứng đã đạt đến mức dung tích 2.5 GB vào năm 1991 nên định nghĩa dữ liệu lớn liên tục tăng trưởng theo quy luật Kryder. Teradata đã thiết lập mạng lưới hệ thống tiên phong dựa trên RDBMS hoàn toàn có thể nghiên cứu và phân tích hàng petabytes dữ liệu vào năm 2007. Đến năm 2017, có hàng chục những cơ sở dữ liệu dựa trên mạng lưới hệ thống của Teradata có dung tích hàng petabyte, trong đó dữ liệu lớn nhất vượt quá 50 petabytes. Cho đến năm 2008, 100 % mạng lưới hệ thống đều xử lý những dữ liệu quan hệ có cấu trúc. Do đó, Teradata đã thêm những kiểu dữ liệu phi cấu trúc gồm có XML, JSON và Avro .Năm 2000, Seisint Inc. ( nay là Tập đoàn LexisNexis ) đã tăng trưởng một khung san sẻ tệp dựa trên cấu cấu trúc C + + để tàng trữ và truy vấn dữ liệu. Hệ thống này tàng trữ và phân phối dữ liệu có cấu trúc, bán cấu trúc, và phi cấu trúc trên nhiều sever. Người dùng hoàn toàn có thể truy vấn bằng một phương ngữ C + + gọi là ECL. ECL sử dụng phương pháp ” vận dụng giản đồ khi truy vấn dữ liệu ” để suy luận cấu trúc dữ liệu được tàng trữ khi nó được truy vấn, thay vì khi nó được tàng trữ. Năm 2004, LexisNexis mua lại Seisint Inc. [ 15 ] và trong năm 2008 đã mua lại ChoicePoint, Inc. [ 16 ] cùng với nền tảng xử lý song song vận tốc cao của họ. Hai nền tảng đã được sáp nhập vào mạng lưới hệ thống HPCC ( High-Performance Computing Cluster ) và HPCC có mã nguồn mở dựa trên giấy phép Apache v2. 0 vào năm 2011. Khoảng cùng thời gian đó, mạng lưới hệ thống Quantcast File đã được phát hành. [ 17 ]Năm 2004, Google xuất bản một bài báo về một quy trình gọi là MapReduce sử dụng một kiến ​ ​ trúc tựa như. MapReduce cung ứng một quy mô xử lý song song, và phát hành những ứng dụng tương quan để xử lý lượng dữ liệu khổng lồ. Với MapReduce, những truy vấn được chia nhỏ và truyền đi qua những nút mạng song song và được xử lý song song ( bước Map ). Các hiệu quả sau đó được tích lũy và phân phối ( Bước Reduce ). Khuôn mẫu này rất thành công xuất sắc [ 18 ] nên những công ty khác cũng muốn sao chép những thuật toán của nó. Do đó, Google đã tiến hành khuôn mẫu MapReduce trải qua dự án Bất Động Sản mã nguồn mở Apache Hadoop. [ 19 ]Các điều tra và nghiên cứu vào năm 2012 cho thấy cấu ​ ​ trúc nhiều lớp là một lựa chọn để xử lý những yếu tố của xử lý dữ liệu lớn. Một kiến ​ ​ trúc phân tán song song phân tán dữ liệu trên nhiều sever ; những môi trường tự nhiên triển khai song song này hoàn toàn có thể cải tổ đáng kể vận tốc xử lý dữ liệu. Kiểu cấu ​ ​ trúc này chèn dữ liệu vào một DBMS song song, thực thi việc sử dụng những khung nền MapReduce và Hadoop. Loại khung nền này sẽ tăng sức mạnh xử lý thông suốt đến người dùng cuối bằng cách sử dụng một sever ứng dụng đầu cuối. [ 20 ]Phân tích dữ liệu lớn ứng dụng vào việc sản xuất được ra mắt như một cấu ​ ​ trúc 5C ( connection – liên kết, conversion – quy đổi, cyber – khoảng trống mạng, cognition – nhận thức và configuration – thông số kỹ thuật ). [ 21 ]Hồ dữ liệu cho phép một tổ chức triển khai biến hóa xu thế từ quy mô trấn áp tập trung chuyên sâu sang quy mô san sẻ thông tin để năng động phân phối với sự đổi khác của việc quản trị thông tin. Điều này được cho phép phân tách nhanh gọn dữ liệu vào hồ dữ liệu, do đó làm giảm thời hạn xử lý thông tin. [ 22 ] [ 23 ]
Báo cáo của Viện nghiên cứu và điều tra Toàn cầu McKinsey năm 2011 diễn đạt những thành phần chính và hệ sinh thái của dữ liệu lớn như sau :• Các kỹ thuật để nghiên cứu và phân tích dữ liệu, ví dụ điển hình như kiểm thử A / B, học máy và xử lý ngôn từ tự nhiên• Công nghệ dữ liệu lớn, như thông tin kinh doanh thương mại, điện toán đám mây và cơ sở dữ liệu• Công cụ trực quan như biểu đồ, đồ thị và những phương pháp biểu lộ khác của dữ liệuCác dữ liệu lớn đa chiều cũng hoàn toàn có thể được trình diễn dưới dạng tensor, hoàn toàn có thể được xử lý hiệu suất cao hơn bằng cách thống kê giám sát dựa trên cơ sở dựa trên Tensor, ví dụ điển hình như nghiên cứu và điều tra khoảng trống đa cấp. Các công nghệ tiên tiến bổ trợ đang được vận dụng cho dữ liệu lớn gồm có cơ sở dữ liệu MPP, những ứng dụng dựa trên tìm kiếm, khai thác dữ liệu, mạng lưới hệ thống phân tán tập tin, phân tán cơ sở dữ liệu, điện toán đám mây và HPC ( ứng dụng, tàng trữ và những tài nguyên máy tính ) và Mạng Internet. Mặc dù nhiều phương pháp tiếp cận cũng như những công nghệ tiên tiến xử lý đã được tăng trưởng, vẫn còn khó khăn vất vả để thực thi việc học máy với dữ liệu lớn .

Một vài cơ sở dữ liệu liên quan đến MPP có khả năng lưu trữ và quản lý hàng petabytes dữ liệu. Đó chính là một nguồn tận dụng khả năng tải về, theo dõi, sao lưu và tối ưu hóa việc sử dụng các bảng dữ liệu lớn trong RDBMS.

Chương trình Phân tích Dữ liệu Topological của DARPA tìm ra cấu trúc cơ bản của bộ dữ liệu khổng lồ và đến năm 2008, công nghệ tiên tiến này được công bố cùng với sự ra đời của công ty Ayasdi .Những nhân viên nghiên cứu và phân tích dữ liệu lớn thường không sử dụng việc tàng trữ bằng những ổ đĩa san sẻ vì chúng chậm, họ thích tàng trữ trực tiếp ( DAS ) dưới nhiều hình thức khác nhau từ ổ SSD ( SATA ) đến ổ đĩa SATA dung tích cao được tích hợp bên trong những nút xử lý song song. Các kiến ​ ​ trúc tàng trữ dùng chung – Mạng tàng trữ ( SAN ) và Lưu trữ trên Mạng ( NAS ) tương đối chậm, phức tạp và tốn kém. Những yếu tố này không tương thích với những mạng lưới hệ thống nghiên cứu và phân tích dữ liệu lớn đang tăng trưởng can đảm và mạnh mẽ về hiệu năng mạng lưới hệ thống, hạ tầng và ngân sách thấp .Việc gửi thông tin thời hạn thực hoặc gần với thời hạn thực là một trong những đặc thù xác lập của nghiên cứu và phân tích dữ liệu lớn. Do đó độ trễ được tránh bất kỳ khi nào và bất kể khi nào hoàn toàn có thể. Dữ liệu trong bộ nhớ là dữ liệu trên một đĩa quay tròn với một đầu kia là FC SAN. giá thành của một SAN ở quy mô thiết yếu cho những ứng dụng nghiên cứu và phân tích cao hơn rất nhiều so với những kỹ thuật tàng trữ khác .Có nhiều lợi thế cũng như bất lợi khi sử dụng những ổ đĩa chung trong nghiên cứu và phân tích dữ liệu lớn, nhưng những chuyên viên nghiên cứu và phân tích dữ liệu lớn vào năm 2011 đã không ủng hộ chuyện này .

Quản lý nhà nước[sửa|sửa mã nguồn]

Việc sử dụng những dữ liệu lớn trong những quy trình tiến độ của chính phủ nước nhà được cho phép tăng hiệu suất cao về mặt ngân sách, hiệu suất và sự thay đổi, nhưng không phải là không có sai sót của nó. Phân tích dữ liệu thường nhu yếu nhiều bộ phận của chính phủ nước nhà ( TW và địa phương ) hợp tác và tạo ra những tiến trình mới và phát minh sáng tạo để mang lại tác dụng mong ước. Dưới đây là 1 số ít ví dụ về những sáng tạo độc đáo ​ ​ tương quan đến dữ liệu lớn của chính phủ nước nhà .
• Năm 2012, chính quyền sở tại của Tổng thống Obama công bố Sáng kiến ​ ​ Nghiên cứu và Phát triển Dữ liệu lớn để khám phá xem dữ liệu lớn hoàn toàn có thể được sử dụng như thế nào để xử lý những yếu tố quan trọng mà cơ quan chính phủ phải đương đầu. Sáng kiến ​ ​ gồm có 84 chương trình dữ liệu lớn khác nhau trải rộng trên sáu phòng ban .• Phân tích dữ liệu lớn đã đóng một vai trò lớn trong chiến dịch bầu cử lại thành công xuất sắc của Barack Obama năm 2012 .• nhà nước liên bang Hoa Kỳ sở hữu sáu trong số mười siêu máy tính mạnh nhất trên quốc tế .• Trung tâm Dữ liệu Utah đã được NSA ( Cơ quan An ninh Quốc gia Hoa Kỳ ) thiết kế xây dựng. Khi hoàn tất, cơ sở sẽ hoàn toàn có thể xử lý một số lượng lớn thông tin tích lũy được bởi NSA qua Internet. Số lượng đúng chuẩn của khoảng trống tàng trữ là không rõ, nhưng những nguồn gần đây hơn cho rằng nó lên đến vài exabyte .
• Phân tích số liệu lớn đã được thử nghiệm cho BJP để giành thắng lợi trong Tổng tuyển cử Ấn Độ, năm trước .• nhà nước Ấn Độ sử dụng nhiều kỹ thuật để xác lập phương pháp cử tri Ấn Độ phản ứng lại hành vi cũng như những ý tưởng sáng tạo của chính phủ nước nhà về đổi khác chủ trương .

Vương quốc Anh[sửa|sửa mã nguồn]

Ví dụ về việc sử dụng dữ liệu lớn trong những dịch vụ công :• Dữ liệu về thuốc theo toa : bằng cách liên kết nguồn gốc, vị trí và thời hạn của mỗi toa thuốc, một đơn vị chức năng nghiên cứu và điều tra hoàn toàn có thể theo dõi việc phân phối bất kể loại thuốc nào trong đơn thuốc, và hướng dẫn Viện Y tế và Chăm sóc Quốc gia kiểm soát và điều chỉnh cho đúng mực. Điều này khiến cho những loại thuốc mới nhất sẽ tốn ít thời hạn hơn khi đến với bệnh nhân đại trà phổ thông .• Kết nối dữ liệu : những cơ quan địa phương link những dữ liệu về những dịch vụ với nhau, ví dụ như mạng lưới hệ thống giao thông vận tải, với những dịch vụ công, như thể việc phân loại thức ăn cho người tàn tật. Việc liên kết dữ liệu được cho phép chính quyền sở tại địa phương tránh được những chậm trễ tương quan đến thời tiết, đường sá …

Sự tăng trưởng quốc tế[sửa|sửa mã nguồn]

Nghiên cứu về việc sử dụng hiệu suất cao những công nghệ thông tin và truyền thông online cho mục tiêu tăng trưởng ( hay còn gọi là ICT4D ) cho thấy công nghệ dữ liệu lớn hoàn toàn có thể có nhiều góp phần quan trọng nhưng cũng là thử thách so với sự tăng trưởng của quốc tế. Những văn minh trong nghiên cứu và phân tích dữ liệu lớn giúp giảm ngân sách cho việc ra quyết định hành động trong những nghành nghề dịch vụ quan trọng như chăm nom sức khỏe thể chất, việc làm, hiệu suất kinh tế tài chính, tội phạm, bảo mật an ninh, thiên tai và quản trị tài nguyên. Tuy nhiên, những thử thách so với những nước đang tăng trưởng như hạ tầng công nghệ tiên tiến không rất đầy đủ và sự khan hiếm về kinh tế tài chính và nguồn nhân lực sẽ làm nghiêm trọng thêm những mặt trái của dữ liệu lớn như sự riêng tư hoặc những yếu tố khác .
Việc sử dụng những dữ liệu lớn dưới dạng lịch sử dân tộc những thanh toán giao dịch kinh tế tài chính được gọi là nghiên cứu và phân tích kỹ thuật. Sử dụng dữ liệu phi kinh tế tài chính để Dự kiến thị trường nhiều lúc được gọi là dữ liệu sửa chữa thay thế .
Theo bài Nghiên cứu khuynh hướng toàn thế giới TCS 2013, sự nâng cấp cải tiến trong kế hoạch sản xuất và chất lượng loại sản phẩm là quyền lợi lớn nhất của dữ liệu lớn cho ngành sản xuất. Dữ liệu lớn cung ứng hạ tầng cho ngành công nghiệp sản xuất, đó là năng lực cải tổ hiệu suất và tính khả dụng. Việc lên kế hoạch sản xuất chính là một cách tiếp cận dữ liệu lớn được cho phép giảm thời hạn chết về gần như bằng không và cụ thể hóa số lượng lớn dữ liệu và những công cụ Dự kiến khác được cho phép tạo ra một quy trình nhằm mục đích hệ thống hóa dữ liệu thành những thông tin có ích. Khái niệm về việc dự báo sản xuất khởi đầu bằng việc thu thập dữ liệu cảm quan khác nhau như âm thanh, hoạt động, áp suất, điện áp … Số lượng lớn những dữ liệu cảm quan cộng với dữ liệu lịch sử vẻ vang sản xuất tạo thành dữ liệu lớn trong sản xuất. Các dữ liệu lớn này như là nguồn vào cho những công cụ dự báo và những kế hoạch phòng ngừa tựa như như việc dự báo trong nghành nghề dịch vụ Quản lý Y tế .

Chăm sóc sức khỏe thể chất[sửa|sửa mã nguồn]

Phân tích dữ liệu lớn đã giúp cải tổ việc chăm nom sức khỏe thể chất bằng cách cá thể hóa những phương pháp trị liệu và chẩn đoán lâm sàng, làm giảm thiểu ngân sách và thời hạn khám bệnh, tự động hóa báo cáo giải trình và tàng trữ thông tin sức khỏe thể chất và dữ liệu bệnh nhân trong nội bộ cũng như lan rộng ra ra bên ngoài, chuẩn hóa những thuật ngữ y học và chống phân mảnh trong tàng trữ dữ liệu và thông tin của bệnh. Một số nghành nghề dịch vụ có sự nâng cấp cải tiến mang tính hướng dẫn hơn là thực hành thực tế. Lượng dữ liệu được tạo ra trong những mạng lưới hệ thống chăm nom sức khỏe thể chất là không nhỏ. Với sự bổ trợ thêm của mHealth, eHealth và những thiết bị công nghệ tiên tiến theo dõi sức khỏe thể chất được thì khối lượng dữ liệu sẽ liên tục ngày càng tăng. Điều này gồm có dữ liệu ghi chép sức khỏe thể chất điện tử, dữ liệu hình ảnh, dữ liệu được tạo ra của bệnh nhân, dữ liệu cảm ứng và những dạng dữ liệu khó xử lý khác. Hiện nay, nhu yếu lớn hơn so với những môi trường tự nhiên như vậy là quan tâm nhiều hơn đến chất lượng dữ liệu và thông tin. ” Dữ liệu lớn rất thường có nghĩa là dữ liệu chưa được xử lý và một phần số liệu không đúng chuẩn tăng lên khi có sự tăng trưởng khối lượng dữ liệu. ” Việc theo dõi bằng con người ở quy mô dữ liệu lớn là không hề và có một nhu yếu cấp thiết về những công cụ mưu trí để trấn áp đúng chuẩn và xử lý thông tin bị mất trong dịch vụ y tế. Mặc dù dữ liệu trong nghành nghề dịch vụ chăm nom sức khỏe thể chất lúc bấy giờ thường được tàng trữ dưới dạng điện tử, nhưng nó nằm ngoài khoanh vùng phạm vi của dữ liệu lớn vì hầu hết không có cấu trúc và khó sử dụng .
Một điều tra và nghiên cứu của Viện nghiên cứu và điều tra toàn thế giới McKinsey cho thấy, ngành dữ liệu lớn đang thiếu vắng 1,5 triệu chuyên viên cũng như nhà quản trị dữ liệu, và 1 số ít trường ĐH gồm có Đại học Tennessee và UC Berkeley đã tạo ra những chương trình thạc sĩ để phân phối nhu yếu này. Các khóa đào tạo và giảng dạy tư nhân cũng tăng trưởng những chương trình để phân phối nhu yếu đó, gồm có những chương trình không tính tiền như The Data Incubator hoặc chương trình trả tiền như General Assembly .
Để hiểu phương pháp những phương tiện đi lại truyền thông online sử dụng dữ liệu lớn như thế nào, thứ nhất cần hiểu rõ 1 số ít ngữ cảnh trong chính sách sử dụng cho quy trình truyền thông online. Nick Couldry và Joseph Turow đề xuất kiến nghị rằng những học viên trong ngành Truyền thông và Quảng cáo cần tiếp cận dữ liệu lớn như là nhiều điểm thông tin về hàng triệu cá thể. Ngành công nghiệp có vẻ như đang chuyển hướng từ cách tiếp cận truyền thống cuội nguồn bằng cách sử dụng những môi trường tự nhiên tiếp thị quảng cáo đơn cử như báo chí truyền thông, tạp chí hoặc chương trình truyền hình và thay vào đó là những người tiêu dùng với công nghệ tiên tiến tiếp cận những người này được nhắm tiềm năng vào những thời gian tối ưu ở những vị trí tối ưu. Mục đích ở đầu cuối là để Giao hàng hoặc truyền tải, một thông điệp hoặc nội dung ( theo cách thống kê ) tương thích với tâm lý của người tiêu dùng. Ví dụ, môi trường tự nhiên xuất bản ngày càng làm cho những thông điệp ( quảng cáo ) và nội dung ( bài viết ) được cải tổ để lôi cuốn người tiêu dùng đã được tích lũy độc quyền trải qua những hoạt động giải trí khai thác dữ liệu khác nhau .• Nhắm đến người tiêu dùng tiềm năng ( so với quảng cáo của những nhà tiếp thị )• Thu thập dữ liệu• Dữ liệu trong báo chí truyền thông : nhà xuất bản và nhà báo sử dụng những công cụ dữ liệu lớn để cung ứng thông tin cụ thể và những bản đồ họa cụ thể độc lạ và phát minh sáng tạo .Kênh 4, một kênh phát thanh truyền hình công cộng của Anh, đang đứng vị trí số 1 trong nghành nghề dịch vụ dữ liệu lớn và nghiên cứu và phân tích dữ liệu .

Mạng lưới vạn vật liên kết Internet ( IoT )[sửa|sửa mã nguồn]

Dữ liệu lớn hoàn toàn có thể phối hợp với công nghệ tiên tiến Mạng lưới vạn vật liên kết Internet. Dữ liệu được chiết xuất từ ​ ​ những thiết bị IoT phân phối một map liên kết giữa những thiết bị. Những sự liên kết này đã được ngành công nghiệp truyền thông online, những công ty và cơ quan chính phủ sử dụng để nhắm tiềm năng đúng mực hơn đối tượng người tiêu dùng của họ và tăng hiệu suất cao của phương tiện đi lại tiếp thị quảng cáo. IoT cũng ngày càng được đồng ý như một phương tiện đi lại thu thập dữ liệu cảm xúc, và dữ liệu cảm xúc này đã được sử dụng trong những ngành như y học và sản xuất .Kevin Ashton, chuyên viên thay đổi kỹ thuật số người được cho là người tạo ra thuật ngữ định nghĩa Internet vạn vật đã phát biểu : ” Nếu tất cả chúng ta có máy tính biết tổng thể mọi thứ – nó sẽ sử dụng dữ liệu mà nó tích lũy được mà không có sự trợ giúp từ tất cả chúng ta – tất cả chúng ta sẽ hoàn toàn có thể theo dõi và trấn áp mọi thứ, giảm đáng kể lượng chất thải, tổn thất và ngân sách. Chúng ta sẽ biết khi nào cần sửa chữa thay thế, sửa chữa thay thế hoặc tịch thu lại, và liệu rằng thức ăn tất cả chúng ta đang ăn có tươi hay không. ”
Từ năm năm ngoái, dữ liệu lớn trở nên điển hình nổi bật trong hoạt động giải trí kinh doanh thương mại như một công cụ để giúp nhân viên cấp dưới thao tác hiệu suất cao hơn cũng như tối ưu hóa việc tích lũy và san sẻ thông tin. Việc sử dụng dữ liệu lớn để xử lý những yếu tố thu thập dữ liệu và CNTT trong một doanh nghiệp được gọi là IT Operations Analytics ( ITOA ). Bằng cách vận dụng những nguyên tắc dữ liệu lớn vào những khái niệm về trí mưu trí của máy móc và giám sát sâu, những bộ phận CNTT hoàn toàn có thể Dự kiến những yếu tố tiềm ẩn và đưa ra những giải pháp trước khi yếu tố xảy ra. Vào thời gian này, những doanh nghiệp ITOA cũng khởi đầu đóng vai trò quan trọng trong việc quản trị mạng lưới hệ thống bằng cách phân phối những nền tảng mang những dữ liệu cá thể riêng không liên quan gì đến nhau và tạo ra những hiểu biết thâm thúy từ hàng loạt mạng lưới hệ thống chứ không phải từ những dữ liệu riêng không liên quan gì đến nhau .• EBay sử dụng hai kho dữ liệu với vận tốc 7.5 petabyte và 40PB cũng như một cụm 40PB Apache Hadoop để tìm kiếm, khuyến nghị người tiêu dùng và bán hàng .• Amazon. com xử lý hàng triệu hoạt động giải trí back-end hàng ngày, cũng như những truy vấn từ hơn nửa triệu người bán hàng bên thứ ba. Công nghệ cốt lõi mà Amazon hoạt động giải trí dựa trên Linux và đến năm 2005 họ có ba cơ sở dữ liệu Linux lớn nhất quốc tế, với dung tích 7,8 TB, 18,5 TB và 24,7 TB .

• Facebook xử lý 50 tỷ hình ảnh từ cơ sở người dùng của nó.

• Google đã xử lý khoảng chừng 100 tỷ lượt tìm kiếm mỗi tháng vào tháng 8 năm 2012 .• Cơ sở dữ liệu Oracle NoSQL đã được kiểm tra để vượt qua mốc 1 triệu xử lý mỗi giây với 8 nhân và đạt vận tốc 1.2 triệu xử lý mỗi giây với 10 nhân .

Source: https://vh2.com.vn
Category : Tin Học