Networks Business Online Việt Nam & International VH2

HƯỚNG DẪN SỬ DỤNG PHẦN MỀM R

Đăng ngày 19 August, 2023 bởi admin

HƯỚNG DẪN SỬ DỤNG PHẦN MỀM R


Ngôn ngữ thống kê R đang phổ biến, đặc biệt cho việc phân tích dữ liệu. Bài viết này dành cho những người mới bắt đầu, giúp bạn biết sự lựa chọn ngôn ngữ lập trình đang “hot” hiện nay.

Ngôn ngữ R đang “ hot ” hơn bao giờ hết. Hơn 4.400 gói add-on, thêm vào đó 18.000 thành viên của một nhóm ngôn từ R trên Linkedin, gần 80 nhóm Meetup R đang hiện hữu, có một yếu tố là việc chăm sóc đến ngôn từ thống kê R đang dần thông dụng, đặc biệt quan trọng nghiên cứu và phân tích tài liệu .

 

Tại sao lại lựa chọn ngôn từ R ? R là một ngôn từ không lấy phí, mã nguồn mở, mạnh, và hoàn toàn có thể lan rộng ra .

Vì đây là một môi trường tự nhiên lập trình dùng chuỗi command-line, bạn hoàn toàn có thể lưu lại một chuỗi những bước nghiên cứu và phân tích tài liệu phức tạp bằng ngôn từ R. Giúp bạn thuận tiện hơn trong việc sử dụng lại việc làm nghiên cứu và phân tích của bạn với cùng tài liệu, nếu bạn đã dùng một giao diện point-and-click, Hadley Wickham nhấn mạnh vấn đề – tác giả của những gói ngôn từ R phổ cập và là nhà khoa học chính của Rstudio .

Điều này cũng tạo sự thuận tiện hơn cho mọi người xác nhận tác dụng điều tra và nghiên cứu và kiểm tra lỗi những việc làm của bạn – một yếu tố phát sinh theo tin tức nhận được gần đây, sau khi có một lỗi code trong Excel là một trong nhiều lỗ hổng được tìm thấy trong một báo cáo giải trình nghiên cứu và phân tích kinh tế tài chính theo Reinhart / Rogoff cho hay .

Các lỗi chính của nó không phải là một sự giật mình, Christopher Gandrud, người đã nhận được bằng tiến sỹ về Phương pháp nghiên cứu và điều tra định lượng của trường Kinh tế Luân Đôn. Ông nhấn mạnh vấn đề “ Chúng ta sẽ luôn nỗ lực tốt nhất ” để tìm lỗi. Vấn đề là tất cả chúng ta thường dùng những công cụ và sự thực hành thực tế, rất khó để hoàn toàn có thể tìm thấy và sửa chúng .

Chắc chắn là bạn hoàn toàn có thể thuận tiện kiểm tra những công thức phức tạp trên một bảng tính. Gần như không thuận tiện để chạy nhiều bộ tài liệu trải qua một bảng tính công thức để kiểm tra như việc đặt nhiều bộ tài liệu trải qua một script .

Câu thần chú ở đây là : “ Hãy chắc như đinh rằng việc làm của bạn hoàn toàn có thể tái sản xuất ” là câu nói thông dụng của những người đam mê ngôn từ R .

Who uses R? Relatively high-profile users of R include:

 

Facebook

Used by some within the company for tasks such as analyzing user behavior .

Google

There are more than 500 R users at Google, according to David Smith at Revolution Analytics, doing tasks such as making trực tuyến advertising more effective .

National Weather Service

Flood forecasts .

Orbitz

Statistical analysis to suggest best hotels to promote to its users .

Trulia

Statistical modeling .

Source: Revolution Analytics

Tại sao không phải là ngôn từ R ? Ngôn ngữ R hoàn toàn có thể Open khó khăn vất vả tiên phong. Cú pháp ngôn từ R thì khác so với nhiều ngôn từ khác, nó không thiết yếu do tại cũng còn sống sót nhiều khó khăn vất vả hơn những ngôn từ khác .

“ Tôi hoàn toàn có thể viết một phần mềm chuyên nghiệp bằng nhiều chương trình, trong đó ngôn từ R là ngôn từ khó học nhất. ” Cố vấn John D.Cook san sẻ trên một website về ngôn từ lập trình R cho những ai đang học ngôn từ khác chuyển qua học ngôn từ R. “ Ngôn ngữ này thật sự khác đơn thuần nhưng thật sự không tiện nghi. ”

Đây là bài hướng dẫn không dành cho những người đã thành thạo ngôn từ R, chúng tôi chỉ hướng dẫn cho bạn cách để mở màn dùng ngôn từ R thao tác với tài liệu cơ bản : giải nén những thống kê của một tập tài liệu, tò mò một tập tài liệu với những biểu đồ cơ bản, và định hình lại tài liệu để thuận tiện hơn trong việc nghiên cứu và phân tích những tài liệu .

Bước đầu tiên,

Để mở màn sử dụng ngôn từ R, truy vấn r-project.org để dowload và thiết lập cho desktop hay máy tính của bạn. Nó chạy trên môi trường tự nhiên Windows, OS X, và một loạt những nền tảng của Unix, nhưng không hề chạy trên Android hay iOS .
Cài đặt ngôn từ R là đều tiên phong bạn phải làm. Tuy nhiên, bạn nên thiết lập ngôn từ RStudio không tính tiền. R có những tính năng có ích mà bạn sẽ mong đợi từ một nền tảng mã hóa ; ví dụ điển hình như cú pháp highlight và tab được dùng trong mã hóa auto-completion. Tôi thích khoảng trống thao tác với 4 hành lang cửa số, quản trị tốt hơn nhiều hành lang cửa số R để gõ lệnh, tàng trữ script hiển thị lịch sử vẻ vang những dòng lệnh, hiển thị trực quan và còn nhiều ưu điểm khác .

Mặc dù bạn không cần có RStudio IDE không tính tiền để mở màn, cũng giúp cho việc làm việc với R thuận tiện hơn .
Cửa sổ góc trên bên trái là nơi thao tác chính của bạn. Đó là trình biên dịch ngôn từ R được cho phép bạn tạo một file với nhiều dòng lệnh của ngôn từ R, hay mở một tin đang sống sót sau đó chạy hàng loạt một tập tin hay những thành phần của tập tin .

Cửa sổ dưới bên trái là giao diện điều khiển và tinh chỉnh tương tác, nơi bạn hoàn toàn có thể nhập những câu lệnh của R một dòng tại một thời gian. Bất kỳ những dòng code nào chạy trên hành lang cửa số biên dịch cũng sẽ Open trên giao diện tinh chỉnh và điều khiển ( console ) .

Cửa sổ góc trên bên phải hiển thị khoảng trống thao tác, gồm một list những object hiện tại trong bộ nhớ. Cũng có một tab hiển thị lịch sử dân tộc với một list những lệnh trước của bạn : bạn hoàn toàn có thể chọn một hoặc một số ít hay toàn bộ những dòng code, bằng một click để gửi chúng đến, hoặc giao diện điều khiển và tinh chỉnh ( console ) hoặc là bất kỳ tập tin nào đang hoạt động giải trí trên trình biên dịch của bạn .

Cửa sổ góc dưới bên phải hiển thị một biểu đồ, nếu bạn tạo một sự trực quan tài liệu mã hóa bằng ngôn từ R. Hiển thị lịch sử vẻ vang của những biểu đồ trước và một sự lựa chọn để xuất ra một biểu đồ dưới dạng một file hình hoặc định dạng PDF. Đây cũng là một hành lang cửa số hiển thị những gói lan rộng ra ( những phần lan rộng ra của R ) có sẵn trong mạng lưới hệ thống của bạn, những tập tin trong thư mục thao tác của bạn và hiển thị những tập tin được gọi từ giao diện tinh chỉnh và điều khiển .

Các phím tắt:

Wickham là một nhà khoa học chủ chốt của RStudio cho rằng có nhiều phím tắt quan trọng nhất trong RStudio sau :

Phím Tab: là một chức năng tự động hoàn tất chung. Nếu bạn bắt đầu nhập dữ liệu trong giao diện điều khiển (console) hay trình biên dịch thì hãy nhấn phím Tab, RStudio đơn giản nếu bạn chọn một chức năng hoặc một tập tin mà bạn muốn,rồi nhấn giữ hoặc phím Tab hoặc Enter để chấp nhận chúng RStudio sẽ tự động làm việc.

Ctrl + Mũi tên lên (Cmd + Mũi tên lên trên MAC) cũng là một dụng cụ tự động hoàn thành tương tự. Bắt đầu nhập dữ liệu và giữ tổ hợp phím này, sẽ hiển thị một danh sách mỗi dòng lệnh mà đã nhập với tổ hợp phím này. Chọn và nhấn Return. Cách làm này chỉ có hiệu lực với giao diện điều khiển tương tác và không có tác dụng trong cửa sổ trình biên dịch.

Ctrl + Enter (Cmd + Enter trên MAC) hiển thị dòng code hiện tại trong trình biên dịch, và gửi chúng đến trình điều khiển. Nếu bạn chọn nhiều dòng code trong trình biên dịch và sau đó nhấn Ctrl/Cmd + Enter, những dòng lệnh đó sẽ chạy.

Vẫn còn nhiều tính năng trong RStudio gồm có một list rất đầy đủ những phím trên tài liệu trực tuyến : http://www.rstudio.com/ide/docs/

Cài đặt thư mục làm việc:

Thay đổi thư mục đang thao tác với tính năng : setwd ( ), ví dụ điển hình :
setwd ( “ ~ / mydirectory ” )
Chú ý : những dấu gạch chéo luôn luôn phải được đặt phía trước, ngay cả khi bạn đang trên một mạng lưới hệ thống Windows. Trong Windows, dòng lệnh như sau :
setwd ( “ C : / Sharon / Documents / RProjects ” )
Nếu bạn sử dụng RStudio cũng hoàn toàn có thể đổi khác thư mục thao tác bằng cách : Session > Set Working Directory .

 

Cài đặt và sử dụng:

Bạn có thời cơ được thao tác một cách thuận tiện bất kể điều gì bằng ngôn từ R, nếu bạn biết tận dụng những lợi thế sẵn có trong ngôn từ R với hàng ngàn gói add-on ở CRAN ( Comprehensive R Archive Network ). Cú pháp lệnh để setup gói là :
install.packages ( “ getpackagename ” )

Nếu bạn không muốn gõ lệnh, trong RStudio có một tab Packages trong hành lang cửa số dưới bên phải, click vào, Open button “ Install Packages. ” ( Cũng có list những dòng lệnh, nhiều vị trí phong phú nhờ vào vào hệ điều hành quản lý của bạn ) .
Để nhìn thấy những packages đã setup vào mạng lưới hệ thống, bạn gõ :
installed.packages ( )
Hay trong RStudio, tab ‘ Packages ’ trong hành lang cửa số bên dưới .
Sử dụng một packages đã được thiết lập :
library ( “ getpackagename ” ) .
Nếu muốn hiển thị ngày setup của những package, bạn chạy câu lệnh :
update.packages ( )
Bằng cách này, bạn hoàn toàn có thể biết được phiên bản thao tác với nhất mà những package đã được setup .
Nếu muốn xóa một package trong mạng lưới hệ thống, sử dụng tính năng :
remove.packages ( “ getpackagename ” )

Help!

Nếu muốn tìm ra nhiều hơn một tính năng, bạn hoàn toàn có thể gõ dấu hỏi kèm theo tên công dụng, có hoặc không trong dấu ngoặc đơn trong ngôn từ R :
? functionName
Đây là phím tắt của tính năng help có sử dụng dấu ngoặc :
help ( functionName )
Tuy nhiên, tôi không chắc tại sao bạn lại muốn dùng nó với lệnh ? functionName ngắn hơn .
Nếu bạn biết những gì mà một công dụng dùng để làm gì hay chỉ muốn những định dạng để dùng nó đúng, bạn hoàn toàn có thể gõ :
example ( functionName )
Bạn cũng hoàn toàn có thể lấy một list những ví dụ của công dụng được dùng. Với tính năng của đối số ( arg ) sẽ hiển thị một list công dụng của những đối số :
args ( functionName )
Nếu bạn muốn tìm kiếm một thuật ngữ trong tài liệu giúp sức của ngôn từ R, hoàn toàn có thể dùng :
help.search ( “ your search term ” )
Phím tắt : ? ? ( “ my search term ” )
Không cần dấu ngoặc nếu thuật ngữ tìm kiếm là từ đơn không có dấu cách .

Tổ chức thư mục

1 dự án Bất Động Sản nghiên cứu và phân tích tài liệu nổi bật không đơn thuần chỉ là viết mã nguồn R mà nó gồm nhiều bước khác nhau với rất nhiều đầu ra, nguồn vào, báo cáo giải trình, kết xuất tài liệu. Khi dự án Bất Động Sản càng lớn thì mức độ phức tạp càng ngày càng tăng. Việc tổ chức triển khai sắp xếp tài nguyên ( đa phần là file ) trong dự án Bất Động Sản giữ vai trò quan trọng để người tăng trưởng hoàn toàn có thể tìm kiếm truy xuất nhanh gọn tài nguyên mình cần. Tác giả ý kiến đề nghị phương pháp tổ chức triển khai project theo cấu trúc thư mục. Bạn hoàn toàn có thể sử dụng R Project của RStudio. Mỗi một dự án Bất Động Sản được dành riêng cho 1 thư mục. Cấu trúc thư mục hoàn toàn có thể tổ chức triển khai như dưới đây :

Trong đó :
data : chứa những tập tin tài liệu nguồn vào figure : chứa những tập tin hình hoặc data visualization.presentation : chứa những presentation ( nếu như bạn dùng Rmarkdown để viết presentation ). documentation : chứa những documentation ( nếu như dùng Rmarkdown để viết document ) .
Các file mã nguồn. R hay. Rmd được để ở ngoài những thư mục .

Toán tử gán

Dùng thay vì = khi thực thi phép gán .
# Gooda 5 # Bada = 5

Tên biến

Tên biến nên dùng danh từ tiếng Anh, chữ nhỏ – lower case – và sử dụng _ để phân làn giữa những chữ. Tên biến nên gợi mở và tương quan đến toàn cảnh của phân đoạn mã, tránh việc đặt tên biến khó hiểu hay cụt ngủn. Đặt tên biến tốt giúp người đọc hiểu nhanh gọn mã nguồn và bám sát tư tưởng của người viết mã. Tên biến tránh trùng lặp với những keyword của R .
Xem thêm : Tổng Hợp Các Bài Viết Hướng Dẫn Sử Dụng Excel năm nay, Hướng Dẫn Sử Dụng Microsoft Excel Cho Người Mới
# Goodday_oneday_1 # Badfirst_day_of_the_monthDayOnedayonedjm1abcchuoi1vector101data. frame

Tên hàm

Tương tự tên biến, tên hàm nên sử dụng động từ tiếng Anh, ngăn cách giữa những chữ bằng _, chữ nhỏ lower case và tránh sử dụng tên hàm trùng với những tên hàm của package đang sử dụng .
# Goodclean_data function ( x ) { } # BaddataClean function ( x ) { }

Khoảng trắng (space)

Sử dụng khoảng chừng trắng trước và sau bất kể 1 toán tử nào, thêm 1 khoảng chừng trắng sau dấu phẩy, ( tựa như như khi viết tiếng Anh ) .
# Goodaverage mean ( feet / 12 + inches, na.rm = TRUE ) # Badaveragemean ( feet / 12 + inches, na.rm = TRUE ) Đối với :, ::, ::: thì hoàn toàn có thể không cần khoảng chừng trắng :
# Goodx 1 : 10 base :: get # Badx 1 : 10 base :: get Có thể sử dụng thêm khoảng chừng trắng để canh dòng giúp mã nguồn dễ đọc hơn .
list ( total = a + b + c, mean = ( a + b + c ) / n ) Không sử dụng khoảng chừng trắng trong những đoạn mã lệnh số lượng giới hạn bởi < và >, trừ khi đó là những dấu ,
# Goodif ( debug ) do ( x ) diamonds < 5, > # Badif ( debug ) do ( x ) x < 1, > x < 1, >

Viết function khi mã được dùng lại

Trong quy trình viết mã, khi một luồng việc làm được lặp đi lặp lại, bạn nên tham số hóa những đoạn code đó và viết thành function. Thói quen này giúp mã nguồn ngắn hơn, dễ quản trị hơn khi nếu kiểm soát và điều chỉnh thì chỉ cần kiểm soát và điều chỉnh ở 1 nơi .

File mã nguồn

File mã nguồn nên được đặt tên theo kiểu chữ thường, giữa những chữ phân làn bằng -. Extension của file là. R .
# Goodfit-models. Rutility-functions. R # Badfoo. rstuff. rMỗi 1 file R chỉ nên gồm những hoặc đoạn code có mối quan hệ với nhau xét về mặt ngữ nghĩa, không nên viết những file mã lệnh quá dài, gây ra khó khăn vất vả khi người đọc phải scroll lên xuống nhiều để chớp lấy sáng tạo độc đáo. Nếu như việc thực thi những file diễn ra theo trình tự thì nên đặt số thứ tự cho file :
0 – tải về. R1-parse. R2-explore. R

Trình bày mã code ngay hàng thẳng lối

Soạn mã lệnh cũng như trình diễn văn bản, ngay hàng thẳng lối giúp người đọc tự do, đồng thời hoàn toàn có thể tách bạch được sáng tạo độc đáo thành từng phân đoạn. Mỗi một dòng mã không nên lê dài quá hơn 80 ký tự .
function luôn được khởi đầu và kết thúc với { và } và luôn dùng return ở dòng lệnh gán giá trị trả về, mặc dầu function đó chỉ có 1 lệnh đơn thuần

# Goodcalculate_mean function(x){ return(mean(x))}# Badcalculate_mean function(x) mean(x)long_function_name function(a = “a long argument”, b = “another argument”, c = “another long argument”) { }Gọi 1 function có nhiều tham số

analysis_result analyze ( a = ” a long argument “, b = ” another argument “, c = ” another long argument ” ) hoặc vẽ 1 plot của ggplot với nhiều lớp phức tạp
ggplot ( dat, aes ( x = rating ) ) + geom_histogram ( binwidth =. 5, colour = ” black “, fill = ” white ” ) + facet_grid ( cond ~. ) + geom_vline ( data = cdat, aes ( xintercept = rating.mean ), linetype = ” dashed “, size = 1, colour = ” red ” ) Khi edit mã, thường sử dụng phím tab để chỉnh sửa. Nếu dựng RStudio, cần thiết lập bước tab là 2 và bảo vệ bấm phím tab thì những khoảng chừng trắng sẽ được thêm vào .

Đừng quên truy cập nhóm: Data Analytics VietNam để tham khảo các kiến thức về data, thảo luận và cùng chia sẻ về ngành nghề đang được săn đón nhiều nhất hiện nay.  

Source: https://vh2.com.vn
Category : Phần Mềm