'컴퓨터 언어/R' 카테고리의 글 목록

○Summarize Data

▶Summary Statistics

▷mean(v) : 평균
▷median(v) : 중앙값
▷var(v) : 분산
▷sd(v) : 표준 편차
▷IQR(v) : IQR (중간에 50%의 데이터들이 흩어진 정도)
▷min(v) : 최소값
▷max(v) : 최대값

▷range(v) : 범위 (최소 최대)

▷table(v) : 해당 값이 얼마나 있는지 table로 만듬.

▶Visualize

▷hist(vector) : 히스토그램

▷barplot(table) : 막대 그래프

▷boxplot(y축 ~ x축, data = frame) : 박스 그래프

▷scatterplot(y축 ~ x축, data = frame) : 흩어짐 정도

'컴퓨터 언어 > R' 카테고리의 다른 글

Library, File read (0)	2020.11.21
Data Type, Structure, Frame (0)	2020.11.21

○Library 추가

▷library(라이브러리 명)

○File read

▶read_csv

▷readr 라이브러리 내의 함수

▷해당 csv파일을 읽어온다.

▶as_tibble

▷tibble 라이브러리 내의 함수

▷csv 파일을 표준으로 출력한다?

'컴퓨터 언어 > R' 카테고리의 다른 글

Summarize Data (0)	2020.11.21
Data Type, Structure, Frame (0)	2020.11.21

○Data Type, Structure

▶Numeric value

▷double (기본): 소수 (1.0 ...)

▷Integer: 정수 (1L, 2L ...)

▷Complex: 복소수 (5 + 3i)

▷Character: 문자(열) ("a" "Statistics")

▶Vectors

▷R에서 자주 사용되는 데이터 집합.

▷하나의 데이터 타입에 대해서만 담을 수 있음. (여러개 -> 자동으로 하나로 통합)

▶생성

▷x = c(1, 2, 3 ...) : c() 함수 (combine), Datas, Vectors를 합쳐줌.

▷y = 1:100 : Sequence로 생성 (1~100까지의 Vector)

▷z = seq(from = 1.5, to = 4.2, by = 0.1 : 간격을 지정하여 Sequence 생성 (from 부터 to 까지 by 간격으로)

▷ = seq(1.5, 4.2, 0.1) : from, to, by 을 생략가능

▷r = rep("A", times = 10) : 하나의 data를 반복해서 생성.

▶접근

▷v[3] : 3번째 element (0부터 시작이 아닌, 1부터 시작임에 주의)

▷v[-2] : 끝에서 2번째 element

▷v[1:3] : 1~3 번째 element가 있는 subvector

▷v[c(1,3,4)] : 1, 3, 4 번째 element가 있는 subvector

▷z = c(TRUE, TRUE, FALSE, TRUE, TRUE, FALSE)

x[z] : TRUE인 index의 element들 (1, 2, 4, 5번째)

▷y[y>3] : 3보다 큰 모든 element들

▶함수

▷length(vector) : vector의 길이

▷rev(vector) : 해당 vector의 역순

▶연산

▷vector에 대해 +, -, *, ^ ... 등의 연산을 하면, vector의 모든 element에 대해 해당 연산을 진행한다.

▶Matrix

▷행렬을 표현 가능

▷Vector -> Matrix로의 변환을 주로 사용한다.

▶생성 (test_mat = 1:9)

▷x_matrix = matrix(test_mat, nrow = 3, ncol = 3) : Vector를 Column순으로 Matrix로 만든다.

▷y_matrix = matrix(test_mat, nrow = 3, ncol = 3, byrow = true) : Vector를 row순으로 Matrix로 만든다.

▷z_matrix = matrix(0, 2, 4) : 0으로 차있는 2행 4열의 Matrix

▷rbind (test_mat, rev(test_mat), rep(1,9) ) : row(Vector)들을 묶어 Matrix를 만든다.

▷cbind (col_1 = test_mat, col_2 = rev(test_mat), col_3 =rep(1,9) ) : column(Vector)들을 묶어 Matrix를 만든다.

▶접근

▷x_matrix [1,2] : 1행 2열의 요소에 접근

▷x_matrix [,2] : 2열의 요소들에 접근 (Vector형태)

▷x_matrix [2, c(1, 3)] : 2행 1, 3열의 요소에 접근

▶함수

▷dim(mat) : matrix의 dimension ([1]: row, [2]: column)

▷rowSums(mat) : 각 행의 합의 vector

▷colSums(mat) : 각 열의 합의 vector

▷rowMeans(mat) : 각 행의 평균값 vector

▷colMeans(mat) : 각 열의 평균값 vector

▷diag(mat) : Matrix의 diagonal element들의 vector

▷diag(int n) : n×n의 identity matrix

▷crossprod(x_mat, y_mat) : 두 벡터의 내적

▶연산

▷Matrix에 대해 +, -, *, / 등의 연산을 하면 모든 element에 대해 해당 연산을 수행한다.

▷Matrix끼리는 같은 크기의 Matrix에 대해서만 +, -, *, /를 지원한다?

▶Matrix Multiplication

▷x_mat%*%y_mat

▶List

▷여러 개의 데이터를 저장하는 데이터 집합.

▷여러 데이터 타입들을 한 번에 담을 수 있음.

▶생성

▷x = list(42, "Hello", TRUE)

▷ex_list=list(
a = c(1,2,3,4),
b = TRUE,
c = "Hello!",
d = function(arg=42) {print("Hello World")},
e = diag(5) )

▷name - value의 짝을 넣을 수 있음.

▶접근 (위의 ex_list에 대해)

▷ex_list[1] : 첫번째 name-value의 짝

▷ex_list[1:2] : 1, 2번째 name-value의 짝

▷ex-list[[1]] : 첫번재 value

▷ex_list$e = ex_list[["e"]] : name에 맞는 value

▷ex_list$d(arg=1) : element중 함수에 매개 변수를 주고 접근 가능.

○Data Frame

▷정보를 저장하여, 표(Table)의 형태로 나타낼 수 있는 자료구조

▶생성

▷example_data = data.frame(x = rep(c(1,3,5,7,9),2),
y = c(rep("Hello",9),"Goodbye"),
z = rep(c(TRUE, FALSE), 5)
▷입력되는 모든 데이터는 Vector여야 하고, 크기가 같아야 한다.

▶접근

▷frame$x : name이 x인 vector

▷frame[row, column] : 해당 row, column의 값을 가져옴

▷frame[, column] : 해당 column의 값들 (Vector)

▷frame[row, ] : 해당 row

▷frame %>% filter (조건) %>% select (columnName1, ...)

▷조건을 만족하는, select columns로 이루어진 subset 생성

▷dplyr 라이브러리를 추가해야 사용 가능

▶함수

▷str(frame) : 해당 frame의 data structure를 보여줌

▷names(frame) : 해당 Data frame의 name들의 Vector

▷nrow(frame): row 수

▷ncol(frame) : column 수

▷dim(frame) : row column 수

▷subset(frame, ... ) : 해당 frame으로 subset을 만든다.

▷subset = 조건 : 해당 조건을 만족 ex) columnName > n

▷select = c("columnName1", ... ) : 해당 column들만 출력

'컴퓨터 언어 > R' 카테고리의 다른 글

Summarize Data (0)	2020.11.21
Library, File read (0)	2020.11.21

필기용 블로그