문자열을 고정 너비 문자 요소의 벡터로 자르기
텍스트 문자열이 포함 된 개체가 있습니다.
x <- "xxyyxyxy"
두 글자를 포함하는 각 요소가있는 벡터로 나누고 싶습니다.
[1] "xx" "yy" "xy" "xy"
그것이 strsplit
내 티켓이어야하는 것처럼 보이지만 정규 표현식 foo가 없기 때문에이 함수가 원하는 방식으로 문자열을 덩어리로 자르는 방법을 알 수 없습니다. 어떻게해야합니까?
사용하는 substring
것이 가장 좋은 방법입니다.
substring(x, seq(1, nchar(x), 2), seq(2, nchar(x), 2))
그러나 여기 plyr를 사용한 해결책이 있습니다.
laply(seq(1, nchar(x), 2), function(i) substr(x, i, i+1))
다음은 문자열을 문자로 분할 한 다음 짝수 요소와 홀수 요소를 함께 붙여 넣는 빠른 솔루션입니다.
x <- "xxyyxyxy"
sst <- strsplit(x, "")[[1]]
paste0(sst[c(TRUE, FALSE)], sst[c(FALSE, TRUE)])
벤치 마크 설정 :
GSee <- function(x) {
sst <- strsplit(x, "")[[1]]
paste0(sst[c(TRUE, FALSE)], sst[c(FALSE, TRUE)])
Shane1 <- function(x) {
substring(x, seq(1,nchar(x),2), seq(2,nchar(x),2))
Shane2 <- function(x) {
laply(seq(1,nchar(x),2), function(i) substr(x, i, i+1))
seth <- function(x) {
strsplit(gsub("([[:alnum:]]{2})", "\\1 ", x), " ")[[1]]
geoffjentry <- function(x) {
idx <- 1:nchar(x)
odds <- idx[(idx %% 2) == 1]
evens <- idx[(idx %% 2) == 0]
substring(x, odds, evens)
drewconway <- function(x) {
sapply(seq(2,nchar(x),by=2),function(y) paste(c[y-1],c[y],sep=""))
KenWilliams <- function(x) {
n <- 2
sapply(seq(1,nchar(x),by=n), function(xx) substr(x, xx, xx+n-1))
RichardScriven <- function(x) {
regmatches(x, gregexpr("(.{2})", x))[[1]]
벤치 마크 1 :
x <- "xxyyxyxy"
# Unit: microseconds
# expr min lq median uq max neval
# GSee(x) 8.032 12.7460 13.4800 14.1430 17.600 100
# Shane1(x) 74.520 80.0025 84.8210 88.1385 102.246 100
# Shane2(x) 1271.156 1288.7185 1316.6205 1358.5220 3839.300 100
# seth(x) 36.318 43.3710 45.3270 47.5960 67.536 100
# geoffjentry(x) 9.150 13.5500 15.3655 16.3080 41.066 100
# drewconway(x) 92.329 98.1255 102.2115 105.6335 115.027 100
# KenWilliams(x) 77.802 83.0395 87.4400 92.1540 163.705 100
# RichardScriven(x) 55.034 63.1360 65.7545 68.4785 108.043 100
벤치 마크 2 :
이제 더 큰 데이터로.
x <- paste(sample(c("xx", "yy", "xy"), 1e5, replace=TRUE), collapse="")
# Unit: milliseconds
# expr min lq median uq max neval
# GSee(x) 29.029226 31.3162690 33.603312 35.7046155 37.805919 3
# Shane1(x) 11754.522290 11866.0042600 11977.486230 12065.3277955 12153.169361 3
# Shane2(x) 13246.723591 13279.2927180 13311.861845 13371.2202695 13430.578694 3
# seth(x) 86.668439 89.6322615 92.596084 92.8162885 93.036493 3
# geoffjentry(x) 11670.845728 11681.3830375 11691.920347 11965.3890110 12238.857675 3
# drewconway(x) 384.863713 438.7293075 492.594902 515.5538020 538.512702 3
# KenWilliams(x) 12213.514508 12277.5285215 12341.542535 12403.2315015 12464.920468 3
# RichardScriven(x) 11549.934241 11730.5723030 11911.210365 11989.4930080 12067.775651 3
strsplit(gsub("([[:alnum:]]{2})", "\\1 ", x), " ")[[1]]
기본적으로, 분리 (여기 "")을 추가 한 후 사용strsplit
strsplit은 문제가 될 것입니다. 다음과 같은 정규 표현식을보십시오.
strsplit(z, '[[:alnum:]]{2}')
오른쪽 지점에서 분할되지만 아무것도 남지 않습니다.
하위 문자열 및 친구를 사용할 수 있습니다.
z <- 'xxyyxyxy'
idx <- 1:nchar(z)
odds <- idx[(idx %% 2) == 1]
evens <- idx[(idx %% 2) == 0]
substring(z, odds, evens)
한 가지 방법이 있지만 regexen을 사용하지 않습니다.
a <- "xxyyxyxy"
n <- 2
sapply(seq(1,nchar(a),by=n), function(x) substr(a, x, x+n-1))
총 해킹, JD,하지만 완료
x <- "xxyyxyxy"
sapply(seq(2,nchar(x),by=2),function(y) paste(c[y-1],c[y],sep=""))
[1] "xx" "yy" "xy" "xy"
도우미 기능 :
fixed_split <- function(text, n) {
strsplit(text, paste0("(?<=.{",n,"})"), perl=TRUE)
fixed_split(x, 2)
[1] "xx" "yy" "xy" "xy"
ATTENTION with substring, string length가 요청 된 길이의 배수가 아닌 경우 두 번째 시퀀스에 + (n-1) 이 필요합니다 .
이 작업을 수행하기 위해 다음 의사 코드를 사용했습니다.
- 길이가 n 인 각 청크에 특수 시퀀스를 삽입합니다.
- 상기 순서로 문자열을 분할합니다.
코드에서 나는
chopS <- function( text, chunk_len = 2, seqn)
# Specify select and replace patterns
insert <- paste("(.{",chunk_len,"})", sep = "")
replace <- paste("\\1", seqn, sep = "")
# Insert sequence with replaced pattern, then split by the sequence
interp_text <- gsub( pattern, replace, text)
strsplit( interp_text, seqn)
이것은 벡터가 아니라 내부에 분할 벡터가있는 목록을 반환합니다.
C ++ one을 사용하면 훨씬 더 빠를 수 있습니다. GSee의 버전 과 비교 :
GSee <- function(x) {
sst <- strsplit(x, "")[[1]]
paste0(sst[c(TRUE, FALSE)], sst[c(FALSE, TRUE)])
rstub <- Rcpp::cppFunction( code = '
CharacterVector strsplit2(const std::string& hex) {
unsigned int length = hex.length()/2;
CharacterVector res(length);
for (unsigned int i = 0; i < length; ++i) {
res(i) = hex.substr(2*i, 2);
return res;
x <- "xxyyxyxy"
all.equal(GSee(x), rstub(x))
#> [1] TRUE
microbenchmark::microbenchmark(GSee(x), rstub(x))
#> Unit: microseconds
#> expr min lq mean median uq max neval
#> GSee(x) 4.272 4.4575 41.74284 4.5855 4.7105 3702.289 100
#> rstub(x) 1.710 1.8990 139.40519 2.0665 2.1250 13722.075 100
x <- paste(sample(c("xx", "yy", "xy"), 1e5, replace = TRUE), collapse = "")
all.equal(GSee(x), rstub(x))
#> [1] TRUE
microbenchmark::microbenchmark(GSee(x), rstub(x))
#> Unit: milliseconds
#> expr min lq mean median uq max neval
#> GSee(x) 17.931801 18.431504 19.282877 18.738836 19.47943 27.191390 100
#> rstub(x) 3.197587 3.261109 3.404973 3.341099 3.45852 4.872195 100
From my testing, the code below is faster than the previous methods that were benchmarked. stri_sub is pretty fast, and seq.int is better than seq. It's also easy to change the size of the strings by changing all the 2Ls to something else.
split_line <- function(x) {
row_length <- stri_length(x)
stri_sub(x, seq.int(1L, row_length, 2L), seq.int(2L, row_length, 2L))
I didn't notice a difference when string chunks were 2 characters long, but for bigger chunks this is slightly better.
split_line <- function(x) {
stri_sub(x, seq.int(1L, stri_length(x), 109L), length = 109L)
Here is one option using stringi::stri_sub()
. Try:
x <- "xxyyxyxy"
stringi::stri_sub(x, seq(1, stringi::stri_length(x), by = 2), length = 2)
# [1] "xx" "yy" "xy" "xy"
ReferenceURL : https://stackoverflow.com/questions/2247045/chopping-a-string-into-a-vector-of-fixed-width-character-elements
'programing' 카테고리의 다른 글
변수에 레이블의 주소를 저장하고 goto를 사용하여 점프 할 수 있습니까? (0) | 2021.01.17 |
Rails에서 그룹화 및 계산 (0) | 2021.01.17 |
주소 0에 액세스하고 싶을 수 있습니까? (0) | 2021.01.17 |
휘발성 롱을 사용하는 데 어떤 의미가 있습니까? (0) | 2021.01.17 |
Vim 스왑 / 백업 / 실행 취소 파일 이름 변경 (0) | 2021.01.17 |