원본 텍스트

R-Blogger블로그·해설한국어2023-11-18

원본 텍스트

동일 인용문의 남용에 대한 탐구최근 읽는 논픽션 서적에서 눈에 띄는 경향이 있습니다: 그대로 인용되는 문장을 남발하는 경우입니다. 보통 다음과 같은 형태로 나타납니다. “어떤 사람이 이렇게 말했다: 여기에 긴 원문 텍스트 삽입”. 물론 원문 텍스트를 사용하는 데 규칙은 없습니다. 하지만 책을 읽는 것만으로도 남용 정도를 감지하게 된다면, 실제 데이터로 검증하고 싶어집니다. 전체 책 중 원문 텍스트가 차지하는 비율은 어느 정도일까요? 10% 정도일까요? 20% 정도일까요? 비율이 낮을수록 저자를 관대하게 볼 수 있을까요, 혹은 이미 결론이 나버린 것일까요?예시 책: “Do Nothing” (Celeste Headlee)R에서 epubr패키지를 이용해 전자책을 읽어보면 다음과 같은 표가 생성됩니다.# read the epub book_text %>% mutate(text = str_sub(text, 0, 20), text = paste(text, "...")) %>% gt::gt() # 텍스트를 짧게 표시표 예시(일부만 발췌)section text nword nchar part0001.xhtml ... 0 0 part0002.xhtml ... 0 0 ... part0004.xhtml CONTENTSCoverTitle P 111 1014 part0005.xhtml INTRODUCTIONIt will ... 93 685 ... part0024.xhtml For Theresa, who has ... 14 72 part0025.xhtml ACKNOWLEDGMENTS I WOR ... 355 1995 part0026.xhtml NOTES Introduction "Ou ... 4067 28683 part0027.xhtml ABOUT THE AUTHOR CELE ... 318 1971먼저 서문 앞에 있는 법적 고지와 본문 뒤에 있는 부록·참고문헌을 제거합니다.# 간단히 슬라이스만 하면 됩니다 book_txt %>% slice(6:24)그 후 메타데이터(단어 수, 문자 수)를 추출합니다.# 메타데이터 추출 meta %>% select(section, nword, nchar) %>% mutate(part = paste0("part", 5:23)) %>% select(-section)인용문 위치 찾기stringr::str_locate_all()함수를 이용해 따옴표 안의 텍스트 위치를 모두 추출합니다.# 텍스트 매칭 match_df %>% set_names(nm = paste0("part", 5:23)) %>% map(as_tibble) %>% bind_rows(.id = "part")아래는 매칭된 문자 위치의 일부 예시이며, 특히 두 번째와 세 번째 행에 주목해 주세요. 두 행은 사실 하나의 인용문이 두 부분으로 나뉜 경우입니다.# 예시 매치 데이터 match_df %>% slice(8:10) %>% mutate(quote = map2_chr(start, end, ~ str_sub(book_txt$text[[1]], .x, .y))) %>% gt::gt() %>% gt::tab_style(style = gt::cell_text(weight = "bold"), locations = gt::cells_column_labels())part start end quote part5 14893 14905 "inefficient" part5 16002 16132 "I can hunch over my computer screen for half the day churning frenetically through emails without getting much of substance done," part5 16186 16336 "all the while telling myself what a loser I am, and leave at 6:00 p.m. feeling like I put in a full day. And given my level of mental fatigue, I did!"인용문 결합인용문이 두 번에 걸쳐 나타나는 현상은 코드 버그 때문이 아니라 저자의 서술 방식 때문입니다. 예를 들어 저자는 다음과 같이 씁니다.“A palm tree”, somebody said, “belongs to the Plant Kingdom.”이와 같은 스타일은 직접 인용문에 대한 통계, 예를 들어 평균 인용문 길이 등을 왜곡합니다. 따라서 인용문 사이 거리가 100자 이하인 경우 하나로 결합하려고 합니다(이 경우 비율이 약간 상승하게 됩니다).# 인용문 결합 예시 (조건부 그룹화) merged_quotes 위 코드를 실행하면 9번째와 10번째 행이 같은 그룹에 속하게 됩니다 🎉.

원문 URL

전체 글은 원문 페이지에서 이어서 읽을 수 있습니다.

원문에서 전체 글 읽기

작성자: R-Blogger
출처: R-Blogger
플랫폼: R-Blogger
분류: 블로그·해설
언어: 한국어
발행일: 2023-11-18