R-Blogger블로그·해설한국어2009-02-18
영어 단일 문자 빈도
영어 단일 글자 빈도영어에서 단일 글자 빈도에 대해 논의하는 논문을 읽을 때마다, 직접 영어 텍스트 샘플을 사용해 계산해 보아야겠다고 느낍니다. 오늘 드디어 그걸 해보았습니다. 아래는 확률과 음수 로그 확률입니다.# R 코드 예시 library(stringr) # 텍스트 불러오기 text % paste(collapse = " ") text 위 코드를 실행하면 다음과 같은 결과가 나옵니다.letter probability negative_log2 1 a 0.08167 3.61 2 b 0.01492 6.07 3 c 0.02782 5.17 ... (중략) ... 26 z 0.00074 10.76음수 로그 확률은 정보량(비트)을 나타내며, 흔하지 않은 문자일수록 값이 커집니다.이러한 빈도 분석은 암호학, 자연어 처리, 데이터 압축
원문 URL
전체 글은 원문 페이지에서 이어서 읽을 수 있습니다.
- 작성자
- R-Blogger
- 출처
- R-Blogger
- 플랫폼
- R-Blogger
- 분류
- 블로그·해설
- 언어
- 한국어
- 발행일
- 2009-02-18