For Investment

시장에 지지 않는 싸움을 하자

What is McGuffin? 자세히보기

실전 투자/Excel 및 Python 활용

Python I 문자열 관련 함수

이여운 2023. 4. 18. 17:50
반응형

파이썬에서 함수는, 값을 입력 받아 특정한 작업을 수행한 뒤 그 결과를 반환하는 역할을 한다. 문자열과 관련된 함수들 중에서 웹 크롤링(Web Crawling)에 쓸 만한 것들을 살펴보자.

 

desk


관련 함수들

count: 문자의 개수를 센다

join: 문자 사이에 특정 값을 삽입한다

lower: 대문자를 소문자로 바꾼다

strip: 문자열 양쪽의 공백을 지운다

replace: 문자열 내의 특정 값을 바꾼다

split: 문자열을 나눈다


적용

문자열 변수 이름 뒤에 '.'을 붙이고 함수 이름을 쓴 뒤 실행하면 된다.


count

변수에 있는 문자의 개수를 세는 함수.

a = '상승, 상승, 하락, 상승'
a.count('상승')

# 결과: 3

활용

기사의 본문을 문자열 변수로 만들고 기사 안에 '중국'이라는 단어가 몇 번 나오는지 세봤다. 지금은 기사 하나를 긁어 왔지만 나중에 기사 여러 개를 긁은 뒤 특정 단어가 몇 번 나오는지 세보면 인사이트를 얻을 수 있을지 모른다.

 

count
'중국'이라는 단어가 12번 나왔다.


join

변수를 문자열에 삽입하는 함수.

a = ','
a.join('가나다라')

# 결과: '가,나,다,라'

lower

대문자를 소문자로 바꿔주는 함수.

a = "Hello. I'm a student."
a.lower()

# 결과: "hello. i'm a student."

활용

영어 문장은 대문자로 시작한다. 컴퓨터는 대문자로 시작하는 단어와 소문자로 시작하는 단어를 다른 단어로 인식한다. 때문에 영문 기사를 긁어와 분석할 때 단어를 모두 소문자로 바꿔줄 필요가 있다.


strip

양쪽의 공백을 지우는 함수. lstrip은 왼쪽, rstrip은 오른쪽 공백을 지운다.

a = ' 공백 '
a.strip()

# 결과: '공백'

활용

컴퓨터는 공백도 문자로 인식하기 때문에 공백을 지워야 할 때가 생긴다.


replace

문자열 내의 특정한 값을 다른 값으로 바꿔주는 함수.

a = '아. 퇴근하고 싶다.'
a.replace('퇴근', '출근')

# 결과: '아. 출근하고 싶다.'

split

특정한 값을 기준으로 문자열을 나누는 함수. 괄호 안을 비우면 공백을 기준으로 나눠진다. 나눠진 값은 리스트에 하나씩 들어가게 된다.

a = '파이썬은 정말 재밌다. 그렇지?'
a.split()

# 결과: ['파이썬은', '정말', '재밌다.', '그렇지?']

a.split('.')

# 결과: ['파이썬은 정말 재밌다', ' 그렇지?']

활용

기사를 긁어 올 때 마침표를 기준으로 문장을 나누어 리스트에 넣은 뒤 분석할 수 있다. 이때 마침표 앞뒤에 공백이 생기면 strip 함수를 이용해 지우면 된다.


외국어를 빨리 익히려면 외국인과 연애를 하라던데, 컴퓨터 언어를 빨리 익히려면 어떻게 해야 할까.

반응형