🚅 크롤링 분석 프로젝트 (1) - BeautifulSoup 활용 뉴스 크롤링

📦분석 프로젝트/🚅 크롤링 분석

🚅 크롤링 분석 프로젝트 (1) - BeautifulSoup 활용 뉴스 크롤링

데이터팍스 2024. 10. 17. 15:05

🚅 크롤링 분석 프로젝트

✅ 주제 : 뉴스,기차표,관광상품 리뷰등 다양한 웹페이지 크롤링을 통해 데이터 수집 및 분석

✅ 배경 : html 구조에 대해 익히고 웹 크롤링을 통한 데이터 수집과 분석

✅ 기간 : 2024.05.04~2024.05.11 (약 1주)

✅ 과정 : 파이썬으로 웹사이트 크롤링

뉴스 크롤링 자동

예매 가능한 기차표 찾기

관광 상품 리뷰 데이터 크롤링 및 분석

✅ 스킬 : 파이썬

프로젝트 배경

웹 크롤링을 통해 다양한 데이터 수집이 가능하므로, 리서치 역량을 키우기 위해 크롤링을 공부하고자 함

정제되지 않은 데이터를 수집하여 가공하는 역량을 키우고자 시작

제목 크롤링

kbs 뉴스 홈페이지에 들어가서 분야별 뉴스를 선택합니다.

이 게시글을 작성하면서 코드에 대한 해설을 적을 것이기 때문에

프로젝트 할 당시에는 5월 기사였지만, 최신 뉴스로 업데이트 해서 작성하겠습니다.

# 뉴스 1개 크롤링
url = 'https://news.kbs.co.kr/news/pc/view/view.do?ncd=8083891'
html_doc=requests.get(url).text
html_doc

soup=BeautifulSoup(html_doc,'html.parser')
# 웹페이지의 구조를 살려 soup 라는 곳에 저장

title1=soup.find('h4',class_='headline-title')
title1.text

soup.find 기능을 사용하면 원하는 부분만을 가져올수 있습니다.

저는 'h4'를 택하여 제목만 가져왔습니다.

본문 크롤링

이제 본문을 가져오겠습니다.

F12 개발자 도구를 통해 본문에 해당하는 부분이 div이고 class가 detail-body font-size임을 확인할 수 있습니다.

body1=soup.find('div',class_='detail-body font-size')
body1.text

해당 코드로 본문내용을 가져올 수 있습니다.

# 딕셔너리 데이터 구조에 원하는 데이터 담기
data={'뉴스url':[url],'제목':[title1.text],'내용':[body1.text]}

# 만든 데이터를 데이터프레임 구조로 만들기
df=pd.DataFrame(data)

#csv 파일로 저장
df.to_csv('C:\\Users\\user\\Desktop\\analysis\\project\\news1_kbs.csv',index=False, encoding='utf-8-sig')

원하는 뉴스를 크롤링 하며 csv 파일로 저장했습니다.

이제 오른쪽에 있는 뉴스를 클릭하여 주소를 가져옵니다.

url_list=[]
title_list=[]
body_list=[]

url1 = 'https://news.kbs.co.kr/news/pc/view/view.do?ncd=8083891'
html_doc1=requests.get(url1).text
soup1=BeautifulSoup(html_doc1,'html.parser')
title1=soup1.find('h4',class_='headline-title').text.text
body1=soup1.find('div',class_='detail-body font-size').text


url_list.append(url1)
title_list.append(title1)
body_list.append(body1)


url2='https://news.kbs.co.kr/news/pc/view/view.do?ncd=8083890'
html_doc2=requests.get(url2).text
soup2=BeautifulSoup(html_doc2,'html.parser')
title2=soup2.find('h4',class_='headline-title').text
body2=soup2.find('div',class_='detail-body font-size').text


url_list.append(url2)
title_list.append(title2)
body_list.append(body2)


data12={'뉴스url':url_list,'제목':title_list,'내용':body_list}

df12=pd.DataFrame(data12)
df12.to_csv('C:\\Users\\user\\Desktop\\analysis\\project\\news12_kbs.csv',index=False, encoding='utf-8-sig')

빈 리스트를 만들고

url1~body1에는 왼쪽의 뉴스를, url2~body2 에는 오른쪽 뉴스를 저장합니다.

빈 리스트에 append 기능을 사용해 추가해주고 csv 파일로 만듭니다.

csv를 열어보시면 이렇게 제대로 크롤링 된 것을 확인해보실 수 있습니다.

for문을 사용해 웹 크롤링

url_list=[]
title_list=[]
body_list=[]

urls=['https://news.kbs.co.kr/news/pc/view/view.do?ncd=8083891',
      'https://news.kbs.co.kr/news/pc/view/view.do?ncd=8083890']

for ulr in urls:
    html_doc=requests.get(url).text
    soup=BeautifulSoup(html_doc,'html.parser')
    title=soup.find('h4',class_='headline-title').text
    body=soup.find('div',class_='detail-body font-size').text

    url_list.append(url)
    title_list.append(title)
    body_list.append(body)

data={'뉴스url':url_list,'제목':title_list,'내용':body_list}
df=pd.DataFrame(data)
df.to_csv('C:\\Users\\user\\Desktop\\analysis\\project\\news12_kbs_same.csv',index=False, encoding='utf-8-sig')

for문을 사용해서 반복되는 코드를 줄여보았습니다.

'📦분석 프로젝트 > 🚅 크롤링 분석' 카테고리의 다른 글

🚅 크롤링 분석 프로젝트 (7) - 시각화 (1)	2024.10.19
🚅 크롤링 분석 프로젝트 (6) - 관광상품 리뷰 크롤링 (2)	2024.10.18
🚅 크롤링 분석 프로젝트 (4) - 코레일 기차표 크롤링 (0)	2024.10.17
🚅 크롤링 분석 프로젝트 (3) - RSS 활용 뉴스 크롤링 (0)	2024.10.17
🚅 크롤링 분석 프로젝트 (2) - Selenium 활용 뉴스 크롤링 (1)	2024.10.17

현재글🚅 크롤링 분석 프로젝트 (1) - BeautifulSoup 활용 뉴스 크롤링

DATAFOX🦊

데이터 분석을 박스에 담는 블로그📦 네이버 블로그에서 이전중

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

DATAFOX🦊

🚅 크롤링 분석 프로젝트 (1) - BeautifulSoup 활용 뉴스 크롤링

🚅 크롤링 분석 프로젝트

프로젝트 배경

제목 크롤링

본문 크롤링

for문을 사용해 웹 크롤링

'📦분석 프로젝트 > 🚅 크롤링 분석' 카테고리의 다른 글

'📦분석 프로젝트/🚅 크롤링 분석'의 다른글

티스토리툴바

🚅 크롤링 분석 프로젝트 (1) - BeautifulSoup 활용 뉴스 크롤링

🚅 크롤링 분석 프로젝트

프로젝트 배경

제목 크롤링

본문 크롤링

for문을 사용해 웹 크롤링

'📦분석 프로젝트 > 🚅 크롤링 분석' 카테고리의 다른 글

'📦분석 프로젝트/🚅 크롤링 분석'의 다른글

관련글

티스토리툴바