'2024/04/18 글 목록

[최종 프로젝트] 크롤링하여 문맥파악하기<python- selenium>

주어진 문제 현재는 퍼펫티어를 사용하여 뉴스를 크롤링 해왔지만 해당 뉴스에서 문맥을 파악하지못해 실제 사건사고가 아님에도 인식이 되는 문제가 발생. 자연어 처리와 기계학습을 통하여 최대한 문맥을 파악할수 있도록 하려면 파이썬을 사용해야 했기 때문에 파이썬의 셀리니움과 뷰티풀숲을 사용하여 크롤링으로 전환하게 됨. selenium, BeautifulSoup 사용이유 selenium도 크롤링 가능, BuautifulSoup도 크롤링 가능 근데 왜 같이써? 조금더 효과적으로 사용하기 위해 함께 사용하게 되었다. selenium은 동적인 웹페이지에서 데이터를 수집하는것에 유용하다. 페이지를 옮겨 다닌다거나, javascript를 사용하는것에 있어서 브라우저를 제어하면서 스크랩을 할수가 있다. 하지만 정적페이지를 ..

project/sparta 2024. 4. 18. 08:44

이전 1 다음

이전 다음

공지사항

AWS EC2 배포하기

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

깃허브주소(startcoriny)

TAG more

« 2024/04 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

글 보관함

StartCoriny의 개발일지

티스토리툴바