문제1) 웹 크롤링(Web Crawling)에 대하여 설명하시오.
답)
1. 웹 컨텐츠 수집 자동화, 웹크롤링의 개요
가. 웹크롤링(Web Crawling)의 개념
웹 크롤링 흐름도
|
웹 크롤링의 개념
|
|
|
|
나. 웹 크롤링(Web Crawling)의 동작원리
동작원리
|
설명
|
HTML 파싱
|
HTML 페이지를 가져와서, HTML/CSS등을 파싱하고, 데이터 추출
|
Open API 호출
|
Open API(Rest API)를 제공하는 서비스를 활용하여 데이터 추출
|
웹 크롤러 활용
|
Selenium 등 도구를 활용, 브라우저를 직접 조작하여 데이터 추출
|
|
2. 웹 크롤링의 아키텍처 및 주요 기술요소
가. 웹 크롤링크롤링(Web Crawling) 아키텍처
|
|
나. 웹 크롤링크롤링(Web Crawling)의 주요 기술요소
기술요소
|
역할
|
설명
|
Frontier
|
URL목록관리
|
|
URL 분배
|
|
|
Agent
|
URL 정규화
로봇 배제 표준 HTML 파싱 |
|
Monitor
|
이상탐지
|
|
3. 웹 크롤링 검색 알고리즘과 웹 크롤링 도구
가. 웹 크롤링 검색 알고리즘
알고리즘
|
동작방식
|
특징
|
Crawling through
URLOrdering |
URL이있는큐에서 중요페이지 우선검색
|
|
Crawling the Large SitesFirst
|
대기중 페이지 많은 사이트
우선 크롤링 |
|
N gram Based BFS
|
말뭉치(N Gram)기반 검색
|
|
감성반응 Web Crawler
|
긍/부정 어휘기반 크롤링시필터링
|
|
나. 웹 크롤링크롤링(Web Crawling)에 활용되는 주요 도구
크롤링 도구
|
기능
|
특징
|
Selenium
|
웹 테스트 자동화 프레임워크
|
|
Python Scrapy
|
파이썬 크롤링
프레임워크 |
|
Import.io
|
클라우드
기반 데이터 추출 플랫폼 |
|
4. 효과적인 웹 크롤링 구현을 위한 고려사항
구분
|
설명
|
예시
|
접근관리
|
|
|
함정
피하기 |
|
|
URL 정규화
|
|
|
HTML
Parsing |
|
|
공감과 댓글은 아이티신비에게 큰 힘이 됩니다.
블로그 글이 유용하다면 블로그를 구독해주세요.♥
'정보관리기술 > 데이터베이스' 카테고리의 다른 글
데이터 시각화(Data Visualization) (79) | 2024.02.28 |
---|---|
오피니언 마이닝(Opinion Mining) (0) | 2024.02.14 |
데이터 거버넌스 (27) | 2024.02.13 |
인공지능 학습용 데이터 (25) | 2024.02.13 |
빅데이터분석도구를 선택하는 원칙 / ① (0) | 2024.02.12 |