웹 스크래핑
데이터 스크래핑이란 무엇입니까?
데이터 스크래핑은 웹 페이지에서 로컬 컴퓨터에 있는 로컬 파일로 원하는 정보를 추출하는 데 도움이 되는 기술입니다. 일반적으로,로컬 파일은 엑셀 파일,워드 파일에 해당하거나 마이크로 소프트 오피스 응용 프로그램을 말할 수 있습니다. 그것은 웹 페이지에서 중요한 정보를 채널링하는 데 도움이됩니다.
데이터 스크래핑은 매일 연구 기반 프로젝트를 수행 할 때 간단 해지고 이러한 프로젝트는 순전히 인터넷과 웹 사이트에 의존합니다. 더 화제에 설명하기 위하여는,저희를 전망대를 사용하여 엑셀 장으로 재정 웹사이트에서 시장 정보를 당기기를 위한 엑셀 매크로를 달리는 일 상인의 보기를 가지고 가게 하십시오.
이 자습서에서는 다음을 배웁니다:
- 데이터 스크래핑이란 무엇입니까?
- 인터넷 익스플로러를 사용하여 데이터 스크래핑을 수행하기 전에 엑셀 매크로를 준비하는 방법?
- 어떻게 엑셀을 사용하여 인터넷 익스플로러를 엽니 다?
- 인터넷 익스플로러에서 웹 사이트를 여는 방법?
- 어떻게 웹 사이트에서 정보를 긁어?
인터넷 익스플로러를 사용하여 데이터 스크래핑을 수행하기 전에 엑셀 매크로를 준비하는 방법?
엑셀에서 데이터 스크래핑 프로세스를 시작하기 전에 엑셀 매크로 파일에서 수행해야 할 몇 가지 전제 조건이 있습니다. –
단계 1)엑셀 기반 매크로를 열고 엑셀의 개발자 옵션에 액세스합니다.
2 단계)개발자 리본에서 비주얼 기본 옵션을 선택합니다.
3 단계)새 모듈을 삽입합니다.
4 단계)새 서브 루틴 초기화
Sub test()End sub
모듈은 다음과 같이 발생합니다: –
5 단계)도구 탭에서 참조 옵션에 액세스하고 참조 개체 라이브러리 및 마이크로 소프트 인터넷 제어.
다음 파일은 인터넷 익스플로러를 열고 매크로 스크립팅의 개발을 용이하게 모듈에 참조 할 수 있습니다.
이제 엑셀 파일은 인터넷 익스플로러와 상호 작용할 준비가되어 있습니다. 다음 단계는 데이터 스크래핑을 용이하게하는 매크로 스크립트를 통합하는 것입니다.
어떻게 엑셀을 사용하여 인터넷 익스플로러를 엽니 다?
단계 1)아래 표시된 서브루틴에서 변수를 초기화합니다.
Sub test()Dim ie As New InternetExplorer Dim doc As New HTMLDocument
표시=참 및 프레스 에프 5.
Sub test()Dim ie As New InternetExplorer Dim doc As New HTMLDocumentIe.visible=true
모듈은 다음과 같습니다: –
어떻게 인터넷 익스플로러에서 웹 사이트를 엽니 다?1 단계:인터넷 익스플로러에서 웹 사이트를 열려면 다음 단계를 따르세요. 이 속성은 탐색에 의해 촉진되며,이 속성은 속성에 큰 따옴표로 전달되어야합니다. 표시된 대로 다음 단계를 수행합니다.2 단계)–매크로를 실행하려면 5 를 누릅니다. 표시되는 대로 다음 웹 페이지가 열립니다
이제 엑셀 매크로는 스크래핑 기능을 수행에 대한 준비가되어 있습니다. 다음 단계는 정보를 인터넷 익스플로러에서 추출할 수 있는 방법을 표시합니다.
어떻게 웹 사이트에서 정보를 긁어?
데이 트레이더가 매일 웹 사이트의 데이터에 액세스하기를 원한다고 가정합니다. 하루 상인은 클릭 버튼을 누를 때마다,그것은 자동 엑셀로 시장 데이터를 당겨한다.
위의 웹 사이트에서 요소를 검사하고 데이터가 어떻게 구성되는지 관찰해야합니다.
<table class="datatable"><thead><tr><th>Company</th><th>Group</th><th>Pre Close (Rs)</th><th>Current Price (Rs)</th><th>% Change</th></tr>
: –
Sub test()Dim ie As New InternetExplorerDim doc As New HTMLDocumentDim ecoll As Objectie.Visible = Trueie.navigate "http://demo.guru99.com/test/web-table-element.php"DoDoEventsLoop Until ie.readyState = READYSTATE_COMPLETESet doc = ie.document
이 데이터는 하나의 테이블로 구성되어 있음을 알 수있다. 따라서,전체 데이터를 데이터 집합에서 끌어오기 위해서는 데이터 집합의 형태로 데이터를 수집하는 매크로를 설계해야 한다.
컬렉션을 엑셀에 붙여 넣습니다. 달성하기 위해,원하는 결과는 아래에 언급 된 단계를 수행–-
–
단계 3)문서에 있는 컬렉션 요소 초기화
: –
Sub test()Dim ie As New InternetExplorerDim doc As New HTMLDocumentDim ecoll As Objectie.Visible = Trueie.navigate "http://demo.guru99.com/test/web-table-element.php"DoDoEventsLoop Until ie.readyState = READYSTATE_COMPLETESet doc = ie.documentSet ecoll = doc.getElementsByTagName("table")
4 단계)그림과 같이 중첩 루프의 도움으로 엑셀 시트 셀을 초기화
: –
Sub test()Dim ie As New InternetExplorerDim doc As New HTMLDocumentDim ecoll As Objectie.Visible = Trueie.navigate "http://demo.guru99.com/test/web-table-element.php"DoDoEventsLoop Until ie.readyState = READYSTATE_COMPLETESet doc = ie.documentSet ecoll = doc.getElementsByTagName("table")
엑셀은 엑셀 시트의 범위 속성 또는 엑셀 시트의 셀 속성을 통해 사용하여 초기화 할 수 있습니다. 통합 문서에 있는 시트 1 의 엑셀 셀 특성으로 컬렉션 데이터가 초기화됩니다.
매크로 스크립트가 준비되면 서브루틴을 엑셀에 전달하고 할당합니다. 버튼을 새로 고침 또는 초기화 할 수있는 적절한 이름으로 레이블을 지정하십시오. 이 예제에서는 단추가 새로 고침으로 초기화됩니다.
5 단계)새로 고침 버튼을 눌러 아래에 언급 된 출력을 얻으십시오.
단계 6)인터넷 익스플로러의 결과와 엑셀의 결과를 비교
요약:
- 데이터 스크래핑을 통해 사용자는 사용자가 원하는 정보 만 긁어 낼 수 있습니다.
- 스크래핑은 인터넷 익스플로러를 사용하여 수행할 수 있습니다.
- 인터넷 익스플로러의 경우 스크래핑 과정이 느리지 만 원하는 결과를 사용자에게 제공합니다.
- 스크래핑은 스크래핑에 사용되는 시스템에 해를 끼치거나 충돌 할 수 있으므로 절대주의하고 신중하게 수행해야합니다.