2011년 3월 25일 금요일

[Python] Retrieve over the HTTP/HTTPS

Python을 이용해 웹 페이지 긁어오기. 아래 내용은 https://xxxxx.com/index.html 을 읽어온다고 가정하고 입력한 내용이다.

import httplib

conn = httplib.HTTPSConnection("xxxxx.com")
r = conn.request("GET", "/index.html")
print r.status, r.reason
print r.read()
conn.close()
호스트이름을 이용해 연결(connection)을 생성하고 GET커맨드를 넘겨주는 방식으로 웹 페이지의 내용을 읽어오기 위한 예제 스크립트이다. HTTPS가 아닐 경우는 HTTPSConnection 대신 HTTPConnection을 사용하면 된다.

단, HTTPS를 사용하기 위해서는 Python이 이를 지원하도록 빌드되어 있어야 한다고 한다.

request를 통해 얻은 결과 중 r.status는 일반적인 HTTP Status Code, 즉 정상일 경우 200 이다. 따라서 에러 처리는 이 status를 우선적으로 해야 할 것이다.

r.read()로 넘겨받는 내용이 실제 웹페이지의 내용이다.

다른 방법으로 긁어오는 방법도 있지만 그건 기회가 되면 소개를...

댓글 없음 :