태그를 찾아서 출력한다.\n", "x=soup.find('p') #첫번째 p태그를 가져옴\n", "print(x.text.strip()) #p태그 텍스트에서 strip" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Paragraph 1.\n", "\n", "Paragraph 2.\n", "\n", "Paragraph 3.\n", "\n", "Paragraph 4.\n", "\n", "Paragraph 5.\n", "\n", "Paragraph 6.\n", "\n", "\n" ] } ], "source": [ "# 모든

태그의 내용을 찾아서 이어 붙여 출력한다.\n", "x=soup.find_all('p') #모든 p태그 가져오기 #x는 리스트성격\n", "n = len(x) #길이로 x의 원소개수 확인\n", "result = '' #빈 문자열 만들어 원소 하나하나 가져옴 # 초기화.\n", "\n", "#x[i]태그객체를 가져와 text속성가져옴\n", "for i in range(n):\n", " result += x[i].text.strip() + '\\n\\n' #문자열 메서드 strip(왼쪽 오른쪽 스페이스 떨궈줌)\n", " #\\n\\n(라인 체인지), +(두개 연결)\n", " \n", "# 출력.\n", "print(result) #p태그 안에 있는 내용만 나옴" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [], "source": [ "type(x) #결과값 ResultSet은 리스트형태로 나옴: 인덱싱해서 원소 가져올 수 있음\n", "type(x[0]) #첫번째 원소 가져옴\n", "\n", "for i in range(n):\n", " result += x[i].text.strip() #인덱싱해 원소가져옴" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 2.2 BeautifulSoup4 라이브러리로 parsing을 한다: div태그" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "A Single line within a div tag. \n", "\n", " Paragraph 4. \n", " Paragraph 5. \n", " Paragraph 6.\n", "\n", "다음은 ordered list이다:\n", "\n", " 아이템 하나. \n", " 아이템 둘. \n", " 아이템 셋. \n", " 아이템 넷. \n", " 아이템 다섯. \n", " 아이템 여섯.\n", "\n", "\n" ] } ], "source": [ "# 모든

태그의 내용을 찾아서 이어 붙여서 출력한다.\n", "x=soup.find_all('div') #모든 p태그 가져오기 #x는 리스트성격\n", "n = len(x) #길이로 x의 원소개수 확인\n", "result = '' #빈 문자열 만들어 원소 하나하나 가져옴 # 초기화.\n", "\n", "#x[i]태그객체를 가져와 text속성가져옴\n", "for i in range(n):\n", " result += x[i].text.strip() + '\\n\\n' #문자열 메서드 strip(왼쪽 오른쪽 스페이스 떨궈줌)\n", " #\\n\\n(라인 체인지), +(두개 연결)\n", "\n", "# 출력.\n", "print(result)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 2.3 BeautifulSoup4 라이브러리로 parsing을 한다: ol태그" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", " 아이템 하나. \n", " 아이템 둘. \n", " 아이템 셋. \n", " 아이템 넷. \n", " 아이템 다섯. \n", " 아이템 여섯. \n", "\n" ] } ], "source": [ "# 첫 번째

헤더 1.1

Paragraph 1.

Paragraph 4.

아이템 하나.
아이템 넷.

Paragraph 5.

아이템 여섯.

\n", " 헤더 1.1\n", "

\n", " 헤더 1.2\n", "

\n", " 헤더 1.3\n", "

\n", " 헤더 1.1\n", "

\n", " 헤더 1.2\n", "

\n", " 헤더 1.3\n", "

헤더 1.1

헤더 1.1