{ "cells": [ { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "# Web Scraping with Python\n", "\n", "Feng Li\n", "\n", "School of Statistics and Mathematics\n", "\n", "Central University of Finance and Economics\n", "\n", "[feng.li@cufe.edu.cn](mailto:feng.li@cufe.edu.cn)\n", "\n", "[https://feng.li/python](https://feng.li/python)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "# What Is Web Scraping?\n", "\n", "The automated gathering of data from the internet is nearly as old as the internet itself. Although web scraping is not a new term, in years past the practice has been more commonly known as screen scraping, data mining, web harvesting, or similar variations. General consensus today seems to favor web scraping, so that is the term I use throughout the book, although I also refer to programs that specifically traverse multiple pages as web crawlers or refer to the web scraping programs themselves as bots.\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "- In theory, web scraping is the practice of gathering data through any means other than a program interacting with an API (or, obviously, through a human using a web browser). This is most commonly accomplished by writing an automated program that queries a web server, requests data (usually in the form of HTML and other files that compose web pages), and then parses that data to extract needed information." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "- In practice, web scraping encompasses a wide variety of programming techniques and technologies, such as data analysis, natural language parsing, and information security. Because the scope of the field is so broad, this book covers the fundamental basics of web scraping and crawling in Part I and delves into advanced topics in Part II. I suggest that all readers carefully study the first part and delve into the more specific in the second part as needed." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "# Your First Web Scraper\n", "\n", "## Let's try the toy first" ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "scrolled": true, "slideshow": { "slide_type": "slide" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "b'\\n\\n\\n\\t\\n\\t\\n\\tPython\\xe7\\xa8\\x8b\\xe5\\xba\\x8f\\xe8\\xae\\xbe\\xe8\\xae\\xa1\\xe4\\xb8\\x8e\\xe8\\xb4\\xa2\\xe7\\xbb\\x8f\\xe6\\x95\\xb0\\xe6\\x8d\\xae\\xe6\\x8c\\x96\\xe6\\x8e\\x98 – Dr. Feng Li\\n\\n\\n\\n\\n\\n\\t\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\t\\n\\n\\n\\n\\t\\t\\n\\t\\t\\t\\n\\t\\n\\t\\n\\t\\n\\n\\n
\\n\\tSkip to content\\n\\n\\t\\n
\\n\\n\\t\\n\\n
\\n\\n\\t\\n\\t\\t\\t\\t\\t\\t

Dr. Feng Li

\\n\\t\\t\\t\\n\\t\\t\\t

\\n\\t\\t\\t{ computing, forecasting and learning with massive machines }\\t\\t

\\n\\t
\\n\\t\\n\\t\\n\\t\\n
\\n\\n\\t
\\n\\t\\t
\\n\\t\\t\\t
\\n\\n
\\n\\n\\t\\t\\t
\\n\\t\\t\\t

Python\\xe7\\xa8\\x8b\\xe5\\xba\\x8f\\xe8\\xae\\xbe\\xe8\\xae\\xa1\\xe4\\xb8\\x8e\\xe8\\xb4\\xa2\\xe7\\xbb\\x8f\\xe6\\x95\\xb0\\xe6\\x8d\\xae\\xe6\\x8c\\x96\\xe6\\x8e\\x98

\\t\\t\\t\\t\\t
\\n\\t\\n\\t
\\n\\t\\t\\n
\\n
\\n\\n

\\xe8\\xaf\\xbe\\xe7\\xa8\\x8b\\xe7\\xae\\x80\\xe4\\xbb\\x8b

\\n\\n\\n\\n

Python\\xe7\\xa8\\x8b\\xe5\\xba\\x8f\\xe8\\xae\\xbe\\xe8\\xae\\xa1\\xe6\\x98\\xaf\\xe9\\x9d\\xa2\\xe5\\x90\\x91\\xe8\\xb4\\xa2\\xe7\\xbb\\x8f\\xe5\\x92\\x8c\\xe7\\xbb\\x9f\\xe8\\xae\\xa1\\xe4\\xb8\\x93\\xe4\\xb8\\x9a\\xe5\\xad\\xa6\\xe7\\x94\\x9f\\xe5\\xbc\\x80\\xe8\\xae\\xbe\\xe7\\x9a\\x84\\xe4\\xb8\\x80\\xe9\\x97\\xa8\\xe4\\xbb\\xa5\\xe5\\xba\\x94\\xe7\\x94\\xa8\\xe4\\xb8\\xba\\xe4\\xb8\\xbb\\xe7\\x9a\\x84\\xe7\\xbc\\x96\\xe7\\xa8\\x8b\\xe8\\xaf\\xbe\\xe7\\xa8\\x8b\\xef\\xbc\\x8c\\xe8\\xaf\\xa5\\xe8\\xaf\\xbe\\xe7\\xa8\\x8b\\xe6\\x9c\\x80\\xe6\\x97\\xa9\\xe7\\x94\\xb1\\xe6\\x9d\\x8e\\xe4\\xb8\\xb0\\xe8\\x80\\x81\\xe5\\xb8\\x88\\xe5\\x9c\\xa8\\xe4\\xb8\\xad\\xe5\\xa4\\xae\\xe8\\xb4\\xa2\\xe7\\xbb\\x8f\\xe5\\xa4\\xa7\\xe5\\xad\\xa6\\xe4\\xbb\\xa5\\xe5\\x85\\xac\\xe5\\xbc\\x80\\xe8\\xae\\xb2\\xe5\\xba\\xa7\\xe7\\x9a\\x84\\xe5\\xbd\\xa2\\xe5\\xbc\\x8f\\xe5\\xbc\\x80\\xe8\\xae\\xbe\\xef\\xbc\\x8c\\xe5\\x90\\x8e\\xe6\\x88\\x90\\xe4\\xb8\\xba\\xe4\\xb8\\xad\\xe5\\xa4\\xae\\xe8\\xb4\\xa2\\xe7\\xbb\\x8f\\xe5\\xa4\\xa7\\xe5\\xad\\xa6\\xe9\\x87\\x91\\xe8\\x9e\\x8d\\xe3\\x80\\x81\\xe4\\xbc\\x9a\\xe8\\xae\\xa1\\xe5\\x92\\x8cMBA\\xe9\\xa1\\xb9\\xe7\\x9b\\xae\\xe7\\x9a\\x84\\xe6\\xa0\\xb8\\xe5\\xbf\\x83\\xe8\\xaf\\xbe\\xe7\\xa8\\x8b\\xe3\\x80\\x82 \\xe6\\x9c\\xac\\xe8\\xaf\\xbe\\xe7\\xa8\\x8b\\xe5\\x88\\x86\\xe4\\xb8\\xba\\xe4\\xb8\\x89\\xe9\\x83\\xa8\\xe5\\x88\\x86\\xef\\xbc\\x8c\\xe7\\xac\\xac\\xe4\\xb8\\x80\\xe9\\x83\\xa8\\xe5\\x88\\x86\\xe4\\xb8\\xbaPython\\xe7\\xa8\\x8b\\xe5\\xba\\x8f\\xe8\\xae\\xbe\\xe8\\xae\\xa1\\xef\\xbc\\x8c\\xe7\\xac\\xac\\xe4\\xba\\x8c\\xe9\\x83\\xa8\\xe5\\x88\\x86\\xe4\\xb8\\xbaPython\\xe8\\xb4\\xa2\\xe7\\xbb\\x8f\\xe5\\xba\\x94\\xe7\\x94\\xa8\\xef\\xbc\\x8c\\xe7\\xac\\xac\\xe4\\xb8\\x89\\xe9\\x83\\xa8\\xe5\\x88\\x86\\xe4\\xb8\\xba\\xe5\\x9f\\xba\\xe4\\xba\\x8ePython\\xe7\\x9a\\x84\\xe8\\xb4\\xa2\\xe7\\xbb\\x8f\\xe6\\x95\\xb0\\xe6\\x8d\\xae\\xe6\\x8c\\x96\\xe6\\x8e\\x98\\xe3\\x80\\x82

\\n\\n\\n\\n

\\xe6\\x8e\\x88\\xe8\\xaf\\xbe\\xe6\\x95\\x99\\xe5\\xb8\\x88

\\n\\n\\n\\n
\\n
\\n

\\xe6\\x9d\\x8e\\xe4\\xb8\\xb0\\xe5\\x8d\\x9a\\xe5\\xa3\\xab\\xe7\\x8e\\xb0\\xe4\\xbb\\xbb\\xe4\\xb8\\xad\\xe5\\xa4\\xae\\xe8\\xb4\\xa2\\xe7\\xbb\\x8f\\xe5\\xa4\\xa7\\xe5\\xad\\xa6\\xe7\\xbb\\x9f\\xe8\\xae\\xa1\\xe4\\xb8\\x8e\\xe6\\x95\\xb0\\xe5\\xad\\xa6\\xe5\\xad\\xa6\\xe9\\x99\\xa2\\xe5\\x89\\xaf\\xe9\\x99\\xa2\\xe9\\x95\\xbf\\xe3\\x80\\x81\\xe5\\x89\\xaf\\xe6\\x95\\x99\\xe6\\x8e\\x88\\xe3\\x80\\x81\\xe7\\xa1\\x95\\xe5\\xa3\\xab\\xe7\\x94\\x9f\\xe5\\xaf\\xbc\\xe5\\xb8\\x88\\xe3\\x80\\x82\\xe5\\x8d\\x9a\\xe5\\xa3\\xab\\xe6\\xaf\\x95\\xe4\\xb8\\x9a\\xe4\\xba\\x8e\\xe7\\x91\\x9e\\xe5\\x85\\xb8\\xe6\\x96\\xaf\\xe5\\xbe\\xb7\\xe5\\x93\\xa5\\xe5\\xb0\\x94\\xe6\\x91\\xa9\\xe5\\xa4\\xa7\\xe5\\xad\\xa6\\xef\\xbc\\x8c\\xe7\\xa0\\x94\\xe7\\xa9\\xb6\\xe9\\xa2\\x86\\xe5\\x9f\\x9f\\xe5\\x8c\\x85\\xe6\\x8b\\xac\\xe8\\xb4\\x9d\\xe5\\x8f\\xb6\\xe6\\x96\\xaf\\xe7\\xbb\\x9f\\xe8\\xae\\xa1\\xe5\\xad\\xa6\\xef\\xbc\\x8c\\xe9\\xa2\\x84\\xe6\\xb5\\x8b\\xe6\\x96\\xb9\\xe6\\xb3\\x95\\xef\\xbc\\x8c\\xe5\\xa4\\xa7\\xe6\\x95\\xb0\\xe6\\x8d\\xae\\xe5\\x88\\x86\\xe5\\xb8\\x83\\xe5\\xbc\\x8f\\xe5\\xad\\xa6\\xe4\\xb9\\xa0\\xe7\\xad\\x89\\xe3\\x80\\x82\\xe6\\x9b\\xbe\\xe8\\x8e\\xb7\\xe7\\x91\\x9e\\xe5\\x85\\xb8\\xe7\\x9a\\x87\\xe5\\xae\\xb6\\xe7\\xbb\\x9f\\xe8\\xae\\xa1\\xe5\\xad\\xa6\\xe4\\xbc\\x9a Cram\\xc3\\xa9r \\xe5\\xa5\\x96\\xef\\xbc\\x8c\\xe5\\x9b\\xbd\\xe9\\x99\\x85\\xe8\\xb4\\x9d\\xe5\\x8f\\xb6\\xe6\\x96\\xaf\\xe5\\xad\\xa6\\xe4\\xbc\\x9a\\xe9\\x9d\\x92\\xe5\\xb9\\xb4\\xe5\\xa5\\x96\\xe5\\x8a\\xb1\\xe5\\x9f\\xba\\xe9\\x87\\x91\\xef\\xbc\\x8c \\xe7\\xac\\xac\\xe4\\xba\\x8c\\xe5\\xb1\\x8a\\xe5\\x85\\xa8\\xe5\\x9b\\xbd\\xe9\\xab\\x98\\xe6\\xa0\\xa1\\xe7\\xbb\\x8f\\xe7\\xae\\xa1\\xe7\\xb1\\xbb\\xe5\\xae\\x9e\\xe9\\xaa\\x8c\\xe6\\x95\\x99\\xe5\\xad\\xa6\\xe6\\xa1\\x88\\xe4\\xbe\\x8b\\xe5\\xa4\\xa7\\xe8\\xb5\\x9b\\xe4\\xba\\x8c\\xe7\\xad\\x89\\xe5\\xa5\\x96\\xe3\\x80\\x82\\xe4\\xb8\\xbb\\xe6\\x8c\\x81\\xe5\\x92\\x8c\\xe5\\x8f\\x82\\xe4\\xb8\\x8e\\xe5\\xa4\\x9a\\xe9\\xa1\\xb9\\xe5\\x9b\\xbd\\xe5\\xae\\xb6\\xe8\\x87\\xaa\\xe7\\x84\\xb6\\xe7\\xa7\\x91\\xe5\\xad\\xa6\\xe5\\x9f\\xba\\xe9\\x87\\x91\\xe9\\xa1\\xb9\\xe7\\x9b\\xae\\xe3\\x80\\x82

\\n\\n\\n\\n

\\xe6\\x9d\\x8e\\xe4\\xb8\\xb0\\xe5\\x8d\\x9a\\xe5\\xa3\\xab\\xe6\\x9c\\x80\\xe6\\x96\\xb0\\xe7\\xa0\\x94\\xe7\\xa9\\xb6\\xe6\\x88\\x90\\xe6\\x9e\\x9c\\xe5\\x8f\\x91\\xe8\\xa1\\xa8\\xe5\\x9c\\xa8\\xe7\\xbb\\x9f\\xe8\\xae\\xa1\\xe6\\x9c\\x9f\\xe5\\x88\\x8a\\xc2\\xa0Journal of Computational and Graphical Statistics\\xef\\xbc\\x8cJournal of Business and Economic Statistics, Statistical Analysis and Data Mining\\xef\\xbc\\x8c\\xe7\\xbb\\x8f\\xe6\\xb5\\x8e\\xe4\\xb8\\x8e\\xe7\\xae\\xa1\\xe7\\x90\\x86\\xe5\\xad\\xa6\\xe6\\x9c\\x9f\\xe5\\x88\\x8a\\xc2\\xa0International Journal of Forecasting\\xef\\xbc\\x8cJournal of Business Research\\xef\\xbc\\x8c\\xe8\\xbf\\x90\\xe7\\xad\\xb9\\xe5\\xad\\xa6\\xe6\\x9c\\x9f\\xe5\\x88\\x8aEuropean\\xc2\\xa0Journal\\xc2\\xa0of\\xc2\\xa0Operational Research, Journal of the Operational Research Society\\xef\\xbc\\x8c\\xe4\\xba\\xba\\xe5\\xb7\\xa5\\xe6\\x99\\xba\\xe8\\x83\\xbd\\xe6\\x9c\\x9f\\xe5\\x88\\x8a Expert Systems with Applications\\xef\\xbc\\x8c\\xe5\\x8c\\xbb\\xe5\\xad\\xa6\\xe6\\x9c\\x9f\\xe5\\x88\\x8a\\xc2\\xa0BMJ Open, Journal of Surgical Research, Journal of Affective Disorders\\xe7\\xad\\x89\\xe3\\x80\\x82\\xe5\\x90\\x8c\\xe6\\x97\\xb6\\xe8\\x91\\x97\\xe6\\x9c\\x89\\xc2\\xa0Bayesian Modeling of Conditional Densities\\xef\\xbc\\x8c\\xe3\\x80\\x8a\\xe5\\xa4\\xa7\\xe6\\x95\\xb0\\xe6\\x8d\\xae\\xe5\\x88\\x86\\xe5\\xb8\\x83\\xe5\\xbc\\x8f\\xe8\\xae\\xa1\\xe7\\xae\\x97\\xe4\\xb8\\x8e\\xe6\\xa1\\x88\\xe4\\xbe\\x8b\\xe3\\x80\\x8b\\xe5\\x92\\x8c\\xe3\\x80\\x8a\\xe7\\xbb\\x9f\\xe8\\xae\\xa1\\xe8\\xae\\xa1\\xe7\\xae\\x97\\xe3\\x80\\x8b\\xe3\\x80\\x82

\\n
\\n
\\n\\n\\n\\n

\\xe5\\x8f\\x82\\xe8\\x80\\x83\\xe4\\xb9\\xa6

\\n\\n\\n\\n

Python\\xe5\\x8f\\xaf\\xe4\\xbb\\xa5\\xe8\\xa2\\xab\\xe5\\xb9\\xbf\\xe6\\xb3\\x9b\\xe5\\x9c\\xb0\\xe4\\xbd\\xbf\\xe7\\x94\\xa8\\xe5\\x9c\\xa8\\xe8\\xb4\\xa2\\xe7\\xbb\\x8f\\xe9\\xa2\\x86\\xe5\\x9f\\x9f\\xef\\xbc\\x8c\\xe4\\xbb\\xa5\\xe4\\xb8\\x8b\\xe5\\x88\\x97\\xe5\\x87\\xba\\xe4\\xb8\\x80\\xe4\\xba\\x9b\\xe9\\x9b\\xb6\\xe5\\x9f\\xba\\xe7\\xa1\\x80\\xe4\\xb9\\xa6\\xe7\\x9b\\xae\\xe3\\x80\\x82

\\n\\n\\n\\n
\\xe7\\xb1\\xbb\\xe5\\x88\\xab\\xe4\\xb9\\xa6\\xe5\\x90\\x8d\\xe4\\xb8\\xad\\xe8\\xaf\\x91\\xe6\\x9c\\xac
\\xe6\\x95\\xb0\\xe6\\x8d\\xae\\xe5\\x88\\x86\\xe6\\x9e\\x90Python for Data Analysis
(by Wes McKinney)
\\xe5\\x88\\xa9\\xe7\\x94\\xa8Python\\xe8\\xbf\\x9b\\xe8\\xa1\\x8c\\xe6\\x95\\xb0\\xe6\\x8d\\xae\\xe5\\x88\\x86\\xe6\\x9e\\x90\\xef\\xbc\\x88\\xe5\\x8e\\x9f\\xe4\\xb9\\xa6\\xe7\\xac\\xac2\\xe7\\x89\\x88\\xef\\xbc\\x89
\\xe6\\x95\\xb0\\xe6\\x8d\\xae\\xe6\\x8a\\x93\\xe5\\x8f\\x96Web Scraping with Python: Collecting More Data from the Modern Web
(by Ryan Mitchell)
Python\\xe7\\xbd\\x91\\xe7\\xbb\\x9c\\xe7\\x88\\xac\\xe8\\x99\\xab\\xe6\\x9d\\x83\\xe5\\xa8\\x81\\xe6\\x8c\\x87\\xe5\\x8d\\x97 \\xe7\\xac\\xac\\xe4\\xba\\x8c2\\xe7\\x89\\x88
\\xe9\\x87\\x91\\xe8\\x9e\\x8d\\xe5\\x88\\x86\\xe6\\x9e\\x90Python for Finance: Mastering Data-Driven Finance
(by Yves Hilpisch)
Python\\xe9\\x87\\x91\\xe8\\x9e\\x8d\\xe5\\xa4\\xa7\\xe6\\x95\\xb0\\xe6\\x8d\\xae\\xe5\\x88\\x86\\xe6\\x9e\\x90 \\xe7\\xac\\xac2\\xe7\\x89\\x88
\\xe4\\xbc\\x9a\\xe8\\xae\\xa1\\xe5\\x88\\x86\\xe6\\x9e\\x90Python for Accounting: A Modern Guide to Using Python Programming in Accounting
(by Horatio Bota)
\\xe6\\x9a\\x82\\xe6\\x97\\xa0
\\n\\n\\n\\n

\\xe8\\xae\\xb2\\xe8\\xaf\\xbe\\xe8\\xa7\\x86\\xe9\\xa2\\x91

\\n\\n\\n\\n\\n\\n\\n\\n

\\xe7\\xac\\xac\\xe4\\xb8\\x80\\xe9\\x83\\xa8\\xe5\\x88\\x86\\xef\\xbc\\x9aPython\\xe7\\xa8\\x8b\\xe5\\xba\\x8f\\xe8\\xae\\xbe\\xe8\\xae\\xa1

\\n\\n\\n\\n\\n\\n\\n\\n
Jupyter Notebook (\\xe9\\xbc\\xa0\\xe6\\xa0\\x87\\xe5\\x8f\\xb3\\xe9\\x94\\xae\\xe7\\x82\\xb9\\xe5\\x87\\xbb\\xe5\\x8f\\xa6\\xe5\\xad\\x98\\xe4\\xb8\\xba\\xe4\\xb8\\x8b\\xe8\\xbd\\xbd)Slides and
Teaching videos (CN)
MBA
program
Statistics, Finance
and accounting programs
L01.1: Introduction to Python for Economists and StatisticiansSlides\\xe2\\x9c\\x93\\xe2\\x9c\\x93
L01.2: Python from ScratchSlides\\xe2\\x9c\\x93\\xe2\\x9c\\x93
L01.3: Python Functions and ModulesSlides\\xe2\\x9c\\x93\\xe2\\x9c\\x93
L02.1: Python Builtin Data StructuresSlides\\xe2\\x9c\\x93\\xe2\\x9c\\x93
L02.2: Data Wrangling with PandasSlides Video1 Video2 Video3\\xe2\\x9c\\x93\\xe2\\x9c\\x93
L02.3: Manipulating DataFrames with PandasSlides Video\\xe2\\x9c\\x93\\xe2\\x9c\\x93
L03.1: Pandas Data VisualizationSlides Video1 Video2\\xe2\\x9c\\x93\\xe2\\x9c\\x93
L03.2: Statistical Data VisualizationSlides Video1 Video2\\xe2\\x9c\\x93\\xe2\\x9c\\x93
L03.3: Interactive Data VisualizationSlides Video\\xe2\\x9c\\x93\\xe2\\x9c\\x93
L04.1: Reading and Cleaning Excel FilesSlides\\xe2\\x9c\\x93
L04.2: Groups and pivot tables with PandasSlides\\xe2\\x9c\\x93
L04.3: Strings and Custom Functions in PandasSlides\\xe2\\x9c\\x93
L05.1: Fundamental Modules for Statistical ModellingSlides Video1 Video2\\xe2\\x9c\\x93
L05.2: Python for Statistical ModellingSlides Video1 Video2 Video3 Video4\\xe2\\x9c\\x93
\\n\\n\\n\\n

\\xe7\\xac\\xac\\xe4\\xba\\x8c\\xe9\\x83\\xa8\\xe5\\x88\\x86\\xef\\xbc\\x9aPython\\xe8\\xb4\\xa2\\xe7\\xbb\\x8f\\xe5\\xba\\x94\\xe7\\x94\\xa8

\\n\\n\\n\\n\\n\\n\\n\\n
Jupyter Notebook (\\xe9\\xbc\\xa0\\xe6\\xa0\\x87\\xe5\\x8f\\xb3\\xe9\\x94\\xae\\xe7\\x82\\xb9\\xe5\\x87\\xbb\\xe5\\x8f\\xa6\\xe5\\xad\\x98\\xe4\\xb8\\xba\\xe4\\xb8\\x8b\\xe8\\xbd\\xbd)Slides and
Teaching videos (CN)
MBA
program
Statistics, Finance
and accounting
programs
L06.1: Python and TextsSlides Video\\xe2\\x9c\\x93
L06.2: Natural Language Processing with PythonSlides Video1 Video2\\xe2\\x9c\\x93
L06.3: Text Feature ExtractionSlides Video\\xe2\\x9c\\x93
L06.4: Chinese Text ProcessingSlides Video\\xe2\\x9c\\x93
L07.1: Web Scraping with PythonSlides Video\\xe2\\x9c\\x93\\xe2\\x9c\\x93
L07.2: Interactive Scraping with SeleniumSlides Video\\xe2\\x9c\\x93\\xe2\\x9c\\x93
L08.1: Probabilistic Topic ModellingSlides Video\\xe2\\x9c\\x93
L08.2: Automated ARIMA forecasting with PythonSlides Video\\xe2\\x9c\\x93\\xe2\\x9c\\x93
\\n\\n\\n\\n

\\xe7\\xac\\xac\\xe4\\xb8\\x89\\xe9\\x83\\xa8\\xe5\\x88\\x86\\xef\\xbc\\x9a\\xe8\\xb4\\xa2\\xe7\\xbb\\x8f\\xe6\\x95\\xb0\\xe6\\x8d\\xae\\xe6\\x8c\\x96\\xe6\\x8e\\x98

\\n\\n\\n\\n\\n\\n\\n\\n
Jupyter Notebook (\\xe9\\xbc\\xa0\\xe6\\xa0\\x87\\xe5\\x8f\\xb3\\xe9\\x94\\xae\\xe7\\x82\\xb9\\xe5\\x87\\xbb\\xe5\\x8f\\xa6\\xe5\\xad\\x98\\xe4\\xb8\\xba\\xe4\\xb8\\x8b\\xe8\\xbd\\xbd)SlidesTeaching videos (CN)
L01: Time Series Data Mining IntroductionSlides1, 2, 3
L02: Time Series Decomposition MethodsSlides1, 2
L03.1: Time Series Forecasting with ARIMASlides1
L03.2: Model Selection and Seasonal ARIMASlides
L04: Forecasting Combinations and Forecasting UncertaintySlides
L05: Time Series Anomaly DetectionsSlides1
L06: Time Series forecasting at scaleSlides1
\\n
\\n
\\n\\n\\n\\n

\\n\\t
\\n\\n\\t
\\n\\t\\t\\t
\\n\\t\\t
\\n\\t
\\n\\n\\t\\n\\t\\n\\n
\\n\\n\\t\\t\\n\\n\\t\\t\\t\\n\\t\\n\\n\\n\\n\\n\\n\\t\\t\\n\\t\\t\\n\\n\\n'\n" ] } ], "source": [ "from urllib.request import urlopen\n", "html = urlopen('https://feng.li/python/')\n", "print(html.read()) # does not look nice for human eyes." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "The above doesn’t look so great. Below is better." ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "scrolled": true, "slideshow": { "slide_type": "slide" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "\n", "\n", "\n", "\n", "\n", "Python程序设计与财经数据挖掘 – Dr. Feng Li\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "
\n", "Skip to content\n", "
\n", "
\n", "

Dr. Feng Li

\n", "

\n", "\t\t\t{ computing, forecasting and learning with massive machines }\t\t

\n", "
\n", "\n", "
\n", "
\n", "
\n", "
\n", "
\n", "
\n", "

Python程序设计与财经数据挖掘

\n", "
\n", "
\n", "
\n", "\n", "

课程简介

\n", "

Python程序设计是面向财经和统计专业学生开设的一门以应用为主的编程课程,该课程最早由李丰老师在中央财经大学以公开讲座的形式开设,后成为中央财经大学金融、会计和MBA项目的核心课程。 本课程分为三部分,第一部分为Python程序设计,第二部分为Python财经应用,第三部分为基于Python的财经数据挖掘。

\n", "

授课教师

\n", "
\n", "
\n", "

李丰博士现任中央财经大学统计与数学学院副院长、副教授、硕士生导师。博士毕业于瑞典斯德哥尔摩大学,研究领域包括贝叶斯统计学,预测方法,大数据分布式学习等。曾获瑞典皇家统计学会 Cramér 奖,国际贝叶斯学会青年奖励基金, 第二届全国高校经管类实验教学案例大赛二等奖。主持和参与多项国家自然科学基金项目。

\n", "

李丰博士最新研究成果发表在统计期刊 Journal of Computational and Graphical Statistics,Journal of Business and Economic Statistics, Statistical Analysis and Data Mining,经济与管理学期刊 International Journal of Forecasting,Journal of Business Research,运筹学期刊European Journal of Operational Research, Journal of the Operational Research Society,人工智能期刊 Expert Systems with Applications,医学期刊 BMJ Open, Journal of Surgical Research, Journal of Affective Disorders等。同时著有 Bayesian Modeling of Conditional Densities,《大数据分布式计算与案例》和《统计计算》。

\n", "
\n", "
\n", "

参考书

\n", "

Python可以被广泛地使用在财经领域,以下列出一些零基础书目。

\n", "
类别书名中译本
数据分析Python for Data Analysis
(by Wes McKinney)
利用Python进行数据分析(原书第2版)
数据抓取Web Scraping with Python: Collecting More Data from the Modern Web
(by Ryan Mitchell)
Python网络爬虫权威指南 第二2版
金融分析Python for Finance: Mastering Data-Driven Finance
(by Yves Hilpisch)
Python金融大数据分析 第2版
会计分析Python for Accounting: A Modern Guide to Using Python Programming in Accounting
(by Horatio Bota)
暂无
\n", "

讲课视频

\n", "\n", "

第一部分:Python程序设计

\n", "\n", "
Jupyter Notebook (鼠标右键点击另存为下载)Slides and
Teaching videos (CN)
MBA
program
Statistics, Finance
and accounting programs
L01.1: Introduction to Python for Economists and StatisticiansSlides
L01.2: Python from ScratchSlides
L01.3: Python Functions and ModulesSlides
L02.1: Python Builtin Data StructuresSlides
L02.2: Data Wrangling with PandasSlides Video1 Video2 Video3
L02.3: Manipulating DataFrames with PandasSlides Video
L03.1: Pandas Data VisualizationSlides Video1 Video2
L03.2: Statistical Data VisualizationSlides Video1 Video2
L03.3: Interactive Data VisualizationSlides Video
L04.1: Reading and Cleaning Excel FilesSlides
L04.2: Groups and pivot tables with PandasSlides
L04.3: Strings and Custom Functions in PandasSlides
L05.1: Fundamental Modules for Statistical ModellingSlides Video1 Video2
L05.2: Python for Statistical ModellingSlides Video1 Video2 Video3 Video4
\n", "

第二部分:Python财经应用

\n", "\n", "
Jupyter Notebook (鼠标右键点击另存为下载)Slides and
Teaching videos (CN)
MBA
program
Statistics, Finance
and accounting
programs
L06.1: Python and TextsSlides Video
L06.2: Natural Language Processing with PythonSlides Video1 Video2
L06.3: Text Feature ExtractionSlides Video
L06.4: Chinese Text ProcessingSlides Video
L07.1: Web Scraping with PythonSlides Video
L07.2: Interactive Scraping with SeleniumSlides Video
L08.1: Probabilistic Topic ModellingSlides Video
L08.2: Automated ARIMA forecasting with PythonSlides Video
\n", "

第三部分:财经数据挖掘

\n", "\n", "
Jupyter Notebook (鼠标右键点击另存为下载)SlidesTeaching videos (CN)
L01: Time Series Data Mining IntroductionSlides1, 2, 3
L02: Time Series Decomposition MethodsSlides1, 2
L03.1: Time Series Forecasting with ARIMASlides1
L03.2: Model Selection and Seasonal ARIMASlides
L04: Forecasting Combinations and Forecasting UncertaintySlides
L05: Time Series Anomaly DetectionsSlides1
L06: Time Series forecasting at scaleSlides1
\n", "
\n", "
\n", "

\n", "
\n", "
\n", "
\n", "
\n", "
\n", "\n", "
\n", " \n", " \n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n" ] } ], "source": [ "from urllib.request import urlopen\n", "from bs4 import BeautifulSoup\n", "\n", "html = urlopen('https://feng.li/python/')\n", "bs = BeautifulSoup(html.read(), 'html.parser')\n", "print(bs)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## The complete case" ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "scrolled": false, "slideshow": { "slide_type": "slide" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "\n", "\n", "Contents1 课程简介2 授课教师3 参考书4 讲课视频5 第一部分:Python程序设计6 第二部分:Python财经应用7 第三部分:财经数据挖掘\n", "课程简介\n", "Python程序设计是面向财经和统计专业学生开设的一门以应用为主的编程课程,该课程最早由李丰老师在中央财经大学以公开讲座的形式开设,后成为中央财经大学金融、会计和MBA项目的核心课程。 本课程分为三部分,第一部分为Python程序设计,第二部分为Python财经应用,第三部分为基于Python的财经数据挖掘。\n", "授课教师\n", "\n", "\n", "李丰博士现任中央财经大学统计与数学学院副院长、副教授、硕士生导师。博士毕业于瑞典斯德哥尔摩大学,研究领域包括贝叶斯统计学,预测方法,大数据分布式学习等。曾获瑞典皇家统计学会 Cramér 奖,国际贝叶斯学会青年奖励基金, 第二届全国高校经管类实验教学案例大赛二等奖。主持和参与多项国家自然科学基金项目。\n", "李丰博士最新研究成果发表在统计期刊 Journal of Computational and Graphical Statistics,Journal of Business and Economic Statistics, Statistical Analysis and Data Mining,经济与管理学期刊 International Journal of Forecasting,Journal of Business Research,运筹学期刊European Journal of Operational Research, Journal of the Operational Research Society,人工智能期刊 Expert Systems with Applications,医学期刊 BMJ Open, Journal of Surgical Research, Journal of Affective Disorders等。同时著有 Bayesian Modeling of Conditional Densities,《大数据分布式计算与案例》和《统计计算》。\n", "\n", "\n", "参考书\n", "Python可以被广泛地使用在财经领域,以下列出一些零基础书目。\n", "类别书名中译本数据分析Python for Data Analysis (by Wes McKinney)利用Python进行数据分析(原书第2版)数据抓取Web Scraping with Python: Collecting More Data from the Modern Web (by Ryan Mitchell)Python网络爬虫权威指南 第二2版金融分析Python for Finance: Mastering Data-Driven Finance (by Yves Hilpisch)Python金融大数据分析 第2版会计分析Python for Accounting: A Modern Guide to Using Python Programming in Accounting(by Horatio Bota)暂无\n", "讲课视频\n", "本课程的部分早期录制视频(不完全与上课讲义对应)可以从李丰老师的哔哩哔哩主页看到,感兴趣的同学可以点击链接请自行观看。\n", "第一部分:Python程序设计\n", "点击这里打包下载全部幻灯片和示例数据 | GitHub\n", "Jupyter Notebook (鼠标右键点击另存为下载)Slides and Teaching videos (CN)MBAprogramStatistics, Finance and accounting programsL01.1: Introduction to Python for Economists and StatisticiansSlides✓✓L01.2: Python from ScratchSlides✓✓L01.3: Python Functions and ModulesSlides✓✓L02.1: Python Builtin Data StructuresSlides✓✓L02.2: Data Wrangling with PandasSlides Video1 Video2 Video3✓✓L02.3: Manipulating DataFrames with PandasSlides Video✓✓L03.1: Pandas Data VisualizationSlides Video1 Video2✓✓L03.2: Statistical Data VisualizationSlides Video1 Video2✓✓L03.3: Interactive Data VisualizationSlides Video✓✓L04.1: Reading and Cleaning Excel FilesSlides✓L04.2: Groups and pivot tables with PandasSlides✓L04.3: Strings and Custom Functions in PandasSlides✓L05.1: Fundamental Modules for Statistical ModellingSlides Video1 Video2✓L05.2: Python for Statistical ModellingSlides Video1 Video2 Video3 Video4✓\n", "第二部分:Python财经应用\n", "点击这里打包下载全部幻灯片和示例数据 | GitHub\n", "Jupyter Notebook (鼠标右键点击另存为下载)Slides and Teaching videos (CN)MBAprogramStatistics, Finance and accountingprogramsL06.1: Python and TextsSlides Video✓L06.2: Natural Language Processing with PythonSlides Video1 Video2✓L06.3: Text Feature ExtractionSlides Video✓L06.4: Chinese Text ProcessingSlides Video✓L07.1: Web Scraping with PythonSlides Video✓✓L07.2: Interactive Scraping with SeleniumSlides Video✓✓L08.1: Probabilistic Topic ModellingSlides Video✓L08.2: Automated ARIMA forecasting with PythonSlides Video✓✓\n", "第三部分:财经数据挖掘\n", "点击这里打包下载全部幻灯片和示例数据 | GitHub\n", "Jupyter Notebook (鼠标右键点击另存为下载)SlidesTeaching videos (CN)L01: Time Series Data Mining IntroductionSlides1, 2, 3 L02: Time Series Decomposition MethodsSlides1, 2 L03.1: Time Series Forecasting with ARIMASlides1L03.2: Model Selection and Seasonal ARIMASlidesL04: Forecasting Combinations and Forecasting UncertaintySlidesL05: Time Series Anomaly DetectionsSlides1L06: Time Series forecasting at scaleSlides1\n", "\n", "\n", "\n", "\n" ] } ], "source": [ "from urllib.request import urlopen\n", "from bs4 import BeautifulSoup\n", "\n", "html = urlopen('https://feng.li/python/')\n", "bs = BeautifulSoup(html.read(), 'html.parser')\n", "nameList = bs.findAll('div', {'class': 'entry-content'})\n", "for name in nameList:\n", " print(name.get_text())" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## Web Scraping with `BeautifulSoup`" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "Let's start with this page\n", "\n", "https://finance.eastmoney.com/a/cgnjj_1.html" ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "slideshow": { "slide_type": "slide" } }, "outputs": [], "source": [ "import logging\n", "import requests\n", "import sys\n", "import urllib\n", "\n", "from bs4 import BeautifulSoup\n", "from collections import OrderedDict\n", "from urllib.parse import urlencode\n", "\n", "page = 1 # We try for one page\n", "\n", "# Set a User agent to tell the remote we are human not machines\n", "headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:93.0) Gecko/20100101 Firefox/93.0'}\n", "\n", "href = 'https://finance.eastmoney.com/a/cgnjj_%s.html' %page\n", "html = requests.get(href, headers=headers)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "Notes:\n", "\n", "- Add a header may convince the server to think this connect is made by human not an attack.\n", "- You could visit https://ifconfig.me/ to quickly find your browser's user agent." ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "slideshow": { "slide_type": "slide" } }, "outputs": [ { "data": { "text/plain": [ "{'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:93.0) Gecko/20100101 Firefox/93.0', 'Accept-Encoding': 'gzip, deflate, br', 'Accept': '*/*', 'Connection': 'keep-alive'}" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Check the request headers\n", "html.request.headers" ] }, { "cell_type": "code", "execution_count": 6, "metadata": { "slideshow": { "slide_type": "fragment" } }, "outputs": [ { "data": { "text/plain": [ "200" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Check the html status\n", "html.status_code" ] }, { "cell_type": "code", "execution_count": 7, "metadata": { "scrolled": true, "slideshow": { "slide_type": "slide" } }, "outputs": [ { "data": { "text/plain": [ "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "国内经济 _ 东方财富网\n", "\n", "\n", "\n", "\n", "\n", "
\n", "\n", "
\n", "\n", "
\n", "\n", "
\n", "\n", "
\n", "\n", "\n", "\n", "
\n", "\n", "
\n", "
\n", "\n", " \n", "
\n", "
\n", "\n", " \n", "
\n", "
\n", "\n", " \n", "
\n", "
\n", "\n", "
\n", "\n", "
\n", "
\n", "
\n", "\n", "\"\"\n", "\n", "\n", "\n", "\"\"\n", "\n", "\n", "
\n", "
\n", "
\n", "
\n", "\n", "\n", "
\n", "
\n", "
\n", "
\n", "
\n", "
\n", "
\n", "\n", "
\n", "
\n", "财经日历\n", "
\n", "\n", "
\n", "财经聚焦\n", "
\n", "\n", "
\n", "财经评论\n", "
\n", "\n", "
\n", "财经导读\n", "
\n", "\n", "
\n", "产经新闻\n", "
\n", "\n", "
\n", "国内经济\n", "
\n", "\n", "
\n", "国际经济\n", "
\n", "\n", "
\n", "证券聚焦\n", "
\n", "\n", "
\n", "上市公司\n", "
\n", "\n", "
\n", "纵深调查\n", "
\n", "
\n", "
\n", "
\n", "
\n", "\n", "
\n", "\n", "
\n", "
\n", "
\n", "
国内经济
\n", "\n", "
\n", "首页\n", " \n", " >\n", " 财经频道\n", " >\n", " 国内经济\n", " >\n", " 列表\n", "
\n", "
\n", "
\n", "
    \n", "
\n", "
\n", "
\n", "
\n", "
\n", "
\n", "
\n", "\n", "
\n", "
\n", "
\n", "

行情中心

\n", "
\n", "刷新\n", "|\n", "更多\n", "
\n", "
\n", "
\n", "
\n", "
\n", "
沪深
\n", "
香港
\n", "
欧美
\n", "
基金
\n", "
期货
\n", "
外汇
\n", "
\n", "
\n", "
\n", "
\n", "
\n", "
沪A
\n", "
|
\n", "
深A
\n", "
|
\n", "
创业板
\n", "
|
\n", "
300
\n", "
|
\n", "
东方财富
\n", "
\n", "
\n", "\n", "
\n", "
    \n", "\n", "
\n", "
\n", "
\n", "
\n", "
恒生
\n", "
|
\n", "
红筹
\n", "
|
\n", "
国企
\n", "
|
\n", "
创业板
\n", "
\n", "
\n", "
    \n", "
    \n", "
    \n", "
    \n", "
    道琼斯
    \n", "
    |
    \n", "
    纳斯达克
    \n", "
    |
    \n", "
    英国FT
    \n", "
    \n", "
    \n", "
      \n", "
      \n", "
      \n", "
      \n", "
      沪基
      \n", "
      |
      \n", "
      深基
      \n", "
      \n", "
      \n", "
        \n", "
        \n", "
        \n", "
        \n", "
        股指期货
        \n", "
        |
        \n", "
        国债期货
        \n", "
        |
        \n", "
        美原油
        \n", "
        |
        \n", "
        美黄金
        \n", "
        \n", "
        \n", "
          \n", "
          \n", "
          \n", "
          \n", "
          美元
          \n", "
          |
          \n", "
          欧元
          \n", "
          |
          \n", "
          英镑
          \n", "
          |
          \n", "
          日元
          \n", "
          |
          \n", "
          人民币
          \n", "
          \n", "
          \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "\n", "
            \n", "\n", "\n", "
            \n", "
            \n", "
            \n", "
            \n", "财经视频\n", "
            \n", "
            \n", "更多\n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
              \n", "
            • \"把握2023年成长机会
            • \"资本市场曙光乍现
            • \"2023中国储能增速最快
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "\n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "专题\n", "
            \n", "
            \n", "更多\n", "
            \n", "
            \n", "
            \n", "
            \n", "\n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "评论精华\n", "
            \n", "
            \n", "更多\n", "
            \n", "
            \n", "
            \n", "
            \n", "\n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "资讯精华\n", "
            \n", "
            \n", "更多\n", "
            \n", "
            \n", "
            \n", "
            \n", "\n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            郑重声明:东方财富网发布此信息的目的在于传播更多信息,与本站立场无关。东方财富网不保证该信息(包含但不限于文字、视频、音频、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资建议,据此操作,风险自担。
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "\n", "\n", "\n", "
            \n", "
            \n", "
            \n", "\n", "
            扫一扫下载APP\n", "
            \n", "
            \n", "
            东方财富产品
            \n", "\n", "
            \n", "
            \n", "
            证券交易
            \n", "\n", "
            \n", "
            \n", "
            关注东方财富
            \n", "\n", "
            \n", "
            \n", "\n", "
            扫一扫下载APP\n", "
            \n", "
            \n", "
            基金交易
            \n", "\n", "
            \n", "
            \n", "
            关注天天基金
            \n", "\n", "
            \n", "
            \n", "\n", "
            扫一扫下载APP\n", "
            \n", "
            \n", "
            期货交易
            \n", "\n", "
            \n", "
            \n", "
            信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
            \n", "
            \n", "沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500\n", "
            \n", "
            \n", "关于我们\n", "广告服务\n", "联系我们\n", "诚聘英才\n", "免责声明\n", "法律声明\n", "隐私保护\n", "征稿启事\n", "放心搜\n", "友情链接\n", "
            \n", "
            \n", "\n", "\n", "\n", "\n", "\n", "
            \n", "
            \n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Parsing html\n", "soup = BeautifulSoup(html.content, 'html.parser')\n", "soup" ] }, { "cell_type": "code", "execution_count": 8, "metadata": { "scrolled": false, "slideshow": { "slide_type": "slide" } }, "outputs": [ { "data": { "text/plain": [ "[
            \n", " 思勰投资总经理吴家麒:2023年股票和期货投资展望\n", "
            ,\n", "
            \n", " 中信证券:成飞拟被注入中航电测 国企混改登上新高峰\n", "
            ,\n", "
            \n", " 光大证券:12月对公中长期贷款为何实现了高增?\n", "
            ,\n", "
            \n", " 中信建投:创新药行业迎来多重拐点 看好头部创新药公司(名单)\n", "
            ,\n", "
            \n", " 国泰君安:下游需求高增长 芳纶涂覆隔膜打开空间\n", "
            ,\n", "
            \n", " A股三大指数缩量震荡 北向资金净买入近百亿元\n", "
            ,\n", "
            \n", " 华尔街开年最重要一天:今晚美国CPI可能惊现环比负增长?\n", "
            ,\n", "
            \n", " 工信部力挺5G和千兆光网建设 业绩猛增的概念股来了\n", "
            ,\n", "
            \n", " 上海警方通报王某某等打人被行政处罚 权威人士:王某某系王思聪\n", "
            ,\n", "
            \n", " 中汽协:若一季度汽车销量下滑较严重 相关部门会考虑相关政策的延续\n", "
            ]" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Note that some parts of the page is much difficult to scrap becasue the source code is hidden. \n", "# The cotents may change from time to time\n", "# Let's start with some simple one. The below code works on Jan 12, 2023\n", "\n", "divs = soup.findAll('div', {\"class\": \"title\"}) # 评论精华 板块 \n", "divs" ] }, { "cell_type": "code", "execution_count": 9, "metadata": { "slideshow": { "slide_type": "slide" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "['思勰投资总经理吴家麒:2023年股票和期货投资展望', 'http://finance.eastmoney.com/a/202301122612004230.html']\n", "['中信证券:成飞拟被注入中航电测 国企混改登上新高峰', 'http://finance.eastmoney.com/a/202301122611528897.html']\n", "['光大证券:12月对公中长期贷款为何实现了高增?', 'http://finance.eastmoney.com/a/202301122611518334.html']\n", "['中信建投:创新药行业迎来多重拐点 看好头部创新药公司(名单)', 'http://hk.eastmoney.com/a/202301122611513618.html']\n", "['国泰君安:下游需求高增长 芳纶涂覆隔膜打开空间', 'http://finance.eastmoney.com/a/202301122611319281.html']\n", "['A股三大指数缩量震荡 北向资金净买入近百亿元', 'http://finance.eastmoney.com/a/202301122612023768.html']\n", "['华尔街开年最重要一天:今晚美国CPI可能惊现环比负增长?', 'http://futures.eastmoney.com/a/202301122611958758.html']\n", "['工信部力挺5G和千兆光网建设 业绩猛增的概念股来了', 'http://finance.eastmoney.com/a/202301122611942169.html']\n", "['上海警方通报王某某等打人被行政处罚 权威人士:王某某系王思聪', 'http://finance.eastmoney.com/a/202301122612024096.html']\n", "['中汽协:若一季度汽车销量下滑较严重 相关部门会考虑相关政策的延续', 'http://finance.eastmoney.com/a/202301122612039557.html']\n" ] } ], "source": [ "# Let's make a loop and save all infomation into a csv file.\n", "# We use a different delimiter \"\\001\" instead of commonly used (,;) ones.\n", "\n", "import csv\n", "newsData = open(\"data/topCommentedNews.csv\", 'w')\n", "csv_writer = csv.writer(newsData, delimiter=\"\\001\")\n", "for div in divs:\n", " # News title\n", " titleinfo = div.find('a')\n", " title = titleinfo.get_text().strip()\n", " # News url\n", " url = titleinfo['href']\n", " \n", " print([title, url])\n", " csv_writer.writerow([title, url])\n", "newsData.close()" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "- Let's get the full information from one of the above urls" ] }, { "cell_type": "code", "execution_count": 10, "metadata": { "slideshow": { "slide_type": "fragment" } }, "outputs": [], "source": [ "headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:93.0) Gecko/20100101 Firefox/93.0'}\n", "html = requests.get(url, headers=headers)\n", "soup = BeautifulSoup(html.content, 'html.parser')" ] }, { "cell_type": "code", "execution_count": 11, "metadata": { "scrolled": true, "slideshow": { "slide_type": "slide" } }, "outputs": [ { "data": { "text/plain": [ "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "中汽协:若一季度汽车销量下滑较严重 相关部门会考虑相关政策的延续 _ 东方财富网\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "
            \n", "\n", "
            \n", "\n", "
            \n", "\n", "
            \n", "\n", "\n", "\n", "\n", "\n", "
            \n", "
            \n", "
            \n", "\n", "行情中心\n", "
            \n", "
            \n", "指数\n", "期指\n", "期权\n", "个股\n", "板块\n", "排行\n", "新股\n", "基金\n", "港股\n", "美股\n", "期货\n", "外汇\n", "黄金\n", "自选股\n", "自选基金\n", "
            \n", "
            \n", "
            \n", "\n", "\n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "\n", "数据中心\n", "
            \n", "\n", "
            \n", "
            \n", "\n", "
            \n", "\n", "
            \n", "首页 >\n", " 财经频道 >\n", " 正文\n", "
            \n", "
            \n", "
            \n", "\n", "
            \n", "
            \n", "\n", "
            \n", "
            \n", "
            中汽协:若一季度汽车销量下滑较严重 相关部门会考虑相关政策的延续
            \n", "
            \n", "
            \n", "
            \n", "
            2023年01月12日 15:20
            \n", "
            \n", " 作者:\n", "徐昊
            \n", "
            \n", " 来源:\n", "财联社
            \n", "\n", "
            \n", "136人评论\n", "
            \n", "
            \n", "
            \n", "
            \n", "\n", "
            \n", "
            \n", "\n", "\n", "\n", "
            \n", "
            \n", "\n", "
            \n", "
            \n", "\n", "\n", "
            \n", "
            \n", "\n", "\n", "
            \n", "
            \n", "\n", "\n", "\n", "\n", "
            \n", "\n", "
            \n", "\n", "\n", "
            \n", "\n", "
            \n", "
            \n", "
            \n", "
            \n", "\n", "
            \n", "
            \n", "
            \n", "\n", "
            \n", "
            东方财富APP
            \n", "
            \n", "\n", "
            \n", "

            方便,快捷

            \n", "

            手机查看财经快讯

            \n", "

            专业,丰富

            \n", "

            一手掌握市场脉搏

            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            手机上阅读文章
            \n", "
            \n", "\n", "
            \n", "

            提示:

            \n", "

            微信扫一扫

            \n", "

            分享到您的

            \n", "

            朋友圈

            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "\n", "
            \n", "\n", "
            \n", "\n", "
            \n", "
            摘要
            \n", "
            \n", " 【中汽协:若一季度汽车销量下滑较严重 相关部门会考虑相关政策的延续】中汽协副秘书长陈士华今日表示,燃油车购置税减半政策在去年6月份出台以来,对汽车市场的促进作用非常大,行业呼吁购置税减半政策能够在2023年延续。中国汽车工业协会副总工程师许海东则表示,如果一季度汽车销量下滑比较严重,相关部门会考虑政策的延续。\n", "
            \n", "
            \n", "
            \n", "
            \n", "\n", "
            \n", "\n", "\n", "

              中汽协副秘书长陈士华今日表示,燃油车购置税减半政策在去年6月份出台以来,对汽车市场的促进作用非常大,行业呼吁购置税减半政策能够在2023年延续。中国汽车工业协会副总工程师许海东则表示,如果一季度汽车销量下滑比较严重,相关部门会考虑政策的延续。

              相关报道

              2022年汽车销量同比增长2.1% 预计今年一季度终端市场压力较大

              中国汽车工业协会12日最新数据显示,2022年12月,汽车产量环比微降,销量小幅增长,同比均呈现下降。当月,汽车产销分别达到238.3万辆和255.6万辆,产量环比下降0.3%,销量环比增长9.7%,同比分别下降18.2%和8.4%。2022年,汽车产销分别完成2702.1万辆和2686.4万辆,同比增长3.4%和2.1%,全年实现小幅增长。

              中汽协副秘书长陈士华就12月销量情况分析称,随着疫情防控优化调整,燃油车购置税减半政策和新能源汽车补贴政策年底退出,厂商优惠幅度加大,叠加春节假期临近,12月终端市场“翘尾现象”明显。由于12月的回补效应,提前透支了部分需求,预计一季度终端市场压力较大,销量可能会出现明显下降。

              对此,他表示,为进一步激发市场主体和消费活力,呼吁能够继续出台购置税减半等促汽车消费政策,助力汽车产业稳定增长。

              总结全年发展,陈士华表示,2022年,尽管受疫情散发频发、芯片结构性短缺、动力电池原材料价格高位运行、局部地缘政治冲突等诸多不利因素冲击,但在购置税减半等一系列稳增长、促消费政策的有效拉动下,在全行业企业共同努力下,中国汽车市场在逆境下整体复苏向好,实现正增长,展现出强大的发展韧性。

              具体来看,乘用车在稳增长、促消费等政策拉动下,实现较快增长,为全年小幅增长贡献重要力量;商用车处于叠加因素的运行低位;新能源汽车持续爆发式增长,全年销量超680万辆,市场占有率提升至25.6%,逐步进入全面市场化拓展期,迎来新的发展和增长阶段;汽车出口继续保持较高水平,屡创月度历史新高,自8月份以来月均出口量超过30万辆,全年出口突破300万辆,有效拉动行业整体增长;中国品牌表现亮眼,紧抓新能源、智能网联转型机遇全面向上,产品竞争力不断提升,其中乘用车市场份额接近50%,为近年新高。

              具体数据显示,2022年12月,乘用车产销分别完成212.5万辆和226.5万辆,产量环比下降1.4%,销量环比增长9%,同比分别下降16.1%和6.7%。在乘用车主要品种中,与上月相比,除运动型多用途乘用车(SUV)产量下降、销量增长,其他三大类车型产销均呈不同程度增长;与上年同期相比,四大类车型均呈现下降,其中多功能乘用车(MPV)和交叉型乘用车产销降幅更为明显。

              2022年,乘用车产销分别完成2383.6万辆和2356.3万辆,同比增长11.2%和9.5%,增速高于行业总体。在乘用车主要品种中,与上年同期相比,基本型乘用车(轿车)和运动型多用途乘用车(SUV)产销呈现较快增长,继续占据主导地位;其他两大类车型呈现不同程度下降。

              2022年12月,新能源汽车产销继续保持高速增长,再创历史新高,分别达到79.5万辆和81.4万辆,同比均增长51.8%,市场占有率达到31.8%。在新能源汽车主要品种中,与上月相比,三大类品种产销均呈不同程度增长,其中燃料电池汽车增幅更为显著;与上年同期相比,上述三大类继续保持增长。

              2022年,新能源汽车产销分别达到705.8万辆和688.7万辆,同比增长96.9%和93.4%,市场占有率达到25.6%。在新能源汽车主要品种中,与上年同期相比,纯电动汽车、插电式混合动力汽车和燃料电池汽车产销继续保持高速增长。

              2022年12月,商用车产销分别完成25.8万辆和29.1万辆,环比分别增长9.8%和15.2%,同比分别下降32.1%和20.2%。在商用车主要品种中,与上月相比,客车、货车产销均实现增长;与上年同期相比,客车、货车产销均呈不同程度下降,其中货车降幅更为明显。

              2022年,商用车产销分别完成318.5万辆和330万辆,同比下降31.9%和31.2%,呈现两位数下滑。在商用车主要品种中,与上年同期相比,客车和货车产销均呈较快下降。

              出口方面,2022年,由于海外供给不足和中国车企出口竞争力的大幅增强,出口突破300万辆,达到311.1万辆,同比增长54.4%,有效拉动行业整体增长。分车型看,乘用车出口252.9万辆,同比增长56.7%;商用车出口58.2万辆,同比增长44.9%。新能源汽车出口67.9万辆,同比增长1.2倍。自2021年,中国汽车出口全年总量首次突破200万辆,打破之前在百万辆左右徘徊的局面,实现了跨越式突破。

              12月,汽车企业出口32.4万辆,环比下降1.9%,同比增长45.4%。分车型看,乘用车本月出口27.5万辆,环比下降0.6%,同比增长47.2%;商用车出口4.9万辆,环比下降8.6%,同比增长35.7%。新能源汽车出口8.2万辆,环比下降14.2%,同比增长3.6倍。

              展望未来,陈士华表示,随着相关配套政策措施的实施,将会进一步激发市场主体和消费活力,我们对于全年经济好转充满信心。加之新的一年芯片供应短缺等问题有望得到较大缓解,预计2023年汽车市场将继续呈现稳中向好发展态势,呈现3%左右增长。

            (文章来源:财联社)

            \n", "
            \n", "\n", "
            \n", "
            \n", "\n", "文章来源:财联社\n", "\n", "责任编辑:11\n", "
            \n", "\n", "
            原标题:中汽协:若一季度汽车销量下滑较严重 相关部门会考虑相关政策的延续
            \n", "
            \n", "
            郑重声明:东方财富网发布此信息的目的在于传播更多信息,与本站立场无关。
            \n", "举报\n", "
            \n", "
            \n", "
            \n", "
            \n", "东方财富网\n", "
            \n", "\n", "
            \n", "
            \n", "
            \n", "\n", "
            分享到微信朋友圈
            \n", "
            \n", "
            \n", "
            \n", "

            打开微信,

            \n", "

            点击底部的“发现”

            \n", "

            使用“扫一扫”

            \n", "

            即可将网页分享至朋友圈

            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "\n", "
            \n", "
            \n", "\n", "\"\"\n", "

            扫描二维码关注

            \n", "

            东方财富官网微信

            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "\n", "\n", "
            \n", "
            \n", "
            \n", "
            \n", "\n", "
            \n", "\n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "\n", "
            \n", "
            \n", "\n", "\n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "
            \n", "\n", "\n", "\n", "\n", "
            \n", "
            \n", "
            \n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "
            \n", "
            \n", "视频\n", "\n", "
            \n", "
            \n", "
            \n", "
            \n", "
              \n", "
            \n", "
            \n", "
            \n", "
            \n", "
              \n", "
              \n", "
              \n", "
              \n", "\n", "
              \n", "\n", "
              \n", "\n", "
              \n", "
              热点推荐
              \n", "A股三大指数缩量震荡 北向资金净买入近百亿元\n", "
              \n", "证券时报网\n", "
              \n", "
              \n", "\n", "735\n", "人评论\n", "\n", "2023-01-12\n", "
              \n", "
              \n", "
              \n", "
              \n", "
              \n", "
              \n", "\n", "\n", "\n", "
              \n", "
              \n", "
              \n", "\n", "
              扫一扫下载APP\n", "
              \n", "
              \n", "
              东方财富产品
              \n", "\n", "
              \n", "
              \n", "
              证券交易
              \n", "\n", "
              \n", "
              \n", "
              关注东方财富
              \n", "\n", "
              \n", "
              \n", "\n", "
              扫一扫下载APP\n", "
              \n", "
              \n", "
              基金交易
              \n", "\n", "
              \n", "
              \n", "
              关注天天基金
              \n", "\n", "
              \n", "
              \n", "\n", "
              扫一扫下载APP\n", "
              \n", "
              \n", "
              期货交易
              \n", "\n", "
              \n", "
              \n", "
              信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
              \n", "
              \n", "沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500\n", "
              \n", "
              \n", "关于我们\n", "广告服务\n", "联系我们\n", "诚聘英才\n", "免责声明\n", "法律声明\n", "隐私保护\n", "征稿启事\n", "放心搜\n", "友情链接\n", "
              \n", "
              \n", "\n", "\n", "\n", "\n", "\n", "
              \n", "
              \n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "" ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" } ], "source": [ "soup " ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "- Let's get the time stamp and new source" ] }, { "cell_type": "code", "execution_count": 12, "metadata": { "slideshow": { "slide_type": "fragment" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "2023年01月12日 15:20\n", "\r", " 作者:\r", "徐昊 \n" ] } ], "source": [ "infos = soup.find('div', {'class': 'infos'})\n", "time_source = infos.findAll('div', {\"class\": \"item\"})\n", "time = time_source[0].get_text()\n", "source = time_source[1].get_text().replace(\"\\n\", \"\")\n", "print(time)\n", "print(source)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "- Contents part" ] }, { "cell_type": "code", "execution_count": 13, "metadata": { "scrolled": true, "slideshow": { "slide_type": "slide" } }, "outputs": [ { "data": { "text/plain": [ "
              \n", "\n", "
              \n", "
              摘要
              \n", "
              \n", " 【中汽协:若一季度汽车销量下滑较严重 相关部门会考虑相关政策的延续】中汽协副秘书长陈士华今日表示,燃油车购置税减半政策在去年6月份出台以来,对汽车市场的促进作用非常大,行业呼吁购置税减半政策能够在2023年延续。中国汽车工业协会副总工程师许海东则表示,如果一季度汽车销量下滑比较严重,相关部门会考虑政策的延续。\n", "
              \n", "
              \n", "
              \n", "
              \n", "\n", "
              \n", "\n", "\n", "

                中汽协副秘书长陈士华今日表示,燃油车购置税减半政策在去年6月份出台以来,对汽车市场的促进作用非常大,行业呼吁购置税减半政策能够在2023年延续。中国汽车工业协会副总工程师许海东则表示,如果一季度汽车销量下滑比较严重,相关部门会考虑政策的延续。

                相关报道

                2022年汽车销量同比增长2.1% 预计今年一季度终端市场压力较大

                中国汽车工业协会12日最新数据显示,2022年12月,汽车产量环比微降,销量小幅增长,同比均呈现下降。当月,汽车产销分别达到238.3万辆和255.6万辆,产量环比下降0.3%,销量环比增长9.7%,同比分别下降18.2%和8.4%。2022年,汽车产销分别完成2702.1万辆和2686.4万辆,同比增长3.4%和2.1%,全年实现小幅增长。

                中汽协副秘书长陈士华就12月销量情况分析称,随着疫情防控优化调整,燃油车购置税减半政策和新能源汽车补贴政策年底退出,厂商优惠幅度加大,叠加春节假期临近,12月终端市场“翘尾现象”明显。由于12月的回补效应,提前透支了部分需求,预计一季度终端市场压力较大,销量可能会出现明显下降。

                对此,他表示,为进一步激发市场主体和消费活力,呼吁能够继续出台购置税减半等促汽车消费政策,助力汽车产业稳定增长。

                总结全年发展,陈士华表示,2022年,尽管受疫情散发频发、芯片结构性短缺、动力电池原材料价格高位运行、局部地缘政治冲突等诸多不利因素冲击,但在购置税减半等一系列稳增长、促消费政策的有效拉动下,在全行业企业共同努力下,中国汽车市场在逆境下整体复苏向好,实现正增长,展现出强大的发展韧性。

                具体来看,乘用车在稳增长、促消费等政策拉动下,实现较快增长,为全年小幅增长贡献重要力量;商用车处于叠加因素的运行低位;新能源汽车持续爆发式增长,全年销量超680万辆,市场占有率提升至25.6%,逐步进入全面市场化拓展期,迎来新的发展和增长阶段;汽车出口继续保持较高水平,屡创月度历史新高,自8月份以来月均出口量超过30万辆,全年出口突破300万辆,有效拉动行业整体增长;中国品牌表现亮眼,紧抓新能源、智能网联转型机遇全面向上,产品竞争力不断提升,其中乘用车市场份额接近50%,为近年新高。

                具体数据显示,2022年12月,乘用车产销分别完成212.5万辆和226.5万辆,产量环比下降1.4%,销量环比增长9%,同比分别下降16.1%和6.7%。在乘用车主要品种中,与上月相比,除运动型多用途乘用车(SUV)产量下降、销量增长,其他三大类车型产销均呈不同程度增长;与上年同期相比,四大类车型均呈现下降,其中多功能乘用车(MPV)和交叉型乘用车产销降幅更为明显。

                2022年,乘用车产销分别完成2383.6万辆和2356.3万辆,同比增长11.2%和9.5%,增速高于行业总体。在乘用车主要品种中,与上年同期相比,基本型乘用车(轿车)和运动型多用途乘用车(SUV)产销呈现较快增长,继续占据主导地位;其他两大类车型呈现不同程度下降。

                2022年12月,新能源汽车产销继续保持高速增长,再创历史新高,分别达到79.5万辆和81.4万辆,同比均增长51.8%,市场占有率达到31.8%。在新能源汽车主要品种中,与上月相比,三大类品种产销均呈不同程度增长,其中燃料电池汽车增幅更为显著;与上年同期相比,上述三大类继续保持增长。

                2022年,新能源汽车产销分别达到705.8万辆和688.7万辆,同比增长96.9%和93.4%,市场占有率达到25.6%。在新能源汽车主要品种中,与上年同期相比,纯电动汽车、插电式混合动力汽车和燃料电池汽车产销继续保持高速增长。

                2022年12月,商用车产销分别完成25.8万辆和29.1万辆,环比分别增长9.8%和15.2%,同比分别下降32.1%和20.2%。在商用车主要品种中,与上月相比,客车、货车产销均实现增长;与上年同期相比,客车、货车产销均呈不同程度下降,其中货车降幅更为明显。

                2022年,商用车产销分别完成318.5万辆和330万辆,同比下降31.9%和31.2%,呈现两位数下滑。在商用车主要品种中,与上年同期相比,客车和货车产销均呈较快下降。

                出口方面,2022年,由于海外供给不足和中国车企出口竞争力的大幅增强,出口突破300万辆,达到311.1万辆,同比增长54.4%,有效拉动行业整体增长。分车型看,乘用车出口252.9万辆,同比增长56.7%;商用车出口58.2万辆,同比增长44.9%。新能源汽车出口67.9万辆,同比增长1.2倍。自2021年,中国汽车出口全年总量首次突破200万辆,打破之前在百万辆左右徘徊的局面,实现了跨越式突破。

                12月,汽车企业出口32.4万辆,环比下降1.9%,同比增长45.4%。分车型看,乘用车本月出口27.5万辆,环比下降0.6%,同比增长47.2%;商用车出口4.9万辆,环比下降8.6%,同比增长35.7%。新能源汽车出口8.2万辆,环比下降14.2%,同比增长3.6倍。

                展望未来,陈士华表示,随着相关配套政策措施的实施,将会进一步激发市场主体和消费活力,我们对于全年经济好转充满信心。加之新的一年芯片供应短缺等问题有望得到较大缓解,预计2023年汽车市场将继续呈现稳中向好发展态势,呈现3%左右增长。

              (文章来源:财联社)

              \n", "
              \n", "\n", "
              \n", "
              \n", "\n", "文章来源:财联社\n", "\n", "责任编辑:11\n", "
              \n", "\n", "
              原标题:中汽协:若一季度汽车销量下滑较严重 相关部门会考虑相关政策的延续
              \n", "
              \n", "
              郑重声明:东方财富网发布此信息的目的在于传播更多信息,与本站立场无关。
              \n", "举报\n", "
              \n", "
              \n", "
              \n", "
              \n", "东方财富网\n", "
              \n", "\n", "
              \n", "
              \n", "
              \n", "\n", "
              分享到微信朋友圈
              \n", "
              \n", "
              \n", "
              \n", "

              打开微信,

              \n", "

              点击底部的“发现”

              \n", "

              使用“扫一扫”

              \n", "

              即可将网页分享至朋友圈

              \n", "
              \n", "
              \n", "
              \n", "
              \n", "
              \n", "
              \n", "\n", "
              \n", "
              \n", "\n", "\"\"\n", "

              扫描二维码关注

              \n", "

              东方财富官网微信

              \n", "
              \n", "
              \n", "
              \n", "
              \n", "
              \n", "
              " ] }, "execution_count": 13, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Contents part\n", "divs = soup.find('div', {\"class\": \"zwinfos\"})\n", "divs" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "- Retrieve the abstract from the full text" ] }, { "cell_type": "code", "execution_count": 14, "metadata": { "scrolled": true, "slideshow": { "slide_type": "fragment" } }, "outputs": [ { "data": { "text/plain": [ "'【中汽协:若一季度汽车销量下滑较严重相关部门会考虑相关政策的延续】中汽协副秘书长陈士华今日表示,燃油车购置税减半政策在去年6月份出台以来,对汽车市场的促进作用非常大,行业呼吁购置税减半政策能够在2023年延续。中国汽车工业协会副总工程师许海东则表示,如果一季度汽车销量下滑比较严重,相关部门会考虑政策的延续。'" ] }, "execution_count": 14, "metadata": {}, "output_type": "execute_result" } ], "source": [ "abstract = divs.find('div', {\"class\": \"txt\"}).get_text().replace(\"\\n\", \"\").replace(\"\\r\", \"\").replace(\" \", \"\")\n", "abstract" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "- Pull all paragraphs in the full texts into one single paragraph" ] }, { "cell_type": "code", "execution_count": 15, "metadata": { "slideshow": { "slide_type": "fragment" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "中汽协副秘书长陈士华今日表示,燃油车购置税减半政策在去年6月份出台以来,对汽车市场的促进作用非常大,行业呼吁购置税减半政策能够在2023年延续。中国汽车工业协会副总工程师许海东则表示,如果一季度汽车销量下滑比较严重,相关部门会考虑政策的延续。2022年汽车销量同比增长2.1% 预计今年一季度终端市场压力较大中国汽车工业协会12日最新数据显示,2022年12月,汽车产量环比微降,销量小幅增长,同比均呈现下降。当月,汽车产销分别达到238.3万辆和255.6万辆,产量环比下降0.3%,销量环比增长9.7%,同比分别下降18.2%和8.4%。2022年,汽车产销分别完成2702.1万辆和2686.4万辆,同比增长3.4%和2.1%,全年实现小幅增长。中汽协副秘书长陈士华就12月销量情况分析称,随着疫情防控优化调整,燃油车购置税减半政策和新能源汽车补贴政策年底退出,厂商优惠幅度加大,叠加春节假期临近,12月终端市场“翘尾现象”明显。由于12月的回补效应,提前透支了部分需求,预计一季度终端市场压力较大,销量可能会出现明显下降。对此,他表示,为进一步激发市场主体和消费活力,呼吁能够继续出台购置税减半等促汽车消费政策,助力汽车产业稳定增长。总结全年发展,陈士华表示,2022年,尽管受疫情散发频发、芯片结构性短缺、动力电池原材料价格高位运行、局部地缘政治冲突等诸多不利因素冲击,但在购置税减半等一系列稳增长、促消费政策的有效拉动下,在全行业企业共同努力下,中国汽车市场在逆境下整体复苏向好,实现正增长,展现出强大的发展韧性。具体来看,乘用车在稳增长、促消费等政策拉动下,实现较快增长,为全年小幅增长贡献重要力量;商用车处于叠加因素的运行低位;新能源汽车持续爆发式增长,全年销量超680万辆,市场占有率提升至25.6%,逐步进入全面市场化拓展期,迎来新的发展和增长阶段;汽车出口继续保持较高水平,屡创月度历史新高,自8月份以来月均出口量超过30万辆,全年出口突破300万辆,有效拉动行业整体增长;中国品牌表现亮眼,紧抓新能源、智能网联转型机遇全面向上,产品竞争力不断提升,其中乘用车市场份额接近50%,为近年新高。具体数据显示,2022年12月,乘用车产销分别完成212.5万辆和226.5万辆,产量环比下降1.4%,销量环比增长9%,同比分别下降16.1%和6.7%。在乘用车主要品种中,与上月相比,除运动型多用途乘用车(SUV)产量下降、销量增长,其他三大类车型产销均呈不同程度增长;与上年同期相比,四大类车型均呈现下降,其中多功能乘用车(MPV)和交叉型乘用车产销降幅更为明显。2022年,乘用车产销分别完成2383.6万辆和2356.3万辆,同比增长11.2%和9.5%,增速高于行业总体。在乘用车主要品种中,与上年同期相比,基本型乘用车(轿车)和运动型多用途乘用车(SUV)产销呈现较快增长,继续占据主导地位;其他两大类车型呈现不同程度下降。2022年12月,新能源汽车产销继续保持高速增长,再创历史新高,分别达到79.5万辆和81.4万辆,同比均增长51.8%,市场占有率达到31.8%。在新能源汽车主要品种中,与上月相比,三大类品种产销均呈不同程度增长,其中燃料电池汽车增幅更为显著;与上年同期相比,上述三大类继续保持增长。2022年,新能源汽车产销分别达到705.8万辆和688.7万辆,同比增长96.9%和93.4%,市场占有率达到25.6%。在新能源汽车主要品种中,与上年同期相比,纯电动汽车、插电式混合动力汽车和燃料电池汽车产销继续保持高速增长。2022年12月,商用车产销分别完成25.8万辆和29.1万辆,环比分别增长9.8%和15.2%,同比分别下降32.1%和20.2%。在商用车主要品种中,与上月相比,客车、货车产销均实现增长;与上年同期相比,客车、货车产销均呈不同程度下降,其中货车降幅更为明显。2022年,商用车产销分别完成318.5万辆和330万辆,同比下降31.9%和31.2%,呈现两位数下滑。在商用车主要品种中,与上年同期相比,客车和货车产销均呈较快下降。出口方面,2022年,由于海外供给不足和中国车企出口竞争力的大幅增强,出口突破300万辆,达到311.1万辆,同比增长54.4%,有效拉动行业整体增长。分车型看,乘用车出口252.9万辆,同比增长56.7%;商用车出口58.2万辆,同比增长44.9%。新能源汽车出口67.9万辆,同比增长1.2倍。自2021年,中国汽车出口全年总量首次突破200万辆,打破之前在百万辆左右徘徊的局面,实现了跨越式突破。12月,汽车企业出口32.4万辆,环比下降1.9%,同比增长45.4%。分车型看,乘用车本月出口27.5万辆,环比下降0.6%,同比增长47.2%;商用车出口4.9万辆,环比下降8.6%,同比增长35.7%。新能源汽车出口8.2万辆,环比下降14.2%,同比增长3.6倍。展望未来,陈士华表示,随着相关配套政策措施的实施,将会进一步激发市场主体和消费活力,我们对于全年经济好转充满信心。加之新的一年芯片供应短缺等问题有望得到较大缓解,预计2023年汽车市场将继续呈现稳中向好发展态势,呈现3%左右增长。(文章来源:财联社)打开微信,点击底部的“发现”使用“扫一扫”即可将网页分享至朋友圈扫描二维码关注东方财富官网微信\n" ] } ], "source": [ "content = ''\n", "paras = divs.findAll('p')\n", "for p in paras:\n", " ptext = p.get_text().strip().replace(\"\\n\", \"\")\n", " content += ptext\n", "print(content)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "- Now we could make the above into a function and use it directly" ] }, { "cell_type": "code", "execution_count": 16, "metadata": { "scrolled": false, "slideshow": { "slide_type": "slide" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Scraping http://finance.eastmoney.com/a/202301122612004230.html\n", "['思勰投资总经理吴家麒:2023年股票和期货投资展望', 'http://finance.eastmoney.com/a/202301122612004230.html', '2023年01月12日 14:28', '来源:东方财富网', '打开微信,点击底部的“发现”使用“扫一扫”即可将网页分享至朋友圈', '2023开年之际,东方财富特邀业内大咖齐聚2023年度投资策略会,把脉2023年投资机会。此次策略会将于2023年1月10日-1月12日隆重举行,十五场精彩直播,等您来看。1月12日上午,思勰投资总经理吴家麒在2023年度投资策略会上发表演讲,演讲的题目是《2023年股票和期货投资展望》。嘉宾简介:吴家麒,思勰投资的创始合伙人兼总经理,拥有12年在中国从事量化投资管理的经验。吴先生拥有广泛的量化策略行业的各方面经验,包括各类量化策略开发、金融数据的生产及应用以及量化产品结构设计。在创立思勰投资前,曾在券商研究所负责金融工程研究。在此之前,曾在多家私募基金及券商自营工作。以下为演讲摘要:股票市场回顾与展望期货市场回顾与展望打开微信,点击底部的“发现”使用“扫一扫”即可将网页分享至朋友圈扫描二维码关注东方财富官网微信']\n", "Scraping http://finance.eastmoney.com/a/202301122611528897.html\n", "['中信证券:成飞拟被注入中航电测 国企混改登上新高峰', 'http://finance.eastmoney.com/a/202301122611528897.html', '2023年01月12日 08:29', '来源:证券时报·e公司', '【中信证券:成飞拟被注入中航电测国企混改登上新高峰】中信证券在研报中表示,1月11日晚中航电测发布公告,正在筹划发行股份向航空工业集团购买成飞集团100%股权。成飞集团是我国航空武器装备研制生产和出口主要基地、民机零部件重要制造商,通过本次重组战斗机龙头有望实现整体上市。预计2023年国企改革将继续加速推进提振板块情绪。从基本面角度看,军工行业有计划属性,免疫宏观经济波动,且行业正处于“十四五”黄金发展期,具备长期配置价值。当前时点无论是从市场情绪还是时间维度,或是行业逻辑还是个股性价比,军工行业中长期逻辑都相对清晰,建议积极布局航空系混改标的及产业链优质公司。', '中信证券在研报中表示,1月11日晚中航电测发布公告,正在筹划发行股份向航空工业集团购买成飞集团100%股权。成飞集团是我国航空武器装备研制生产和出口主要基地、民机零部件重要制造商,通过本次重组战斗机龙头有望实现整体上市。预计2023年国企改革将继续加速推进提振板块情绪。从基本面角度看,军工行业有计划属性,免疫宏观经济波动,且行业正处于“十四五”黄金发展期,具备长期配置价值。当前时点无论是从市场情绪还是时间维度,或是行业逻辑还是个股性价比,军工行业中长期逻辑都相对清晰,建议积极布局航空系混改标的及产业链优质公司。军工|成飞拟被注入中航电测,国企混改登上新高峰2023年1月11日晚中航电测发布公告,正在筹划发行股份向航空工业集团购买成飞集团100%股权。成飞集团是我国航空武器装备研制生产和出口主要基地、民机零部件重要制造商,通过本次重组战斗机龙头有望实现整体上市。预计2023年国企改革将继续加速推进提振板块情绪。从基本面角度看,军工行业有计划属性,免疫宏观经济波动,且行业正处于“十四五”黄金发展期,具备长期配置价值。当前时点无论是从市场情绪还是时间维度,或是行业逻辑还是个股性价比,军工行业中长期逻辑都相对清晰,建议积极布局航空系混改标的及产业链优质公司。▍成飞集团拟被注入中航电测,后者预计2月2日前披露交易方案。1月11日晚中航电测发布公告,正在筹划发行股份向航空工业集团购买成飞集团100%股权。公司股票自2023年1月12日开市时起停牌,公司预计在不超过10个交易日(2023年2月2日)内披露交易方案。中航电测是军民两用智能测控产品及系统解决方案的骨干企业,业务涵盖航空军品、传感控制、智能交通、工业软件四大板块,2021年实现收入19.43亿元,实现归母净利润3.07亿元,截至2023年1月11日收盘总市值63亿元。▍成飞集团是战斗机研制龙头,有望通过本次重组实现整体上市。根据成飞集团官网和官微,成飞集团我国航空武器装备研制生产和出口主要基地、民机零部件重要制造商。在军机方面,集团研制生产了歼5、歼7、枭龙、歼10、歼20 等系列飞机数千架;在民机方面,集团与成飞民机公司一道承担了C919、ARJ21、AG600机头的研制生产;在无人机方面,公司控股子公司中无人机是国内大型固定翼长航时无人机系统的领军企业。根据中无人机招股说明书,2021年末集团总资产1512亿元,净资产144亿元,2021年实现净利润9890万元,2020年实现净利润16.13亿元。通过本次重组,战斗机龙头有望实现整体上市,借力资本市场加速航空装备发展。▍若重磅重组取得突破,国企混改或加速推进。本次成飞集团拟被注入中航电测,是自2017年沈飞被注入中航黑豹以来,航空工业集团推出的又一次重磅资本运作。2021年起军工行业资产证券化运作趋于活跃,航空工业集团和电科集团资本运作提速,同时板块中企业的股权激励推进也明显提速。2016年至今(截至2022年11月30日),板块内上市公司推动的股权激励96次,其中2020年以来占一半以上。2022年5月27日国资委印发《提高央企控股上市公司质量工作方案》,明确各企业集团公司需于2022年8月底将工作方案报送国资委,2024年底全面验收评价。政策引领下,各央企已进入改革快车道,板块情绪有望得到进一步催化。▍风险因素:中航电测重组成飞集团失败;我国军费开支增速下降;未来我国在航空防务装备方面的预算减少;公司产品质量控制风险;公司技术创新风险等。▍投资建议:预计2023年国企改革将继续加速推进提振板块情绪。从基本面角度看,军工行业有计划属性,免疫宏观经济波动,且行业正处于“十四五”黄金发展期,具备长期配置价值。当前时点无论是从市场情绪还是时间维度,或是行业逻辑还是个股性价比,军工行业中长期逻辑都相对清晰,建议积极布局。1)航空工业作为军工集团资本运作先行军,有望持续推出“组合拳”;2)在板块热度带动下,基本面向好的产业链公司也有望受到拉动。(文章来源:证券时报·e公司)打开微信,点击底部的“发现”使用“扫一扫”即可将网页分享至朋友圈扫描二维码关注东方财富官网微信']\n", "Scraping http://finance.eastmoney.com/a/202301122611518334.html\n", "['光大证券:12月对公中长期贷款为何实现了高增?', 'http://finance.eastmoney.com/a/202301122611518334.html', '2023年01月12日 08:16', '来源:光大证券研究', '打开微信,点击底部的“发现”使用“扫一扫”即可将网页分享至朋友圈', '事件:2023年1月10日,央行公布了2022年12月份的金融统计数据,数据显示:(1)M2同比增长11.8%,增速较11月末下降0.6个百分点;(2)M1同比增长3.7%,增速较11月末下降0.9个百分点;(3)新增人民币贷款1.4万亿,同比多增2700亿;(4)新增社会融资规模1.31万亿,同比少增1.05万亿,同比增速9.6%,较11月末下降0.4个百分点。点评:一、为什么在疫情、冬季、票据零利率下,12月对公中长期贷款实现了脉冲式增长?在2022年12月份金融数据披露之前,市场对于信贷景气度普遍预期偏悲观,Wind给出的一致性预期均值为1.24万亿,但最终实际值为1.4万亿,符合我们的预期。特别是12月份对公中长期贷款新增1.2万亿,同比多增约8700亿。市场比较疑虑,对公中长期贷款为何会高增,究竟投放的是什么贷款。这里,我们可以根据相关信息做一个大体分解:贡献一:企业在贷债之间的融资切换,大概能解释50%的增量贡献贡献二:2021年12月房地产企业贷款低基数效应,使得2022年12月份房地产贷款对信贷拖累减弱贡献三:开发性金融工具形成的配套融资提款进度有所加快贡献四:制造业中长期贷款增长较好,但形成的增量贡献相对有限总体来看,我们需要理性看待2022年12月份对公中长期贷款的高增,它是在疫情冲击下,贷债“跷跷板”效应、政策驱动共振所致,实体经济市场化需求偏弱态势尚未完全扭转,相关情况甚至可能会延续到年初开门红时点。二、对公强,零售弱;政策性银行有所放缓,国有大行开始发力,股份制略有好转,城农商冷热不均从不同类型银行信贷投放情况看,整体较10-11月份有所好转。其中:政策性银行预计1-3Q合计新增2.4万亿,但进入4Q信贷投放力度较1-3Q明显放缓,料新增规模不足2000亿,12月份单月新增1000亿左右,同比多增500亿。国有大行信贷投放在12月份有所发力,预计新增规模约8000亿,同比多增2000亿+。预计股份制银行信贷投放2000亿+,同比略有多增,由于2021年12月份基数较低,对公贷款大幅同比多增。受疫情影响,零售贷款同比大幅少增,但票据冲量力度较大。城农商行依然维持冷热不均状态,但较10-11月份边际改善。其中,部分前期信贷投放较弱的银行,明确要求压实预算责任,按日督导,12月份信贷投放力度明显加大,对公大幅同比多增,但票据融资增长较多。三、2023年1月份以来,票据利率显著上行,1月份新增人民币贷款若维持在3.5万亿上下即为“开门红”2022年12月份票据在上旬进入零利率行情之后,于月末出现反转,且1月份以来持续上行。这意味着:1、临近12月末票据利率反转,既有信贷月末冲量的影响,也与票据的“高卖低买”套利交易有一定关系。过去票据出现零利率行情中,也曾出现过票据利率在月末反转的情况,比如2021年12月末。2、1月份以来票据利率持续大幅上行,截止1月10日,1M国股转贴利率已上行至1.95%,3M品种上行至1.9%左右。一方面,映射出在开门红时点信贷投放力度和节奏明显加快。但另一方面,当前利率水平较2022年1月份仍偏低,反映出今年开门红整体需求仍不及去年同期。四、企业债与政府债对社融形成较大拖累,M2与社融剪刀差持续维持高位12月份新增社融1.31万亿,同比少增1.05万亿,同比增速9.6%,较11月末下降0.4个百分点,基本符合我们的判断。从结构上看:1、企业债净融资拖累较大,但对公贷债之间存在一定“跷跷板”效应。2、非标贡献力度较大。12月委托+信托贷款合计新增-866亿,同比少减4103亿,其中信托贷款同比少减约3800亿。五、零售存款高增,有两个“跷跷板”效应12月份M2同比增速为11.8%,较11月末下降0.6个百分点。从结构层面看:居民存款新增2.89万亿,同比多增约1万亿,11-12月份合计新增5.14万亿,同比多增2.52万亿。与之相应对的是,企业存款11-12月份合计新增2800亿,同比少增2.03万亿。非银存款11-12月份合计新增1352亿,同比多增5452亿,其中12月份新增-5328亿,同比多减1485亿。上述存款结构的变化,反映出:1、零售与企业存款存在跷跷板效应。2、零售与非银存款之间,也存在跷跷板效应。3、2022年12月对公中长期贷款增速为14.7%,与M1剪刀差约11%,较11月提升2个百分点,较2021年12月份提升约0.5个百分点。风险提示:2023年开门红不及预期,经济恢复节奏偏慢。(文章来源:光大证券研究)打开微信,点击底部的“发现”使用“扫一扫”即可将网页分享至朋友圈扫描二维码关注东方财富官网微信']\n", "Scraping http://hk.eastmoney.com/a/202301122611513618.html\n", "['中信建投:创新药行业迎来多重拐点 看好头部创新药公司(名单)', 'http://hk.eastmoney.com/a/202301122611513618.html', '2023年01月12日 08:08', '来源:界面新闻', '创新药行业迎来多重拐点,展望2023年,看好头部创新药公司恒瑞医药、信达生物、百济神州、荣昌生物、康方生物、诺诚健华、君实生物、再鼎医药等,关注重点品种潜在进展丰富的和黄医药、康诺亚、科济药业、亚盛医药、泽璟制药、益方生物、贝达药业、首药控股等。', '中信建投证券1月12日研报表示,21年7月以来,创新药显著跑输恒生综指,既有外部加息因素的困扰,也有内部定价不及预期、行业竞争加剧以及出海遭遇不顺等多方面原因。经过一段时间的调整,行业迎来多方面改观,政策面医保谈判规则进一步明确,鼓励和加速创新药进医保的态度更加明确,行业面内部“出清”加速进行,构建多层次健康生态。创新药行业迎来多重拐点,展望2023年,看好头部创新药公司恒瑞医药、信达生物、百济神州、荣昌生物、康方生物、诺诚健华、君实生物、再鼎医药等,关注重点品种潜在进展丰富的和黄医药、康诺亚、科济药业、亚盛医药、泽璟制药、益方生物、贝达药业、首药控股等。中信建投:创新药迎来多重拐点创新药行业迎来多重拐点。21年7月以来,创新药显著跑输恒生综指,既有外部加息因素的困扰,也有内部定价不及预期、行业竞争加剧以及出海遭遇不顺等多方面原因。经过一段时间的调整,行业迎来多方面改观,政策面医保谈判规则进一步明确,鼓励和加速创新药进医保的态度更加明确,行业面内部“出清”加速进行,构建多层次健康生态。中信建投证券研究所特别推出【创新药系列深度研究专题】。我们将持续更新创新药行业的投研成果。中信建投证券医药大健康团队从多个层面论证创新药行业走出低谷,解读行业发展现状及投资机会。创新药:大浪淘沙,迎接多重拐点创新药行业迎来多重拐点。21年7月以来,创新药显著跑输恒生综指,既有外部加息因素的困扰,也有内部定价不及预期、行业竞争加剧以及出海遭遇不顺等多方面原因。经过一段时间的调整,行业迎来多方面改观,政策面医保谈判规则进一步明确,鼓励和加速创新药进医保的态度更加明确,行业面内部“出清”加速进行,构建多层次健康生态。2022年,创新药领域迎来诸多突破,阿兹海默病、血友病、减肥领域进展瞩目,个性化癌症mRNA疫苗也读出IIb期临床结果,技术进步推动生物技术创新持续进行。国内企业也即将在2023年迎来多方面催化。继续看好新型生物技术和平台型biopharma。回顾双抗、ADC、GCT等领域发展历程,从概念提出到产品上市这几十年中,能够顺利突围的企业除了在技术领域能力突出,还需要具备相匹配的临床开发能力、商业化能力以及国际化视野,因此继续看好具有新型生物技术和平台型企业。免疫创新药渐入佳境,国际化依然值得期待。自免及II型炎症类疾病全球市场中,TNF-α抑制剂销售额仍位居前列,但近5年来,IL12/23、IL17、JAK、IL4/13等新靶点药物加速放量,市场规模快速扩张。近年来,诸多免疫类创新药在国内加速获批纳入医保,2021年以来,达必妥、可善挺在中国市场开始快速放量。预计2022年达必妥、可善挺在国内销售额有望达到20亿和35亿。重点公司2023年展望:创新药行业迎来多重拐点,展望2023年,我们看好头部创新药公司恒瑞医药、信达生物、百济神州、荣昌生物、康方生物、诺诚健华、君实生物、再鼎医药等,关注重点品种潜在进展丰富的和黄医药、康诺亚、科济药业、亚盛医药、泽璟制药、益方生物、贝达药业、首药控股等。风险提示:行业政策风险:因行业政策调整带来的研究设计要求变化、价格变化、带量采购政策变化、医保报销范围及比例变化等风险;研发不及预期风险:新药在研发过程中,从药物发现、临床前研究、临床试验到商业化上市,既存在因企业技术、流程等不达标可能面临的问题,也存在与监管方沟通不及时,不合规等风险;销售不及预期风险:药物上市后在销售过程中会受到可能的疫情影响、物流运力不足、生产产能不足等风险;核心技术人员变动风险;市场竞争加剧风险;供应链风险;出海情况不及预期风险。国谈深度前瞻:设计更科学,助力创新获得合理回报医保谈判常态化,谈判规则逐渐明确,通过形式审查药品逐渐增加。自2016年卫计委选取5种抗癌药进行价格谈判以来,医保谈判已进行6轮,医保目录每年动态调整趋于常态化。今年6月《2022年国家基本医疗保险,工伤保险和生育保险药品目录调整工作方案》发布,准入规则不断完善,谈判规则逐渐明确。9月《关于2022年国家基本医疗保险、工伤保险和生育保险药品目录调整通过形式审查药品名单的公告》发布,根据《公告》,目录外西药和中成药共有198个,目录内西药和中成药共有145个,合计共有343个药品通过形式审查。政策上也进一步向罕见病患者、儿童等特殊人群适当倾斜,目录中共有罕见病药物19款。完善准入方式,改进续约规则,推出“简易续约”。提出了非独家药品进入医保目录的方式,通过类似谈判的“专家评审”方式,将非独家药品准入时同步确定支付标准,解决非独家药品由于个别企业价格较高导致该通用名药品无法纳入目录的问题。同时对谈判药品的续约规则进行改进,针对不同类型的协议期内药品推出“简易续约”降幅规则,计算方法透明、公开,方便企业进行续约。创新药加速进医保,多个创新品种有望纳入医保目录。医保谈判对创新药上市时间要求放宽,加速创新药尽早纳入医保范畴。瑞维鲁胺片、奥雷巴替尼、卡度尼利单抗、恩沃利单抗、斯鲁利单抗等创新药有望首次纳入医保,吡咯替尼、维迪西妥单抗、阿美替尼、伏美替尼、替雷利珠单抗、信迪利单抗、卡瑞利珠单抗、特瑞普利单抗等新增适应症的创新药也有望首次通过“简易续约”规则进行更多适应症的医保覆盖。投资建议:恒瑞医药、百济神州、翰森制药、信达生物等都有多个品种进行首次准入谈判或续约。我们认为,与前几轮谈判相比,今年医保目录调整优化了申报范围、完善了准入方式、改进了续约规则,都使得医保谈判规则愈发合理、科学,有利于真正有临床价值的创新药获得合理回报。我们看好创新药行业头部公司,看好在手现金充足、医保谈判催化产品放量的头部公司恒瑞医药(600276.SH)、信达生物(1801.HK)、百济神州(6160.HK、688235.SH)、荣昌生物(688331.SH、9995.HK)、康方生物(9926.HK)、再鼎医药(9688.HK)、君实生物(1877.HK)、诺诚健华(9969.HK)等。风险提示:医保谈判失败;进入医保放量不及预期;创新药降价幅度超预期;行业竞争激烈程度超预期;新药开发进度不及预期;企业业绩不及预期。2022年ASCO:中国创新,走向全球ASCO是全球肿瘤领域最重要的、最为权威的学术交流大会,5月27日官网公布了2022年ASCO大会的常规摘要。国内很多企业也是展示出非常出色的数据结果。恒瑞医药:本次ASCO会议发布包括卡瑞利珠单抗、法米替尼、阿帕替尼、达尔西利、SHR3680(AR抑制剂),SHR-1701(PD-L1/TGFβ)、SHR-1316(PD-L1)等多个产品数据。卡瑞利珠是PD-1抑制剂,肺癌、肝癌、食管癌、鼻咽癌以及淋巴瘤五大瘤种中已获批8个适应症,本次ASCO大会发布其他适应症主要临床数据,在结直肠癌、甲状腺癌、胃/胃食管连接处腺癌、晚期肢端黑色素瘤、广泛期小细胞肺癌等适应症中均表现良好。百济神州:本次发布公司发起/研究者发起数据约30项,涉及品种包括替雷利珠单抗、泽布替尼、HER2等。其中替雷利珠单抗联合白蛋白紫杉醇用于肌肉浸润性膀胱尿路上皮癌(UBC)入选口头报告。信达生物:作为我国创新药头部公司,本次发布公司发起/研究者发起数据约15项,涉及品种包括LAG3单抗、信迪利单抗、PI3Kδ、ROS-1/NTRK、FGFR1/2/3、KRAS G12C等。其中,LAG3首次发布POC数据,信迪利单抗联合联合化疗用于NSCLC新辅助入选口头报告。风险提示:创新药降价幅度超预期,疫情干扰,相关公司经营压力大于预期,核心技术人员变动,新药研发失败风险,行业竞争激烈程度超预期,新药审批进度不及预期。美股生物科技启示:乘技术之浪潮,建产品及体系美国生物科技经历三十余年发展,高回报和高风险并存。部分公司IPO后获得数十倍回报,指数(XBI)回报率亦显著高于标普500及大型药企指数(XLV)。然而,对2004年-2018年间通过纳斯达克IPO上市的424家生物制药样本公司进行统计,仍旧存续的有225家,占比53.1%,存续企业市值小于1亿美元的有84家,占比达到37.3%;而市值超过50亿美元的仅有9家,占比4%。生物技术不断推陈出新,引领行业发展,创新是不变的主旋律。自上世纪70年代重组基因技术问世以来,生物科技行业发展迅速,各类创新药的背后是技术快速的进步。从重组基因药物到靶向治疗,从抗体到ADC,近年来GCT等技术也开始飞速发展。回顾Biopharma成长之路,产品、体系、合作、战略缺一不可。第一三共完成合并后,经历不断尝试找到了Enhertu,在ADC领域迎来创新药转型的机会。安进、吉利德凭借优秀的产品组合推动公司成长,积极收并购拓展公司研究管线和发展方向,从一众生物制药公司中脱颖而出,完成自己从Biotech到Biopharma的升级。再生元坚持技术创新,搭建专有技术平台,积极与各大药企展开合作,经历了20年才推出第一款产品但依然顺利发展壮大。Biotech后起之秀,凭借新产品、新平台崭露头角。成立于2002年的Alnylam在RNAi领域成功突围,凭借优秀的RNA递送技术在同类公司中取得领先。与诺华合作的长效降脂药Inclisiran2020年12月获得欧盟批准上市,不仅推动了心血管领域长效疗法的发展,也同样标志着把RNAi技术的应用从罕见病/遗传病推至慢病领域。Argenx成立于2008年,专注于与学术机构合作,将学术成果产业化,搭建的抗体工程技术平台于2021年获批全球首个FcRn抑制剂Vyvgart。比较国内外药企发展环境,我们依然看好产品型、平台型公司。相比海外药企,国内药企在工程师红利、临床成本、政策环境等方面都更有优势。平台型的百济神州、信达生物经过十来年的发展已经初具规模,产品型企业传奇生物的CAR-T产品达基奥仑赛凭借出色的临床效果也在海外开始迎来收获期。重点Biotech生物科技公司跟踪:近期创新药公司估值有所修复,双抗、ADC以及GCT等技术方面有新的进展。我们对信达生物、百济神州、荣昌生物,君实生物,康方生物等公司基本面进行了更新。风险提示:创新药降价幅度超预期;新药研发失败风险;行业竞争激烈程度超预期;新药审批进度不及预期ADC药物:偶联时代,创新致远ADC药物结合了单抗对肿瘤细胞的靶向性和细胞毒药物的强效杀伤能力,实现优势互补协同治疗,近几年药物的密集获批助推领域迈入爆发期。全球ADC药物市场规模巨大,未来5年有望诞生超5款重磅炸弹级产品。ADC药物的结构、作用过程复杂且其设计要素较多,整体技术门槛虽高但通用性强,优势技术平台成为管线扩容引擎和全球合作支点。ADC药物的设计有赖于对抗体及其靶点、连接链、细胞毒药物这三种构成要素和偶联方式的慎重选择与合理组合;该领域技术已迭代进入3.0时代,各设计要素的整合式创新将持续驱动技术升级。另外,ADC设计概念在靶向配体和治疗介质上的外延式拓展,催生了偶联药物技术百花齐放的格局,未来想象空间巨大。ADC药物结构复杂且设计多样,叠加体内作用和代谢过程的复杂性,使得高技术门槛遍及研发全流程,突显一站式 CXO 服务价值。ADC药物在生产制造、质量控制、非临床研究、临床研究各环节上均面临独特挑战,催生企业生产研发的外包需求,端到端一站式CXO具备供应链集成优势,药明合联成为稀缺投资标的。全球ADC药物领域热潮由研发型 ADC 药企掀起,大型跨国药企亦通过管线/技术合作及收购积极与其牵手布局。Seagen、ImmunoGen 及 Immunomedics 是ADC领域的先驱,后起之秀如Mersana、ADC Therapeutics等均在大力开拓创新靶点;第一三共已成为中坚力量,其它跨国药企布局则少而精,占据已上市ADC药物的半壁江山。国内药企“自主研发+合作引进”双轮驱动,紧随 ADC 行业热潮,荣昌生物率先突围实现商业化。国内药企多以HER2切入ADC赛道,重点关注集成式ADC平台公司,如荣昌生物、恒瑞医药,积极探索创新靶点的Biotech型公司,如乐普生物、多禧生物;合作引进重磅品种的云顶新耀、瓴路药业。投资建议:ADC药物技术门槛高但平台效应强,是创新药优质赛道,长期确定性较高,我们从上游CXO及创新药公司两个方向寻找投资标的。CXO:推荐一站式ADC赋能平台药明生物及小分子平台实力突出的凯莱英,建议关注皓元医药、美迪西等在ADC业务进展;创新药:推荐荣昌生物、恒瑞医药,建议关注云顶新耀、科伦药业、浙江医药、乐普生物、东曜药业等风险提示:ADC新药临床数据不理想,新药研发批准进展晚于预期,行业竞争激烈程度高于预期。双抗时代,渐入佳境双抗药物可以解决单抗药物单一靶点的局限性,进入临床研究的双抗快速增长、全球双抗研发热情已至。从2014年首个双抗在FDA获批上市以来,全球新增启动的双抗临床研究数量呈现出逐年快速上升的趋势。催化剂之一:罗氏重磅双抗Hemlibra的成功商业化。双抗在商业化初期曾面临适应症窄、半衰期短及安全性风险等问题。随着业内对抗体设计的升级及合理定位适应症,行业发展瓶颈逐渐消除。罗氏的双抗Hemlibra于2017年上市用于易产生VIII因子抑制物的A型血友病,2018年扩大适应症至未产生VIII因子抑制物的A型血友病,大幅改善血友病患者的生存质量。2020年,Hemlibra预期销售额超20亿美元,仍处于快速增长阶段。Hemlibra商业化的成功,标志着双抗进入成熟阶段。催化剂之二:2021年开始,多款潜在重磅双抗即将进入收获期,行业有望加速成长。其中,Amivantamab(EGFR/MET)是ESMO2020大会明星,披露数据优秀,已于2020年12月提交上市申请,有望在2021年获批上市。Mosunetuzumab(CD20/CD3)、AK104(PD-1/CTLA4)、KN046(PD-L1/CTLA4)初步披露数据良好,计划于2021年提交上市申请。Faricimab(VEGF/ANG2)临床数据预计将于2021年年内披露,可能成为罗氏另一产品Lucentis的替代补充。多个疗效优秀的在研双抗产品上市渐近,双抗有望进入加速成长阶段。我们目前时点建议重点关注双抗赛道,跨国公司深度布局,国内企业亦有快速跟进。我们重点推荐生物学机制研究扎实,双抗设计能力强,布局全面的恒瑞医药、信达生物,提供技术平台和服务的药明生物,布局双抗平台早、团队免疫学基础扎实、产品接近提交上市申请的康方生物,与安进、Zymeworks合作深度布局双抗的百济神州,免疫学基础扎实、布局多种双抗的君实生物,引进Merus EGFR-Met双抗的贝达药业等。风险提示:双抗新药临床数据不理想,双抗新药获批时间晚于预期,行业竞争激烈程度高于预期。免疫疾病用药深度:大鹏一日同风起,抟摇直上九万里全球:免疫用药市场,肿瘤之后下一个金矿。从2009年至2019年,免疫疾病药物在Top100中占比由8%提升至27%,Top100中免疫疾病药物销售额总和从90.09亿美元增加到894.85亿美元。临床需求方面,免疫疾病的发病率随着时间而增加,同时检测技术的进步和对疾病认识的深入使更多患者能够确诊。随着基础研究的深入和合成筛选技术的发展,新靶点不断增加,更多的临床需求被满足,生物制剂类药物占比大幅提升。当前时点为何看好中国免疫用药市场?基于四大理由:①患者对免疫疾病治疗需求上升,国内用药方案逐步从化学制剂向生物制剂升级,后者起效快、副作用少,可遏制病情进展,目前仅占市场20%,仍有较大提升空间。②相关科室如风湿免疫科室建设和医师培养加速。③生物制剂陆续降价并通过谈判纳入医保,渗透率提升有望加速。④近年来,下一代高端生物制剂集中进入中国,共同推动市场发展。免疫疾病海外龙头深度复盘。艾伯维是全球免疫龙头,目前已构建以修美乐为基础的免疫组合,研发与商业化高度协同。再生元则通过强大的抗体研发平台进入免疫领域,推出2型炎症疾病的重磅产品Dupixent.两家公司的股价都在重磅免疫品种的临床及商业化进展中明显受益。自身免疫生物制剂渗透率提升,2型炎症疾病生物制剂市场起步。中国风湿病市场TNFα渗透率提升,高端药品2019年上市后开局良好。2型炎症市场Dupixent有望成为百亿美元品种,激活2型炎症市场。重点公司:恒瑞医药布局最全,高端产品推进最快。恒瑞医药布局最全,高端产品IL17、JAK1推进最快。三生国健、百奥泰、恒瑞医药已有商业化产品。信达生物、君实生物等接近商业化。投资建议。在科室建设、医保支付和高端产品上市等三大因素推动下,我们看好中国免疫疾病用药市场迎来加速增长阶段。看好免疫疾病领域具备抗体药研发筛选平台能力和对免疫信号通路有深刻理解能力的公司,看好恒瑞医药、信达生物、君实生物,同时建议关注三生制药、丽珠集团、百奥泰、康方生物。风险提示:医保控费超出预期;新药审评进度不达预期;市场推广不达预期。(文章来源:界面新闻)打开微信,点击底部的“发现”使用“扫一扫”即可将网页分享至朋友圈扫描二维码关注东方财富官网微信']\n", "Scraping http://finance.eastmoney.com/a/202301122611319281.html\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ "['国泰君安:下游需求高增长 芳纶涂覆隔膜打开空间', 'http://finance.eastmoney.com/a/202301122611319281.html', '2023年01月12日 07:39', '来源:证券时报', '【国泰君安:下游需求高增长芳纶涂覆隔膜打开空间】国泰君安研报指出,芳纶为三大人造高性能纤维之一,受下游安防,5G建设驱动需求持续高增长,汽车、航空结构件、过滤等领域应用不断拓展。芳纶作为性能最好的锂电隔膜涂覆材料从0到1向上空间弹性大。推荐具备一体化产业链,产能规模具备优势,向多元化应用不断开拓,有望实现进口替代的芳纶龙头。推荐标的:中化国际,受益标的:泰和新材。', '国泰君安研报指出,芳纶为三大人造高性能纤维之一,受下游安防,5G建设驱动需求持续高增长,汽车、航空结构件、过滤等领域应用不断拓展。芳纶作为性能最好的锂电隔膜涂覆材料从0到1向上空间弹性大。推荐具备一体化产业链,产能规模具备优势,向多元化应用不断开拓,有望实现进口替代的芳纶龙头。推荐标的:中化国际,受益标的:泰和新材。国君石化 | 下游需求高增长,芳纶涂覆隔膜打开空间投资建议:芳纶为三大人造高性能纤维之一,受下游安防,5G建设驱动需求持续高增长,汽车、航空结构件、过滤等领域应用不断拓展。芳纶作为性能最好的锂电隔膜涂覆材料从0到1向上空间弹性大。推荐具备一体化产业链,产能规模具备优势,向多元化应用不断开拓,有望实现进口替代的芳纶龙头。推荐标的:中化国际,受益标的:泰和新材。芳纶为三大人造高性能纤维之一,部分性能优势显著:芳纶与碳纤维、超高分子量聚乙烯并称为三大人造高性能纤维。具备高强度、高模量、高耐磨性、高耐温性等特点。芳纶在耐温性能与断裂伸长度方面分别较超高分子量聚乙烯与碳纤维有优势。芳纶在结构增强、安全防护、耐磨等方面有明显优势。多元化因素驱动芳纶需求高增长,新能源应用打开市场空间:根据帝人预测,受地缘争端加剧,个人以及企业需求增加驱动,橡胶增强领域的增长,全球芳纶市场规模将从2021年的36亿美元增加到2025年的53亿美元。对位芳纶增速快于间位芳纶。此外锂电池安全性,寿命,性能等要素重要性不断提升背景下芳纶作为性能最好的锂电隔膜涂覆材料有望替代传统陶瓷或有机涂覆,渗透率有望大幅提升。保守预测2025年芳纶涂覆隔膜市场空间44亿元,且在涂覆成本进一步下降情况下向上空间弹性巨大。芳纶进口替代空间大,龙头企业受益行业高成长红利:芳纶从结构上分为对位芳纶和间位芳纶。当前国内对位芳纶需求量约为2万吨,间位芳纶需求量约0.9万吨,年芳纶进口量超过2万吨,中高端产能被杜邦、帝人海外龙头企业垄断,未来国内需求保持高增,芳纶进口替代空间大。国内龙头企业包括中化国际,泰和新材均实现芳纶国产化突破,中化国际拥有5000吨/年对位芳纶产能。泰和新材当前具有对位芳纶6000吨,间位芳纶1.7万吨,芳纶纸3000吨。未来龙头企业将持续受益于①下游安防,个护,光缆增强等芳纶多元化领域高成长红利;②国产芳纶对进口中高端芳纶自下而上的进口替代;③具备成本,质量优势国内企业的芳纶出口增长;④新应用领域打开的向上空间。国内龙头企业有望在此背景下实现从国内龙头向全球龙头的跃迁。风险提示:芳纶下游需求不及预期,芳纶涂覆渗透率低于预期。(文章来源:证券时报)打开微信,点击底部的“发现”使用“扫一扫”即可将网页分享至朋友圈扫描二维码关注东方财富官网微信']\n", "Scraping http://finance.eastmoney.com/a/202301122612023768.html\n", "['A股三大指数缩量震荡 北向资金净买入近百亿元', 'http://finance.eastmoney.com/a/202301122612023768.html', '2023年01月12日 15:00', '作者:吴永芳', '【收盘播报】沪指涨0.05%,深证成指涨0.23%,创业板指涨0.51%。成交额不足7000亿,能源金属、电机板块涨幅居前,旅游酒店、酿酒板块跌幅居前。北向资金净买入近百亿元。', '12日,沪指盘中冲高回落,尾盘勉强翻红;创业板指表现相对强势;两市成交额再度萎缩,全日成交不足7000亿元;北向资金仍强势流入,全日净买入超95亿元。截至收盘,沪指微涨0.05%报3163.45点,深成指涨0.23%报11465.73点,创业板指涨0.51%报2458.49点;两市合计成交6815亿元,北向资金净买入95.45亿元。盘面上看,券商、保险板块午后拉升,航空、汽车、软件等板块走强,工业母机、智能电网、信创概念等表现活跃;酿酒、旅游、酒店餐饮、地产、食品饮料、零售、医药等板块走弱。对于当前市场走势,光大证券表示,当前经济数据整体不佳,增量政策还未完全发力,并且从历史来看,春节前夕市场行情一般,因此我们预计春节之前市场将保持震荡,波动较小。而春节之后,伴随着疫情的好转,经济数据将筑底回升,之后企业盈利也将逐步的修复,市场将会迎来中期震荡上行的区间。此外,伴随着地方两会的召开,国内政策也将会进一步发力。同时,海外加息进程有望在2月份进一步放缓,海外风险因素可能逐步消除。行业配置方面,A股继续关注消费医药板块,港股关注科技互联网。消费复苏预期下,消费医药很可能会成为今年“春季躁动”的主旋律,且长期来看,随着未来实际数据的逐渐好转,医药消费板块今年的相对业绩优势将会凸显,并有望成为2023年的主线,当前值得积极布局。此外,随着房地产相关政策的持续刺激与发力,建筑材料、家用电器、房地产及建筑装饰等地产相关行业在“春季躁动”中或许也会有不错的表现。港股市场中,科技互联网为代表的恒生科技指数以及大消费方向或许有更好的表现。(文章来源:证券时报网)打开微信,点击底部的“发现”使用“扫一扫”即可将网页分享至朋友圈扫描二维码关注东方财富官网微信']\n", "Scraping http://futures.eastmoney.com/a/202301122611958758.html\n", "['华尔街开年最重要一天:今晚美国CPI可能惊现环比负增长?', 'http://futures.eastmoney.com/a/202301122611958758.html', '2023年01月12日 13:14', '来源:财联社', '【华尔街开年最重要一天:今晚美国CPI可能惊现环比负增长?】周四(1月12日),美国金融市场无疑将迎来新年伊始最为重要的一个交易日:美国劳工部将于北京时间今晚21:30公布12月消费者价格指数(CPI),这也将是美联储下次议息会议前公布的最后一份CPI指标。', '周四(1月12日),美国金融市场无疑将迎来新年伊始最为重要的一个交易日:美国劳工部将于北京时间今晚21:30公布12月消费者价格指数(CPI),这也将是美联储下次议息会议前公布的最后一份CPI指标。随着上周超预期降温的薪资数据,令市场上有关美联储可能提前结束本轮加息周期的猜测大幅升温,今晚的通胀报告无疑已经早早地成为了各方瞩目的焦点:股债市场的投资者将从数据中,寻找开年以来支撑行情进一步反弹的更多证据;而美联储官员们也已普遍表示,这份通胀报告很可能将成为决定下月究竟将加息25个基点还是50个基点的关键。无论从哪个角度看,今晚的这份美国通胀报告,都有多处值得市场人士密切关注的信息。而我们在今日的美国CPI前瞻中,也将通过对六个核心问题的解答,来引领大家走进这个全球瞩目的通胀之夜:①今晚CPI同比涨幅究竟会降到多少?今晚美国CPI同比涨幅连续第六个月出现回落,在眼下其实已经没有太多的悬念。事实上,业内目前已普遍预计,美国12月CPI数据有望从此前的“7时代”进一步降温至“6时代”,这将是过去一整年美国通胀高烧状态下,从未见过的水平。媒体调查的经济学家预测中值显示,12月消费者物价指数(CPI)预计将较上年同期增长6.5%,低于上月7.1%的同比增幅。在去年6月,美国CPI同比涨幅曾创下9.1%的逾40年最大涨幅。值得一提的是,从某种意义上而言,上述6.5%的预测中值甚至还是相对偏高的,因为目前媒体机构调查的均值其实已经要更加偏近于6.4%。如下图所示,主要投行机构截止周四的最新预测主要集中在6.3%-6.5%之间,例如富国和野村都预测6.3%。从CPI数据发布前的一系列市场指标看,整体通胀降温的势头也极为明显。我们在下图中罗列了数十项通胀前瞻和市场类指标的变动,大家可以对照一下12月与11月数据间的部分差异。目前不难预见到的是,能源价格的回落仍将会成为12月物价降温的一大主要动力。美国汽车协会AAA数据显示,去年12月美国汽油价格下跌逾12%。众多上游原材料价格的回落已经减轻了美国企业的成本压力。而作为通胀的另一大组成部分,住房通胀压力也在缓解。根据Realtor.com的数据,全美租金涨幅已经连续十个月放缓。此外,昔日美国通胀飙升初期的一大推手——二手车,眼下的市场价格更是已经创下了历史最大同比跌幅。Manheim二手车价值指数在12月同比下降了14.9%,为该指数有纪录以来的最大降幅。这些变动都已经很好地反映在了通胀预期上。下面这张GIF动图是通胀互换合约对未来12个月CPI的隐含定价,可以看到市场甚至已开始预计,美国CPI可能在今年年中降至美联储2%的通胀目标。②今晚CPI最可能出现的爆点在哪?很多市场投资者过往会把对CPI数据的关注重心,放在同比数据的变动下。但我们今晚要着重提醒投资者注意的,则是CPI环比数据的变动。因为12月CPI很可能出现自新冠疫情爆发之初——2020年5月以来的首次环比负增长……从媒体的调查中值看,最初上周末的调查预测是今晚CPI环比变动将为0%,但如今这一数字已经开始向-0.1%靠拢。包括高盛、美银、摩根士丹利等知名华尔街机构目前就均预计美国12月CPI数据可能环比下降0.1%,富国银行甚至预计将环比下降0.2%。摩根士丹利策略师Matthew Hornbach表示,随着通胀降温,当周四公布美国CPI报告时,投资者应该为数据低于预期做好心理准备。该行称,在需求下降之际,ISM服务业指数表现尚佳,“说明软着陆和经济衰退都是可能的”;该指数可能还要一段时间才能触底反弹。在国内机构方面,中金目前也坚定预测,本月美国总体通胀可能出现疫后三年来首次明显环比负增长。中金大类资产预计美国12月总体通胀环比增速将为-0.2%,总体通胀下行主要受汽油价格大幅下跌影响。可以预见到的是,如果上述预测兑现,围绕环比数据铺天盖地的报道,很可能将成为今晚美国CPI数据发布后主要全球财经媒体报道的热门话题。中金也表示,这可能有助于提振宽松预期与风险情绪,美债、黄金、成长风格股票都可能因此而有阶段性表现的机会。此外,根据白宫的最新日程安排,美国总统拜登已决定将于北京时间周四晚上23点就通胀和经济发表讲话。他会否已经提前获悉了CPI的相关具体表现,并在今晚迎来一场炫耀自身政绩的“庆功宴”?在当前这个节点不免会引人遐想……③美联储将着重关注今晚报告的哪些部分?俗话说:“外行看热闹,内行看门道”。作为美国货币政策的制定者和设计师,美联储官员对于今晚CPI报告的主要聚焦点,显然并不会和投资者完全相同。众所周知,美联储向来更为关注剔除容易波动的能源和食品价格后核心CPI的表现。而今晚,一些业内人士预计,他们甚至还将在核心通胀中关注更为“核心”的部分。目前经济学家普遍预计,剔除食品和能源价格后,美国12月核心CPI数据将环比上涨0.3%,高于上月的0.2%;同比则将上涨5.7%,上月为6.0%,这将是1981年以来最高的12月核心通胀率。不难发现的是,相较于CPI的整体表现,美国核心CPI部分其实是依然存在不少隐患的,而这也自然是美联储当前关注的一大焦点。当前摆在美联储面前的根本问题是通胀本身已经变得更加复杂:由于许多产品的供应增加和需求减少,近几个月核心商品通胀确实逐渐转为了负值,但服务业通胀仍然居高不下——不少人认为,这是就业市场持续火爆和劳动力成本不断上升的结果。近几个月来,美联储主席鲍威尔已反复强调了不包括住房在内的核心服务的重要性,他一直在关注着这一类别。而现在的一个大问题是,美联储对“超级核心通胀”——核心服务业通胀居高不下的担忧程度有多大;鉴于近几个月来工资数据的大幅波动,又应该对月度工资数据给予多大的重视。这在眼下还更多是美联储和经济学家们需要考虑的问题,但如果今晚美国CPI数据的总体降幅相较市场预期出入不大,这部分细分领域的变动很可能就将成为市场博弈的关键。Vanguard全球利率主管Roger Hallam就向媒体表示,当CPI报告发布时,与服务方面的数据相比,商品和住房的相对关注可能将减少,而且随着时间的推移,市场将转向更关注劳动力市场的数字。④投资者在今晚还需要做好哪些准备?谈完了对今晚CPI数据的具体预期,我们不妨再把视线转移到交易层面。投资者今晚在CPI数据发布前,还需要做好哪些“功课”呢?一个无法回避的问题显然是上月CPI发布日时的“异动”。记性好的投资者可能还记得,上月美国CPI数据还没发布时,金融市场就出现了疯狂的波动。在12月13日美国11月CPI数据发布前的60秒内,10年期美国国债期货的成交量,至少是此前24次CPI报告发布前一分钟成交量的三倍多。在当时CPI数据公布前的60秒内,3月到期的10年期国债期货成交量达到13518份合约,提前大幅推低了美债收益率。标普期货在CPI数据公布之前也早早就开始加速上涨。目前,从纽约到芝加哥再到伦敦的交易员,已经决心在今晚的CPI数据出炉前就提高警惕,以防市场提前就出现异动——在今晚CPI数据发布时,美股还未到开盘时间,但美债、美股期货乃至外汇和贵金属市场都不排除再度出现异动的可能。Stifel Nicolaus & Co.策略师Chris Ahrens就表示:“现在,在CPI公布之前的那一分钟,人们将更加警觉,尽管官方部门表示‘一切都好,没有发生过什么泄密事件’”。根据数据发布的流程,除了劳工统计局的工作人员在报告公布前一周左右开始编制报告外,一小部分政府官员也可以提前获得通胀数据,其中包括白宫经济顾问委员会(CEA)的一些官员。白宫经济顾问委员会按惯例会将这些数据与白宫、财政部和美联储的关键决策者分享,包括美国财长耶伦和美联储主席鲍威尔。他们还会向美国国家经济委员会主任布莱恩·迪斯和总统拜登通报情况。⑤金融市场今晚会如何随CPI演变?我们在此前的市场回顾中曾介绍过,自从8月以来,CPI数据的发布对美股走势的影响就极为凸显,过去几个月造成的变动尤甚。事实上,自11月以来,美股基本上所有的波动都是在CPI发布期前后发生的,剩下的时间市场基本上就在那“无所事事”......下图是标普500指数在历次CPI数据发布前后的价格变动汇总:根据巴克莱衍生品团队绘制的图表也显示,“在过去10年里,标普500指数对经济指标的反应,从来没有像2022年对CPI时那样具有强烈的负相关。”而正是当前CPI数据对市场的影响力实在太大,几乎所有市场参与者都已无法忽视这一指标。根据期权市场的最新定价,随着12月CPI数据今晚出炉,交易员预计标普500指数周四料将向任一方向至少波动2%,涨跌皆有可能。小摩分析师团队本周早些时候已经对美国12月CPI数据早早进行了前瞻。Andrew Tyler等分析师预计,最终今晚实际数据有三分之二的可能性与当前市场共识预期相差10个基点(0.1%)以内,并且偏向低于预期的一侧。小摩分析师认为,鉴于投资者基本保持防御型的仓位部署,任何显示美联储抗通胀行动取得进展的迹象,都会刺激市场削减看跌头寸,标普500指数在数据公布当天有望上涨1.5%-2%。而如果通胀跌破6.4%(该团队认为概率为20%),标普500指数更是有望上涨3%至3.5%。对于美债市场而言,小摩认为,除非实际数据明显低于预期,比如降至6%或以下,否则债市应该反应平静。只有在CPI升幅跌破4.5%-5%的情况下,投资者才会对美联储在3月会议上暂停升息的预期重新定价。上行风险方面,如果12月CPI升幅超过6.6%,预计将对风险资产构成打击,债券收益率将全线走高。如果升幅突破6.8%,这将吓坏投资者,摩根大通团队认为这属于“尾部事件”,即发生的可能性非常小。⑥今晚CPI数据将会带来哪些后市影响?除了直观的行情波动外,今晚美国CPI数据的具体表现,显然也将极大程度上决定着美联储下月的加息幅度——究竟会是25个基点,还是50个基点?太平洋投资管理公司(Pimco)经济学家指出,12月CPI将对美联储在2月1日结束的议息会议上的决定,产生尤为重要的影响。他们预计,通胀和劳动力市场数据将充分放缓,将促使美联储在5月会议前暂停加息。一些美联储官员其实也已经将今晚的CPI数据视为了下月利率决议的一大衡量关键。旧金山联储主席戴利在周一就表示,在下次利率决议中支持加息25基点还是50基点时,她表示“两种情况都有可能”。1月加息幅度与即将发布的(数据)信息有关。戴利指出,其正在密切关注服务业通胀情况,并认为这一领域最能反映潜在物价压力,但这些与劳动力市场直接相关的指标还“没有显示出”放缓的迹象。她补充道,美联储在评估进一步的货币紧缩程度时将“完全依赖于数据”。她仍然认为利率峰值需超过5%的水平才能遏制通胀,但究竟应超出多少“尚不完全清楚”。圣路易斯联储主席布拉德(James Bullard)和亚特兰大联储主席博斯蒂克(Raphael Bostic)近期也曾表示,为了抑制需求,美联储仍要完成更多工作。最新数据将决定美联储在接近利率峰值时,是否要采取更为谨慎的行动。根据芝商所FED WATCH工具的最新定价,目前交易员预计美联储在下次会议上加息25个基点的概率为77.2%,加息50个基点的概率则为22.8%。(文章来源:财联社)打开微信,点击底部的“发现”使用“扫一扫”即可将网页分享至朋友圈扫描二维码关注东方财富官网微信']\n", "Scraping http://finance.eastmoney.com/a/202301122611942169.html\n", "['工信部力挺5G和千兆光网建设 业绩猛增的概念股来了', 'http://finance.eastmoney.com/a/202301122611942169.html', '2023年01月12日 12:14', '来源:证券时报', '【工信部力挺5G和千兆光网建设业绩猛增的概念股来了】近日,中国信通院发布了《中国5G发展和经济社会影响白皮书(2022年)》。报告指出,5G对经济社会发展的赋能带动作用持续增强。预计2022年5G将直接带动经济总产出1.45万亿元,直接带动经济增加值约3929亿元,分别比2021年增长12%、31%,间接带动总产出约3.49万亿元,间接带动经济增加值约1.27万亿元。', '5G进入了下半场的高速发展期,在前期技术积淀和应用基础上,5G的技术和商用都在继续加速跨越。据工信微报微信公号消息,1月11日,全国工业和信息化工作会议在北京召开。会议强调,2023年要抓好十三个方面重点任务。其中提到,加快信息通信业发展。出台推动新型信息基础设施建设协调发展的政策措施,加快5G和千兆光网建设,启动“宽带边疆”建设,全面推进6G技术研发。完善工业互联网技术体系、标准体系、应用体系,推进5G行业虚拟专网建设。5G技术和商用加速跨越近日,中国信通院发布了《中国5G发展和经济社会影响白皮书(2022年)》。报告指出,5G对经济社会发展的赋能带动作用持续增强。预计2022年5G将直接带动经济总产出1.45万亿元,直接带动经济增加值约3929亿元,分别比2021年增长12%、31%,间接带动总产出约3.49万亿元,间接带动经济增加值约1.27万亿元。报告指出,5G推动新一代信息技术充分释放创新活力,赋能千行百业数字化转型,推动经济社会高端化、智能化、绿色化发展,为制造强国、网络强国、数字中国建设提供有力保障和坚强支撑。中国开启5G商用至今已三年有余。目前,5G进入了下半场的高速发展期,在前期技术积淀和应用基础上,5G的技术和商用都在继续加速跨越。《5G应用“扬帆”行动计划(2021—2023年)》提出,到2023年要实现5G在大型工业企业渗透率达到35%、每个重点行业5G示范应用标杆数达到100个、5G物联网终端用户数年均增长率达到200%三大指标。“在未来三年,即2023年到2025年,是业态创新的一个高发期。”33只5G概念股回撤幅度超50%今日早盘,5G概念股麦捷科技盘中以19.98%的涨幅涨停。午间收盘时涨停的有天威视讯、泰永长征、合力泰,其中天威视讯已连续3次涨停。昨日晚间,天威视讯发布业绩快报,2022年净利润1.1亿元,同比下滑22.78%。业绩下滑主要是由于“三线下地”项目同比减少,同时受数字电视用户流失影响,基本收视费收入、增值业务收入减少等所致。数据宝统计显示,截至1月11日收盘,5G概念指数1月以来累计涨幅3.83%,小幅跑赢同期上证指数。数源科技、兴瑞科技、天威视讯、京泉华、ST实达等股期间累计涨幅超20%。1月11日收盘价与2022年以来高点相比,33股回撤幅度逾50%,包括闻泰科技、三安光电、思瑞浦、胜宏科技等细分行业龙头。资金方面来看,元旦节后部分概念股获得北上资金加仓。数据宝统计,按照区间成交均价计算,北上资金1月以来增持超亿元的有9股,如立讯精密、铜陵有色、卓胜微、横店东磁、航锦科技等。同期融资资金加仓超亿元的仅中国联通、紫光国微、数源科技等3股。从目前公布的业绩快报和预告数据来看,14股2022年净利润预增20%以上。京泉华净利润增速最高,报告期内,全球新能源行业高速发展,市场需求旺盛,带动公司新能源领域业务高速增长,公司预计2022年净利润为1.25亿元至1.55亿元,同比增长527.25%至677.79%。上述14股中,东山精密滚动市盈率18.64倍处在最低位置。2022年公司核心产业电子电路业务收入和利润实现稳定增长,同时,新能源及其汽车业务扎实推进,新产品、新客户导入顺利,公司预计2022年净利润为23.3亿元至24.3亿元,同比增长25.1% 至30.47%。滚动市盈率较低的还有立讯精密、东方电热、博威合金等。这类A股要嗨了?工信部:全面推进6G技术研发!(文章来源:证券时报)打开微信,点击底部的“发现”使用“扫一扫”即可将网页分享至朋友圈扫描二维码关注东方财富官网微信']\n", "Scraping http://finance.eastmoney.com/a/202301122612024096.html\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ "['上海警方通报王某某等打人被行政处罚 权威人士:王某某系王思聪', 'http://finance.eastmoney.com/a/202301122612024096.html', '2023年01月12日 14:59', '作者:甄珺茹王昆鹏', '【上海警方通报王某某等打人被行政处罚权威人士:王某某系王思聪】1月12日,上海静安警方通报,11日4时许接报南京西路一商务楼门口有人被打。经查,王某某等人误以为在路边候车的陈某某对其拍照,遂要求陈某某不要拍摄,陈某某称未拍摄,双方发生争吵。王某某等人对陈某某殴打。经司法鉴定,陈某某综合评定为轻微伤。警方对存在殴打他人违法行为的王某某、孙某某作出行政拘留7日。因王某某等提请行政复议,警方对四人暂缓执行行政拘留。12日,记者从权威信源获悉,打人者王某某系王思聪。', '1月12日,上海静安警方通报,11日4时许接报南京西路一商务楼门口有人被打。经查,王某某等人误以为在路边候车的陈某某对其拍照,遂要求陈某某不要拍摄,陈某某称未拍摄,双方发生争吵。王某某等人对陈某某殴打。经司法鉴定,陈某某综合评定为轻微伤。警方对存在殴打他人违法行为的王某某、孙某某作出行政拘留7日。因王某某等提请行政复议,警方对四人暂缓执行行政拘留。12日,记者从权威信源获悉,打人者王某某系王思聪。王思聪在上海打人?刚刚,警方通报王思聪又出大事?上海警方通报王某某怀疑被偷拍打人上海静安警方通报:1月 11 日4时 40 分,静安公安分局接报警称,南京西路一商务楼门口有人被打,民警第一时间到场处置。经查,王某某(男,34 岁)、孙某某(男,28 岁)、魏某某(男,38 岁)、余某某(男,39 岁)等人误以为在路边候车的陈某某对其拍照,遂要求陈某某不要拍摄,陈某某称未拍摄,双方发生争吵。随后,王某某、孙某某先后挥拳击打陈某某面部,致陈某某鼻部受伤并倒地。魏某某、余某某也对陈某某进行了殴打。经司法鉴定,陈某某左侧鼻骨骨折,面部多处挫擦伤及挫伤,综合评定为轻微伤。目前,警方根据《治安管理处罚法》对存在殴打他人违法行为的王某某、孙某某作出行政拘留7日,并处罚款500 元的处罚决定;对存在殴打他人违法行为的魏某某、余某某作出行政拘留 5日,并处罚款 500 元的处罚决定。现因王某某等四人对公安机关作出的行政处罚决定提请行政复议,公安机关依法对王某某等四人暂缓执行行政拘留。下一步,公安机关将根据行政复议结果依法执行通报中提及一位打人者王某某(男,34岁),引起网友注意,不少网友猜测其为王思聪。一开始有消息称,查阅王思聪百科发现,王思聪生日为1988年1月3日,他在今年1月3日就已满35周岁,与警方通报中的资讯不符合,初步可排除王某某系王思聪。但随后据新京报的报道,从权威信源获悉,打人者王某某系王思聪。(文章来源:新京报)打开微信,点击底部的“发现”使用“扫一扫”即可将网页分享至朋友圈扫描二维码关注东方财富官网微信']\n", "Scraping http://finance.eastmoney.com/a/202301122612039557.html\n", "['中汽协:若一季度汽车销量下滑较严重 相关部门会考虑相关政策的延续', 'http://finance.eastmoney.com/a/202301122612039557.html', '2023年01月12日 15:20', '作者:徐昊', '【中汽协:若一季度汽车销量下滑较严重相关部门会考虑相关政策的延续】中汽协副秘书长陈士华今日表示,燃油车购置税减半政策在去年6月份出台以来,对汽车市场的促进作用非常大,行业呼吁购置税减半政策能够在2023年延续。中国汽车工业协会副总工程师许海东则表示,如果一季度汽车销量下滑比较严重,相关部门会考虑政策的延续。', '中汽协副秘书长陈士华今日表示,燃油车购置税减半政策在去年6月份出台以来,对汽车市场的促进作用非常大,行业呼吁购置税减半政策能够在2023年延续。中国汽车工业协会副总工程师许海东则表示,如果一季度汽车销量下滑比较严重,相关部门会考虑政策的延续。2022年汽车销量同比增长2.1% 预计今年一季度终端市场压力较大中国汽车工业协会12日最新数据显示,2022年12月,汽车产量环比微降,销量小幅增长,同比均呈现下降。当月,汽车产销分别达到238.3万辆和255.6万辆,产量环比下降0.3%,销量环比增长9.7%,同比分别下降18.2%和8.4%。2022年,汽车产销分别完成2702.1万辆和2686.4万辆,同比增长3.4%和2.1%,全年实现小幅增长。中汽协副秘书长陈士华就12月销量情况分析称,随着疫情防控优化调整,燃油车购置税减半政策和新能源汽车补贴政策年底退出,厂商优惠幅度加大,叠加春节假期临近,12月终端市场“翘尾现象”明显。由于12月的回补效应,提前透支了部分需求,预计一季度终端市场压力较大,销量可能会出现明显下降。对此,他表示,为进一步激发市场主体和消费活力,呼吁能够继续出台购置税减半等促汽车消费政策,助力汽车产业稳定增长。总结全年发展,陈士华表示,2022年,尽管受疫情散发频发、芯片结构性短缺、动力电池原材料价格高位运行、局部地缘政治冲突等诸多不利因素冲击,但在购置税减半等一系列稳增长、促消费政策的有效拉动下,在全行业企业共同努力下,中国汽车市场在逆境下整体复苏向好,实现正增长,展现出强大的发展韧性。具体来看,乘用车在稳增长、促消费等政策拉动下,实现较快增长,为全年小幅增长贡献重要力量;商用车处于叠加因素的运行低位;新能源汽车持续爆发式增长,全年销量超680万辆,市场占有率提升至25.6%,逐步进入全面市场化拓展期,迎来新的发展和增长阶段;汽车出口继续保持较高水平,屡创月度历史新高,自8月份以来月均出口量超过30万辆,全年出口突破300万辆,有效拉动行业整体增长;中国品牌表现亮眼,紧抓新能源、智能网联转型机遇全面向上,产品竞争力不断提升,其中乘用车市场份额接近50%,为近年新高。具体数据显示,2022年12月,乘用车产销分别完成212.5万辆和226.5万辆,产量环比下降1.4%,销量环比增长9%,同比分别下降16.1%和6.7%。在乘用车主要品种中,与上月相比,除运动型多用途乘用车(SUV)产量下降、销量增长,其他三大类车型产销均呈不同程度增长;与上年同期相比,四大类车型均呈现下降,其中多功能乘用车(MPV)和交叉型乘用车产销降幅更为明显。2022年,乘用车产销分别完成2383.6万辆和2356.3万辆,同比增长11.2%和9.5%,增速高于行业总体。在乘用车主要品种中,与上年同期相比,基本型乘用车(轿车)和运动型多用途乘用车(SUV)产销呈现较快增长,继续占据主导地位;其他两大类车型呈现不同程度下降。2022年12月,新能源汽车产销继续保持高速增长,再创历史新高,分别达到79.5万辆和81.4万辆,同比均增长51.8%,市场占有率达到31.8%。在新能源汽车主要品种中,与上月相比,三大类品种产销均呈不同程度增长,其中燃料电池汽车增幅更为显著;与上年同期相比,上述三大类继续保持增长。2022年,新能源汽车产销分别达到705.8万辆和688.7万辆,同比增长96.9%和93.4%,市场占有率达到25.6%。在新能源汽车主要品种中,与上年同期相比,纯电动汽车、插电式混合动力汽车和燃料电池汽车产销继续保持高速增长。2022年12月,商用车产销分别完成25.8万辆和29.1万辆,环比分别增长9.8%和15.2%,同比分别下降32.1%和20.2%。在商用车主要品种中,与上月相比,客车、货车产销均实现增长;与上年同期相比,客车、货车产销均呈不同程度下降,其中货车降幅更为明显。2022年,商用车产销分别完成318.5万辆和330万辆,同比下降31.9%和31.2%,呈现两位数下滑。在商用车主要品种中,与上年同期相比,客车和货车产销均呈较快下降。出口方面,2022年,由于海外供给不足和中国车企出口竞争力的大幅增强,出口突破300万辆,达到311.1万辆,同比增长54.4%,有效拉动行业整体增长。分车型看,乘用车出口252.9万辆,同比增长56.7%;商用车出口58.2万辆,同比增长44.9%。新能源汽车出口67.9万辆,同比增长1.2倍。自2021年,中国汽车出口全年总量首次突破200万辆,打破之前在百万辆左右徘徊的局面,实现了跨越式突破。12月,汽车企业出口32.4万辆,环比下降1.9%,同比增长45.4%。分车型看,乘用车本月出口27.5万辆,环比下降0.6%,同比增长47.2%;商用车出口4.9万辆,环比下降8.6%,同比增长35.7%。新能源汽车出口8.2万辆,环比下降14.2%,同比增长3.6倍。展望未来,陈士华表示,随着相关配套政策措施的实施,将会进一步激发市场主体和消费活力,我们对于全年经济好转充满信心。加之新的一年芯片供应短缺等问题有望得到较大缓解,预计2023年汽车市场将继续呈现稳中向好发展态势,呈现3%左右增长。(文章来源:财联社)打开微信,点击底部的“发现”使用“扫一扫”即可将网页分享至朋友圈扫描二维码关注东方财富官网微信']\n" ] } ], "source": [ "import requests\n", "import sys \n", "from bs4 import BeautifulSoup\n", "\n", "\n", "def get_body(href):\n", " \"\"\"Function to retrieve news content given its url.\n", " Args:\n", " href: url of the news to be crawled.\n", " Returns:\n", " content: the crawled news content.\n", "\n", " \"\"\"\n", " headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:93.0) Gecko/20100101 Firefox/93.0'}\n", " html = requests.get(href, headers=headers)\n", " soup = BeautifulSoup(html.content, 'html.parser')\n", " \n", " # Time and Source\n", " infos = soup.find('div', {'class': 'infos'})\n", " time_source = infos.findAll('div', {\"class\": \"item\"})\n", " time = time_source[0].get_text()\n", " source = time_source[1].get_text().replace(\"\\n\", \"\").replace(\"\\r\", \"\").replace(\" \", \"\")\n", " \n", " divs = soup.find('div', {\"class\": \"zwinfos\"})\n", " # Abstract\n", " abstract = divs.find('div', {\"class\": \"txt\"}).get_text().replace(\"\\n\", \"\").replace(\"\\r\", \"\").replace(\" \", \"\")\n", " \n", " # Full texts\n", " content = ''\n", " paras = divs.findAll('p')\n", " for p in paras:\n", " ptext = p.get_text().strip().replace(\"\\n\", \"\")\n", " content += ptext\n", " \n", " # Return a list\n", " return [time, source, abstract, content]\n", "\n", "# Let's run the function with the previous obtained csv file.\n", "if __name__ == \"__main__\":\n", " # Getting and printing content for each url in the crawled web list pages\n", " with open(\"data/topCommentedNews.csv\") as f:\n", " for line in f:\n", " title, href = line.strip().split('\\001')\n", " # Printing progress onto console\n", " print('Scraping ' + href)\n", " full_info = get_body(href)\n", " print([title, href] + full_info)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## Web Crawling with `Scrapy`*\n", "\n", "One of the challenges of writing web crawlers is that you’re often performing the same tasks again and again: find all links on a page, evaluate the difference between internal and external links, go to new pages. These basic patterns are useful to know and to be able to write from scratch, but the Scrapy library handles many of these details for you." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Installing Scrapy\n", "\n", "- After Anaconda is installed, you can install Scrapy by using this command:\n", " \n", " conda install -c conda-forge scrapy" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Dealing with Different Website Layouts\n", "\n", "Fortunately, in most cases of web crawling, you’re not looking to collect data from sites you’ve never seen before, but from a few, or a few dozen, websites that are pre-selected by a human. This means that you don’t need to use complicated algorithms or machine learning to detect which text on the page “looks most like a title” or which is probably the “main content.” You can determine what these elements are manually.\n", "\n", "The most obvious approach is to write a separate web crawler or page parser for each website. Each might take in a URL, string, or BeautifulSoup object, and return a Python object for the thing that was scraped.\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## Initializing a New Spider\n", "\n", "To create a new spider in the current directory, run the following from the **command line (NOT THE PYTHON PROMPT)**:\n", "```\n", " scrapy startproject wikiSpider\n", "``` \n", " \n", "This creates a new subdirectory in the directory the project was created in, with the title wikiSpider. Inside this directory is the following file structure:\n", "\n", "- scrapy.cfg\n", "- wikiSpider\n", " - spiders\n", " - __init.py__\n", " - items.py\n", " - middlewares.py\n", " - pipelines.py\n", " - settings.py\n", " - __init.py__" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Generate some spiders with templates from the command line\n", "\n", " scrapy genspider example example.com \n", " scrapy genspider example2 example.com \n", " scrapy genspider example3 example2.com " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Writing a Simple Scraper\n", "\n", "To create a crawler, you will add a new file inside the spiders directory at wikiSpider/wikiSpider/spiders/article.py. In your newly created **article.py** file, write the following:\n", "\n", "```python\n", " import scrapy\n", "\n", " class ArticleSpider(scrapy.Spider):\n", " name='article'\n", "\n", " def start_requests(self):\n", " urls = [\n", " 'http://en.wikipedia.org/wiki/Python_%28programming_language%29',\n", " 'https://en.wikipedia.org/wiki/Functional_programming',\n", " 'https://en.wikipedia.org/wiki/Monty_Python']\n", " return [scrapy.Request(url=url, callback=self.parse) for url in urls]\n", "\n", " def parse(self, response):\n", " url = response.url\n", " title = response.css('h1::text').extract_first()\n", " print('URL is: {}'.format(url))\n", " print('Title is: {}'.format(title))\n", "```" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Run this article spider\n", "\n", "You can run this article spider by navigating to the wikiSpider/wikiSpider directory and running from the command line:\n", "\n", " scrapy runspider article.py\n", " \n", "### Run your project with at the project root directory\n", "\n", " scrapy crawl table -o table.csv --logfile table.log\n", " " ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Scrapy Shell\n", "\n", "To do the crawler interactively, just run from the command line\n", "\n", "```bash\n", "scrapy shell \"http://en.wikipedia.org/wiki/Python_%28programming_language%29\"\n", "```" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "# Lab \n", "\n", "Use `scrapy` framework to implement the we studied with `BeautifulSoup`" ] } ], "metadata": { "celltoolbar": "Slideshow", "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.10.9" }, "toc": { "base_numbering": 1, "nav_menu": {}, "number_sections": true, "sideBar": true, "skip_h1_title": false, "title_cell": "Table of Contents", "title_sidebar": "Contents", "toc_cell": false, "toc_position": { "height": "calc(100% - 180px)", "left": "10px", "top": "150px", "width": "359px" }, "toc_section_display": true, "toc_window_display": true } }, "nbformat": 4, "nbformat_minor": 2 }