助教课程第二节课
本文最后更新于1 天前,其中的信息可能已经过时,如有错误请发送邮件到zhangzihao60102@gmail.com

爬虫介绍

网络爬虫是在不使用API和Web浏览器的情况下,通过计算机程序自动从internet上收集数据的一种实践。还有一些其他的术语,包括屏幕抓取、web收集、web爬行、数据挖掘,都包含在网络爬虫中。

这是一门网络爬虫实战课程,让我们带你揭开爬虫的神秘面纱,掌握爬虫的基本原理,理解爬虫框架,进行项目实战,解决在数据抓取过程中遇到的常见问题。

网络爬虫可以自动完成这一过程,而不是由访问网站的web浏览器复制粘贴重要数据。网络爬虫现在对数据科学家来说非常重要。数据科学家分析从各种媒体收集的数据。现在大部分数据来自不同的网站。由于Python编程非常流行于收集数据,许多数据科学家使用Python编程来解决这个问题。

如果我们分析谷歌的业务,我们将看到谷歌最初作为一个搜索引擎启动。他们的搜索引擎最初是使用Python编程构建的。即使是在一项研究中,来自twitter、facebook和博客的不同类型的信息也被收集起来,以构建一个用于构建预测模型的数据集。因此,知道如何使用Python抓取web数据是一项必须掌握的重要技能。

我创建了这个课程,尽可能的简短和有用。在很短的时间内,您就可以学习使用Python进行网络爬虫的所有重要主题和技术。

在本课程中,我假设您对网络爬虫没有或几乎没有经验。我将教你网络抓取从零开始到一个完整的程序。您将学习使用Python中不同且流行的方法来抓取其他网站的数据。

Flask介绍

Flask 是一个用 Python 编写的轻量级 Web 应用框架。

Flask 被称为”微框架”,因为它使用简单的核心,用扩展增加其他功能。

Flask 特点

  • 轻量级和简洁:Flask 是一个微框架,提供了最基本的功能,不强制使用任何特定的工具或库。它的核心是简单而灵活的,允许开发者根据需要添加功能。
  • 灵活性:Flask 提供了基本的框架结构,但没有强制性的项目布局或组件,开发者可以根据自己的需求自定义。
  • 可扩展性:Flask 的设计允许你通过插件和扩展来添加功能。许多常见的功能,如表单处理、数据库交互和用户认证,都可以通过社区提供的扩展来实现。
  • 内置开发服务器:Flask 内置了一个开发服务器,方便在本地进行调试和测试。
  • RESTful 支持:Flask 支持 RESTful API 的开发,适合构建现代的 Web 服务和应用程序。

Flask 适用场景

  • 小型项目:对于小型的个人项目或初创项目,Flask的简单性和灵活性可以快速启动和迭代。
  • 原型开发:在产品开发的早期阶段,Flask可以用来快速构建原型,验证概念和用户界面。
  • 微服务:在微服务架构中,Flask可以用来构建独立的、轻量级的服务组件。
  • API开发:Flask非常适合开发RESTful API,因为它的路由系统简单明了,可以轻松地定义API端点。
  • 教育和学习:由于其易用性,Flask是学习Web开发和Python编程的优秀工具。
  • 内部工具:Flask可以用于开发公司内部使用的工具或仪表板,这些工具通常不需要复杂的用户界面。
  • 插件或扩展:Flask可以作为其他大型框架的插件或扩展,提供特定的功能。
  • 定制Web应用:对于需要高度定制的Web应用,Flask提供了足够的灵活性来满足特定需求。
  • 数据可视化:Flask可以与数据可视化库(如Bokeh或Plotly)结合使用,创建交互式的数据可视化Web应用。
  • 科学计算和数据分析:Flask可以与科学计算库(如NumPy、Pandas)结合,用于开发数据分析和科学计算的Web应用。
  • 轻量级CMS:Flask可以用来构建轻量级的内容管理系统,尤其是当需要高度定制化时。
  • Web Scraping:Flask可以作为Web Scraping项目的后端,处理数据抓取和API请求。

导入项目

Pycharm导入项目并打开

新建环境

conda create -n ccs python=3.10

进入虚拟环境

conda activate ccs

安装虚拟环境包

pip install -r .\requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完成后,可以通过以下命令验证 Flask 是否安装成功:

pip show Flask

执行以上命令,显示结果类似如下:

Name: Flask
Version: 3.0.3
Summary: A simple framework for building complex web applications.
Home-page: 
Author: 
Author-email: 
License: 
Location: /Users/RUNOOB/.pyenv/versions/3.9.7/lib/python3.9/site-packages
Requires: itsdangerous, Jinja2, blinker, Werkzeug, click, importlib-metadata
Required-by: 

这样我们就成功安装了 Flask 包。

修改数据库内容

打开navicat,绑定数据库

数据集依赖报错:

安装数据库解析依赖包

pip install cryptography

修改代码

utils/query.py

修改地址。

conn = connect(host='localhost',user='root',password='123456',database='wb',port=3306)

修改为密码和database为自己的。

navicat创建一个新的数据集,名字是wb。

导入新的数据库

然后在user中找到username和password。

登录就可以啦。

文末附加内容
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇