python菜鸟入门教程

2023-04-17 09:36:02

由舒淇0分享

Python是一款功能强大的脚本语言，具有丰富和强大的库，重要的是，它还具有很强的可读性，易用易学，非常适合编程初学者入门。下面小编为大家带来python菜鸟入门教程，希望对您有所帮助!

python菜鸟入门教程

环境配置：下载Python并安装，安装完成后，配置windows的环境变量：打开高级系统设置，将Python的安装目录添加到系统变量path中。配置完成后，在cmd命令行，输入命令"Python"，出现Python版本号，即配置成功

教程学习：上网百度下载一份Python教程，进行学习。初学者入门的话，没必要整份教程看一遍，只需要将基础的语法及模块挑出学习，如：字符串、列表、字典、元组、文件及数据库的操作

上机实践：单纯地学习教程绝对是没法学好编程语言的，我们需要通过实践将理论知识转为实打实的技能。在学习的过程中，可以在Ulipad上尝试编写脚本，也可以将教程上的代码自己敲一遍。总之，一定要“多敲”

下载安装步骤

趁着在家有个干净的windows环境，我自己尝试从头配置Python+webdriver，公司的配置是前辈已经帮忙配好的。本文档在于帮助菜鸟扫盲。有些内容是引用虫师的

1.下载python，好吧官网有，直接exe安装吧少年，推荐下载py2.7，3.3不太稳定(说错别砍我，我很菜)

2.下载setuptools(python的基础包工具)，同样是exe 文件，默认会找到python 的安装路径，将安装到C:Python27Libsite-packages 目录下

3.下载pip，(python安装包管理工具)，我默认解压在了C:pip-1.3.1 目录下

4.打开命令提示符(开始---cmd 回车)进入C:pip-1.3.1目录下输入：

C:pip-1.3.1 > python setup.py install

(如果提示python 不是内部或外部命令!别急，去配置一下环境变量吧)

5.再切换到C:Python27Scripts 目录下输入：

C:Python27Scripts > easy_install pip

6、安装selenium，(下载地址： https://pypi.python.org/pypi/selenium )

如果是联网状态的话，可以直接在C:Python27Scripts 下输入命令安装：

C:Python27Scripts > pip install -U selenium

如果没联网(这个一般不太可能)，下载selenium 2.33.0 (目前的最新版本)

并解压把整个目录放到C:Python27Libsite-packages 目录下。

7、下载selenium 的服务端(https://code.google.com/p/selenium/)在页面的左侧

列表中找到

selenium-server-standalone-_X.jar

对!就是这个东西，把它下载下来并解压;

在selenium-server-standalone-_x.jar 目录下使用命令java -jar

selenium-server-standalone-_x.jar 启动(如果打不开，查看是否端口被占用：

netstat -aon|findstr 4444)。

至此步骤完毕

接下来是一些注意事项，是我配置想启动的过程中遇到的问题，希望对你们有所帮助：

1.我写了个入门的python+webdriver脚本：

出现error：

Traceback (most recent call last): File "C:Python27Libaa.py", line 1, in from selenium import webdriverImportError: No module named selenium

解决方案：没有找到selenium，好吧他说selenium没装，但是我真的安装的啊。我勒个去。于是我把我之前selenium-2.35.0.tar删了，在线用pip命令操作安装selenium，发现用from selenium import webdriver还是报错，于是找啊找，参见该博客http://blog.sina.com.cn/s/blog_416544cb0101kzua.html

重启电脑，这里如果不重启，不生效，OK，这个重启电脑搞定这个问题

2.我相信很多人会去手写python脚本

请大家注意调用浏览器首字母要大写。。。(今天差点弄死我)，如:Firefox，Chrome,Ie

3.注意得把IEDriverServer跟chromedriver放到对应浏览器的安装目录下

配置浏览器的环境变量Path：如

Chrome:C:UserswyxAppDataLocalGoogleChromeApplication

4.在python的安装目录下也放IEDriverServer，chromedriver

Python入门

第一步：Python入门

这一阶段，你需要学习的知识点：

如果学习能力还不错的话，这一阶段，只需要一个多月的时间

教程如下：

Python入门教程完整版(懂中文就能学会)http://pan.baidu.com/s/1miwZ1WW

第二步：熟悉Scrapy各模块

教程简介：

(1)Scrapy的简介。

主要知识点：Scrapy的架构和运作流程。

(2)搭建开发环境：

主要知识点：Windows及Linux环境下Scrapy的安装。

(3)Scrapy Shell以及Scrapy Selectors的使用。

(4)使用Scrapy完成网站信息的爬取。

主要知识点：创建Scrapy项目(scrapy startproject)、定义提取的结构化数据(Item)、编写爬取网站的 Spider 并提取出结构化数据(Item)、编写 Item Pipelines 来存储提取到的Item(即结构化数据)。

教程下载地址：Scrapy教程 http://pan.baidu.com/s/1dF3qhFV

第三步：Django教程

教程简介：

(1)Django的简介。

主要知识点：MVC设计模式以及Django的MVT。

(2)搭建开发环境：

主要知识点：Linux的虚拟环境搭建和应用、Django的安装。

(3)利用Django框架完成简单的图书项目：

主要知识点：编写模型，使用API与数据库交互、使用Django的后台管理管理数据、通过视图接收请求，通过模型获

教程下载地址：Django教程 http://pan.baidu.com/s/1nvFlfU5

第四部：Python全栈教程

教程简介：

(1)HTTP协议的分析：

HTTP格式。

包含知识点：HTTP GET请求的格式、HTTP POST请求的格式、HTTP响应的格式。

(2)HTTP协议的使用(实现Web静态服务器)：

利用HTTP协议实现Web静态服务器。

包含知识点：浏览器首先向服务器发送HTTP请求、服务器向浏览器返回HTTP响应、使用类。

(3)服务器动态资源请求(实现Web动态服务器)：

利用WSGI实现Web动态服务器。

包含知识点：浏览器请求动态页面的过程介绍、WSGI的介绍、定义WSGI接口。

教程下载地址：

Python全栈教程 http://pan.baidu.com/s/1nvFlfU

掌握分布式爬虫技术与数据去重技术

有一些站点，通过常规的爬虫很难去进行爬取，这个时候，你需要借助一些工具模块进行，比如PhantomJS、Selenium等，所以，你还需要掌握PhantomJS、Selenium等工具的常规使用方法。

如果你已经学习或者研究到到了这里，那么恭喜你，相信现在你爬任何网站都已经不是问题了，反爬对你来说也只是一道形同虚设的墙而已了。

但是，如果要爬取的资源非常非常多，靠一个单机爬虫去跑，仍然无法达到你的目的，因为太慢了。

所以，这个时候，你还应当掌握一种技术，就是分布式爬虫技术，分布式爬虫的架构手段有很多，你可以依据真实的服务器集群进行，也可以依据虚拟化的多台服务器进行，你可以采用urllib+redis分布式架构手段，也可以采用Scrapy+redis架构手段，都没关系，关键是，你可以将爬虫任务部署到多台服务器中就OK。

至于数据去重技术，简单来说，目的就是要去除重复数据，如果数据量小，直接采用数据库的数据约束进行实现，如果数据量很大，建议采用布隆过滤器实现数据去重即可，布隆过滤器的实现在Python中也是不难的。

python菜鸟入门教程

相关推荐