如何学习python知乎

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何学习python知乎相关的知识,希望对你有一定的参考价值。

对于Python的学习人员需要掌握以下技术。
1.网络编程。
网络编程在生活和开发中无处不在,哪里有通讯就有网络,它可以称为是一切开发的"基石"。对于所有编程开发人员必须要知其然并知其所以然,所以网络部分将从协议、封包、解包等底层进行深入剖析。
2. 爬虫开发。
将网络一切数据作为资源,通过自动化程序进行有针对性的数据采集以及处理。爬虫开发项目包含跨越防爬虫策略、高性能异步IO、分布式爬虫等,并针对Scrapy框架源码进行深入剖析,从而理解其原理并实现自定义爬虫框架。
3.Web开发。
Web开发包含前端以及后端两大部分,前端部分,带你从"黑白"到"彩色"世界,手把手开发动态网页;后端部分,带你从10行代码开始到n万行来实现并使用自己的微型Web框架,框架讲解中涵盖了数据、组件、安全等多领域的知识,从底层了解其工作原理并可驾驭任何业内主流的Web框架。
4. IT自动化开发。
IT运维自动化是一组将静态的设备结构转化为根据IT服务需求动态弹性响应的策略,目的就是实现减少人工干预、降低人员成本以及出错概率,真刀真枪的带你开发企业中最常用的项目,从设计层面、框架选择、灵活性、扩展性、故障处理、以及如何优化等多个层面接触真实的且来源于各大互联网公司真实案例,如:堡垒机、CMDB、全网监控、主机管理等。
5. 金融分析。
金融分析包含金融知识和Python相关模块的学习,手把手带你从金融小白到开发量化交易策略的大拿。学习内容囊括Numpy\Pandas\Scipy数据分析模块等,以及常见金融分析策略如"双均线"、"周规则交易"、"羊驼策略"、"Dual Thrust 交易策略"等,让梦想照进现实,进入金融行业不再是个梦。
6. 人工智能+机器学习。
人工智能时代来临,率先引入深度机器学习课程。其中包含机器学习的基础概念以及常用知识,如:分类、聚类、回归、神经网络以及常用类库,并根据身边事件作为案例,一步一步经过预处理、建模、训练以及评估和参调等。人工智能是未来科技发展的新趋势,Python作为最主要的编程语言,势必有很好的发展前景,现在学习Python也是一个很好的机会。
参考技术A 推荐用 “疯狂python讲义”这本书的内容/知识点很全面,有网络编程,多线程并发编程,数据库编程,大数据分析,GUI编程,pygame游戏编程,网络爬虫。书中的内容很容易看懂和理解,每章后都有大量的复习/编程题来巩固你学到的知识,书中也有很多例子,比如说五子棋,合金弹头,桌面弹球,反爬虫抵抗,爬取指定网站上的所有的图片,爬取指定网站上的所有的工作机会,指定地区的天气情况的数据分析,各个国家的人均GDP数据分析

用Python做一个知乎沙雕问题总结

用Python做一个知乎沙雕问题总结

技术图片
松鼠爱吃饼干2020-04-01 13:40

 

技术图片

 

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者: 数据森麟

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun

这两天偶然上网的时候,被知乎上一个名为“玉皇大帝住在平流层还是对流层”的问题吸引,本以为只是小打小闹,殊不知这个问题却在知乎上引发了强烈共鸣,浏览次数500W+,7000+关注:

技术图片

 

 

数据来源

知乎非常“贴心”地专门有一个问题可以满足我们的需求,出人意料的是这个问题居然有243个回答,并且陶飞同学获得了3W+的赞同

技术图片

 

我们从中爬取了所有回答中出现的问题链接,共用400多个问题,其中陶飞就提供了200+,在此向陶飞同学表示感谢,帮助我们构建了“沙雕数据库”,这部分代码如下:

import re
import selenium
from selenium import webdriver
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
?
driver = webdriver.Chrome()
driver.maximize_window()
?
url = ‘https://www.zhihu.com/question/37453271‘
js=‘window.open("‘+url+‘")‘
driver.execute_script(js)
driver.close()
driver.switch_to_window(driver.window_handles[0])
for i in range(100):
     js="var q=document.documentElement.scrollTop=10000000"  
     driver.execute_script(js)
?
all_html = [k.get_property(‘innerHTML‘) for k in driver.find_elements_by_class_name(‘AnswerItem‘)]
all_text = ‘‘.join(all_html)
?
#all_text = all_text.replace(‘u002F‘,‘/‘)
all_text = all_text.replace(‘questions‘,‘question‘)
pat = ‘question/d+‘
questions = list(set([k for k in re.findall(pat,all_text)]))

获得到了问题的对应的编号后,就可以去各自的页面获取各个问题对应的的标题、浏览数等信息,如下图所示:

技术图片

 

这部分代码如下:

header = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win32; x32; rv:54.0) Gecko/20100101 Firefox/54.0‘,
‘Connection‘: ‘keep-alive‘}
cookies =‘v=3; iuuid=1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; webp=true; ci=1%2C%E5%8C%97%E4%BA%AC; __guid=26581345.3954606544145667000.1530879049181.8303; _lxsdk_cuid=1646f808301c8-0a4e19f5421593-5d4e211f-100200-1646f808302c8; _lxsdk=1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; monitor_count=1; _lxsdk_s=16472ee89ec-de2-f91-ed0%7C%7C5; __mta=189118996.1530879050545.1530936763555.1530937843742.18‘
cookie = {}
for line in cookies.split(‘;‘):
    name, value = cookies.strip().split(‘=‘, 1)
    cookie[name] = value
?
questions_df = pd.DataFrame(columns = [‘title‘,‘visit‘,‘follower‘,‘answer‘,‘is_open‘])
?
for i in range(len(questions)):
    try:
        url = ‘https://www.zhihu.com/‘+questions[i]
        html = requests.get(url,cookies=cookie, headers=header).content
        bsObj = BeautifulSoup(html.decode(‘utf-8‘),"html.parser")
        text = str(bsObj)
        title = bsObj.find(‘h1‘,attrs={‘class‘:‘QuestionHeader-title‘}).text
        visit = int(re.findall(‘"visitCount":d+‘,text)[0].replace(‘"visitCount":‘,‘‘))
        follower = int(re.findall(‘"followerCount":d+‘,text)[0].replace(‘"followerCount":‘,‘‘))
        answer = int(re.findall(‘"answerCount":d+‘,text)[0].replace(‘"answerCount":‘,‘‘))
        is_open = int(len(re.findall(‘问题已关闭‘,text))==0)
        questions_df = questions_df.append({‘title‘:title,‘visit‘:visit,
                                            ‘follower‘:follower,‘answer‘:answer,
                                            ‘is_open‘:is_open},ignore_index=True)
        time.sleep(2)
        print(i)
    except:
        print(‘错误‘+str(i))

数据分析

在分享出最终的“沙雕排行榜”前,我们首先严肃认真(lixinggongshi)的进行一波分析,主要看一下问题中的关键词,首先是所有词云的词云:

技术图片

 

看来这些问题大多是源自于大家对于人生的探索,否则“为什么”,“如果”,“怎么办”也不会出现那么多,出人意料的是“体验”这个知乎专属tag居然并不多,可能是出于对知乎的尊重,和“体验”相关的问题都不会问得那么“沙雕”。

下面把这些助词去掉,再来看下结果:

技术图片

 

这个图看来,读者关注的问题还是很极端,一方面在关注男女朋友“你冷酷、你无情、你无理取闹”这种问题,另一方面却在关注宇宙、地球这种关乎全人类的问题,很符合知乎“人均985,各个过百万”的人设。

这两个图实际上都是基于一个表情,不知道有没有看出来:

技术图片

 

好吧,其实看不出来才是正常,能看出来的可能现在去知乎提个问题,下期就会上榜,最后把部分问题做出词云:

技术图片

 

不知道大家能不能看清,说实话我自己是看不清的,也没准备让大家看清,目的就是引出下面真正的排行榜

沙雕问题排行榜

通过综合问题观看数,关注数,回答数,关注占比,回答占比,综合得到分数的流量指数和新奇指数,最终获得一个整体的分数,如下图所示:

技术图片

 

听起来是不是很复杂,实际上最终还是通过90%10%的数据+10%90%的主观来进行了排名,为大家精选了15个最为“沙雕”的问题,

以上是关于如何学习python知乎的主要内容,如果未能解决你的问题,请参考以下文章

知乎1500赞丨如何系统有效学习 Python 自动化测试?

如何用python写爬虫 知乎

深度学习 python怎么入门 知乎

学python能干嘛知乎

python 书籍推荐

Python学习第一天