NBA 史上实力最弱的球队是哪个?用 Python + SQL 我们找到了答案
雷锋网按:此前我们专门发布了一篇文章分析NBA史上实力最强的球队,详见《用 Python 分析过去四年的比赛数据,实力最强的 NBA 球队原来是它》,这次我们来看看最弱的是哪个。原文作者 Kaiser,景略集智总经理,原载于集智网专栏 ,雷锋网已获授权。
文中部分代码会有“代码补完”字样的注释,是留给读者自己补完并在线评测的,相当于小作业,这里就请大家自行脑补吧。(编者注:每个需要补充的部分都给出了提示信息)
01. elo值
elo值就像现在竞技网游里的天梯系统,队伍在每场比赛后会根据表现有所调整,胜增败减,小胜小增,大胜大增。elo值反映了一支队伍在常规赛中的胜场期望,1800的对应期望是获胜67场以上,就是王朝级强队了。具体的天梯分段分布如下:
ELO值 匹配战绩 对应队伍描述
1800 67-15 史诗级别
1700 60-22 总冠军争夺者
1600 51-31 季后赛水平
1500 41-41 平均水平
1400 31-51 乐透水平
1300 22-60 无言以对
1200 15-67 糟糕透顶
历史上最高纪录是96年总决赛阶段的公牛,曾一度突破了1850分。
知名数据分析网站538(fivethirtyeight.com)提供了NBA历史赛程的 elo 值记录(至2015赛季),有六万余条数据。这个数据量不能算很大,但是在本地用Excel直接打开操作,估计体验还是挺痛苦的,这里就介绍一下如何用Python+SQL 来处理,或许会对广大劳形于 Excel 之间的朋友们有所帮助。
02. 元组
元组(tuple)是另一种Python中常用的数据类型,他跟列表非常相似,都可以包含若干元素,并且元素的调用都是通过方括号+索引的形式。
sample_list = [0,1,2,3]
sample_tuple = (0,1,2,3)
# 列表的第1个元素
sample_list[0]
# 元组的第2个元素
sample_tuple[1]
主要区别在于:
● 元组用括号定义,列表用方括号定义
● 元组不可更改
● 即使只有一个元素,也需要有逗号,如(item1, ) 。如果缺了这个逗号,得到的仍是元素本身,而不是元组。
元组只能在定义时赋值,如果强行更改会得到解释器的错误提示。
TypeError:
'tuple' object does not support item assignment
有的函数返回值并非一个数值或字符,而是具有多重输出,这时就以元组格式存在。比如下例返回的是两个输入参数的和与乘积,可以点击运行 查看,两个输出在中。
def sum_times(x, y):
return (x + y), (x * y)sum_times(2,3)
03. 数据库
在之前的几篇教程中,我们已经接触过了一些数据集,既有在程序中生成的,也有存储在文本文件中的。对于体积较大的数据集,一般都存在文件中,程序运行时再读入内存。
但是文件存储数据(.txt或.csv)还面临很大的问题,一是当数据量比计算机内存还要大的时候,会带来沉重的计算负担甚至无法运行;二是数据有可能高频变化,比如电商在双11高峰期每秒就有几万次交易,普通的文件格式显然无法处理。
于是数据库(database)应运而生。数据库首先是结构化(structured) 存储数据的方式,为了更加灵活的处理数据,程序不再一次性将所有数据读入内存,而是根据具体需要进行查询(query) ,获得相应的数据集。完成这些工作的程序语言叫作SQL(Structured Query Language) ,在计算机方面稍有常识的朋友想必都对这个缩写不会陌生。
著名的关系型数据库管理系统有MySQL, Oracle等。
04. SQLite
SQL是专为查询、操作数据库所用的语言,所以不像Python, JavaScript等语言那样功能丰富,扩展多样。
一个数据库由若干个表(table) 组成,就像每个Excel文件里有多个Sheets。每个表又包含行(row) 与列(column) ,这就比较好理解了。一行代表一个样本,而多列定义了各个维度上的属性。
SQLite 是一种轻型的数据库管理系统,占用资源极低且处理速度快,目前更新到了3版本。Python有专门处理SQLite语句的库sqlite3 。
import sqlite3
以下我们将以一份NBA的历史赛程数据为例,来了解SQL的基本法则与应用方法。(数据来源:FiveThirtyEight)
05. 查询
与数据库进行通信的最基本形式是查询(query),即返回符合条件的数据子集,其基本关键字是SELECT,SELECT后面跟所选列的表头。前面提到过一个数据库里可能存在多个表,所以查询语句必须指定来源表,关键字是FROM。
SELECT column1, column2, ... FROM table;
注意SQL是要求句末有分号(;)的,这与Python的习惯大为不同,可能会唤起一度为C++支配的恐惧。
NBA数据库里只含一张表,名为sheet ,假设我们想要查询sheet表中的team_id 列,那么对应的SQL是:
SELECT team_id FROM nba_history;
如果数据库非常庞大,那么即使哪怕仅仅查询某些列,也是不小的计算量,这里可以引入新的关键字LIMIT ,之后接想要查询的行数。比如只想要前5 行的team_id 列,那么SQL为:
SELECT team_id FROM nba_history LIMIT 5;
下例将通过Python调用SQLite,查询elo_n和win_equiv两列的前5行:
import sqlite3
conn = sqlite3.connect('/mnt/vol0/Py_Intro/05_tuple_database/nbaallelo.db')
cur = conn.cursor
# 代码补完
query =
#代码补完
cur.execute(query)
elos = cur.fetchall
conn.close
print(elos)
补完提示: 回顾示例,替换关键字之间的名称,并以字符类型赋值予变量 query
可见,查询语句返回的是以元组(tuple)为元素的列表(list)。上例的输出即是5个(elo_n, win_equiv)组成的列表,应为:
[(1293.2767, 40.29483),
(1306.7233, 41.70517),
(1309.6521, 42.012257),
(1297.0712, 40.692783),
(1279.6189, 38.864048)]
06. SQLite with Python
在04节最后的例子中,除了SQL语句,还有很多Python命令,这些是Python调用SQLite的语句。
连接对象
首先是建立与数据库的联系,sqlite3.connect 将返回Connection 实例对象,然后存为conn 变量,此时的conn 对应的是整个数据库。
import sqlite3
conn = sqlite3.connect("/mnt/vol0/Py_Intro/05_tuple_database/nbaallelo.db")
游标对象
Connection 对象的.cursor 可以创建游标对象(cursor object)。游标对象可以对数据库执行SQL语句并进行更灵活的数据操作。
王莽的游标
query 是纯SQL语句,通过cur.execute 实际执行,此时数据库查询的结果仍在cur对象中。最后调用cur.fetchall 将查询结果全部返回,并存至变量elos ,就是最终得到的元组列表。
如果只想返回一条查询结果,可以使用cur.fetchone 。
关于Python与SQLite3的联合应用,以后还会深入讲解,本篇仍将重点回归到SQL语句上。
07. Where
仅仅从数据库的某个表中查询某一列的前若干行,这样的操作局限性太大,很难满足应用需求。实际上我们感兴趣的数据子集并非总是按照顺序排列,而是符合某种限制条件。
为了进一步缩减精确查询范围,可以使用关键字WHERE。比如我们想要查询NBA历史上,赛后elo值elo_n高于1850的强队ID,其SQL语句是:
SELECT team_id, elo_n FROM sheet WHERE elo_n > 1850
查询结果表明,历史上唯一一支elo值曾经突破1850的队伍是1996年总决赛时期的芝加哥公牛。
下面请查询elo_n 低于1100 的弱队ID,及其对应比赛日期。sqlite3库以及连接对象、游标对象已经预定义,可以从定义SQL查询语句query开始。
# 代码补完
query =
# 代码补完
cur.execute(query)
elo_1100 = cur.fetchall
conn.close
print(elo_1100)
补完提示: 请以"fran_id", "date_game", "elo_n"的顺序进行查询。
查询筛选结果显示,历史上一度衰到1100以下的弱旅,也只有1968年一支名为"Squires"的队伍。
他们这么弱,我认为与名字起的不好是分不开的。"Squire"在英文中是“侍从”的意思,在《炉石传说》中,就有很多仆从名为"Squire",比如11圣盾小兵:
雷锋网(公众号:雷锋网)相关阅读:
用 Python 分析过去四年的比赛数据,实力最强的 NBA 球队原来是它
禅与奶罩识别艺术(上)
2分钟,快速认识什么是SQL
结构化查询语言,简称SQL,它是与关系数据库管理系统通信的黄金标准语言。今天就来一起快速认识一下什么是SQL,您可以通过以下的文字内容学习,也可以通过文末的视频学习,希望本文对您有所帮助。
您可能听说过 MySQL、Postgres、Microsoft SQL Server 和 Oracle 等数据库,所有这些数据库都基于 SQL,但有自己的微小变化。它最初是在 70 年代初开发的,用于修改和检索 IBM System R 数据库中的数据。到 1986 年,它被标准化为语法,至今在技术应用中仍然非常流行。
关系数据库将数据组织到表中,有点像 Excel 电子表格,其中列包含数据的属性或类型。
每行代表一个单独的记录或数据点,具有自己的唯一 ID(称为主键)。
我们可以通过从一行获取唯一 ID,并将其存储在不同表的不同行中称为外键的特殊列中来建立数据点之间的关系。
在球队表中,球队ID是主键,但在球员表中,它是外键。
这个数据结构告诉我们的是,一名球员属于一个球队,而一个球队可以有多名球员。
我们在这里所做的是以最小的范式构建数据,以消除重复和冗余。现在,SQL 的作用不仅是读取、创建、更新和删除数据,而且还根据数据中嵌入的关系将数据连接在一起。
SQL语法由几个关键部分组成。如果我们一直缩小,我们就会有一个语句或一段代码来执行某些操作,例如:读取或写入数据库。
在语句中,我们有各种可以操作数据库的关键字。
SELECT 可用于查询表中所需的列。列名和表名被称为标识符
但我们可能不需要表中的每一行,因此我们使用 WHERE 关键字过滤结果,以仅包含满足特定条件的记录。
这就像循环遍历表中的每一行,并且只返回查询中谓词计算结果为 true 的行。
然后,我们可以使用 JOIN 关键字连接来自完全不同的表的数据,方法是将该表上的主键与另一个表上的外键相匹配。
我们创建的是组成完整 SQL 语句的子句集合。我们现在可以在数百个支持 SQL 的不同数据库上执行此代码。
如果您想开拓眼界,了解和发现更多计算机领域的概念和知识,欢迎关注我在持续更新的开发者科普专栏:https://www.didispace.com/youtube/,助你探索更多计算机领域的热门知识!