Learn

284 篇文章分类:全部
网络

访问网站时会看到什么

访问网站时,认为“只要没有输入姓名就是匿名”并不准确。

除了姓名以外,网站侧还可能收到多种信息。 访问源 IP 地址、访问时刻、访问目标 URL、User-Agent、、登录状态、参照来源、浏览器和终端特征等,都属于这类信息。

这些信息单独看,有时并不会直接表示个人姓名。 但是,多种信息组合起来后,可能被连接成同一使用者的行为,也可能用于推测使用环境。

思考匿名性时重要的,不是“是否输入了本名”,而是“哪些信息会被对方看到,哪些信息会相互连接”。

网站侧可能看到的信息

为了显示网站,浏览器会向服务器发送请求。 服务器处理该请求,并返回 HTML、CSS、图片、JavaScript、API 响应等。

这时,网站侧会收到通信和处理所需的信息。 这里所说的“网站侧”,不仅包括网站运营者的服务器,也可能包括 CDN、反向代理、访问分析、广告分发、认证基础设施等。

信息表示什么与匿名性的关系
访问源 IP 地址表示连接源网络的信息成为推测线路、地区、组织、连接源变化等的材料
访问时刻何时访问成为行为模式或与其他日志照合的材料
URL访问了哪个页面或 API可能看到浏览内容、搜索条件、操作对象
User-Agent表示浏览器、OS、终端种类等的字符串成为推测使用环境的材料
Cookie保存在浏览器中,符合条件时会被发送的数据用于同一浏览器的再访问、登录状态、设置保持
登录状态账号和会话相连接的状态访问内容可能与账号关联
参照来源表示从哪个页面而来可能看到流入来源或刚才的浏览路径
浏览器和终端特征画面尺寸、语言、时区、支持功能等与其他信息组合后,可能成为识别线索

并不是所有网站都会以同样方式记录这些信息。 另外,浏览器设置、网站设计、安全策略、Cookie 设置、是否使用 JavaScript,都会改变可见信息。

不过,思考匿名性时,需要把它们作为“可能可见的信息”来掌握。

访问源 IP 地址

访问网站时,通常连接目标可以看到访问源 IP 地址。 IP 地址是让互联网通信成立所需的信息。

通过 IP 地址,并不总是能知道个人姓名或准确住址。 但是,有时可以推测正在使用的通信运营商、连接源地区、企业、学校、公共机构等网络的可能性。

此外,在家庭或智能手机线路中,多人可能共享同一个全局 IP 地址。 因此,仅靠 IP 地址不一定能断定某一个使用者。

另一方面,IP 地址与访问时刻、Cookie、登录状态、User-Agent 等组合后,会成为识别和照合的强材料。 在匿名性中,IP 地址很重要,但并不是只看 IP 地址就足够。

访问时刻

网站侧有时会把访问发生的时刻记录为日志。 访问时刻单独看并不表示个人姓名,但与其他记录组合后会产生意义。

例如,特定时刻访问特定页面的记录、登录记录、支付记录、咨询记录、Cookie、IP 地址等组合后,可能推测行为之间的联系。

匿名性中,不仅“访问了什么”重要,“何时访问”也重要。 因为时间信息很容易成为照合多份日志时的轴。

URL

网站侧可以看到访问了哪个 URL。 特别是 URL 的路径和查询参数,可能包含与浏览内容或操作内容有关的信息。

例如,假设有下面这样的 URL。

https[:]//example.com/search?q=privacy

这种情况下,网站侧可能把握访问了 /search,以及附带了 q=privacy 这个搜索条件。

这里的 example.com 是说明中常用的示例域名。 它不是在介绍某个实际特定网站,而是作为说明 URL 结构的字符串来处理。

URL 中可能包含搜索词、文章 ID、商品 ID、用户 ID、活动 ID、跟踪参数等。 因此,URL 不只是页面地址,有时会成为表示访问内容一部分的信息。

不过,URL 中 # 之后的片段,通常不会在 HTTP 请求中发送给服务器。 例如,https[:]//example.com/page#section1 中的 #section1 主要是在浏览器侧使用的部分。

这样,分开思考 URL 的哪一部分会到达服务器也很重要。

User-Agent

User-Agent 是浏览器发送给服务器的请求头之一。 它可能包含浏览器名称、OS、终端种类、渲染引擎、版本信息等。

网站可能使用 User-Agent 切换 PC 端显示和智能手机端显示,或判断是否支持旧浏览器。

仅凭 User-Agent 不一定能识别个人。 但是,与 IP 地址、Cookie、访问时刻、语言设置、画面尺寸、登录状态等组合后,会成为区分使用环境的材料。

近年来,为保护隐私,减少 User-Agent 信息量的趋势也在出现。 不过,这并不意味着 User-Agent 或类似浏览器信息与匿名性无关。

Cookie

Cookie 是网站保存在浏览器中,并在符合条件的请求中再次发送的数据。 它用于维持登录状态、购物车、显示设置、访问分析、会话管理等。

有 Cookie 时,网站侧可以判断“这可能是以前访问过的同一个浏览器”。 因此,即使没有输入姓名,也可能被当作同一浏览器的再访问处理。

在匿名性中特别重要的是,即使改变 IP 地址,只要 Cookie 仍然留下,就可能被连接为同一使用者。

例如,访问某个网站后,再从另一个网络访问,如果发送了同一个 Cookie,网站侧有时可以判断这是同一浏览器的再访问。

Cookie 不是“姓名”。 但是,它有时用于持续识别,因此在匿名性中是非常重要的信息。

登录状态

登录状态在匿名性中是非常强的识别要素。

登录网站时,访问内容和操作内容可能与账号关联。 即使没有输入本名,也可能与账号 ID、邮件地址、电话号码、支付信息、过去使用历史等关联。

另外,登录状态很多时候由 Cookie 或会话信息维持。 也就是说,Cookie 和登录状态是不同概念,但在实际 Web 使用中关系密切。

思考匿名性时,认为“没有输入本名所以没问题”是不充分的。 只要处于登录状态,行为就可能以账号为单位被处理。

参照来源

参照来源是表示移动到某个页面之前正在看的页面的信息。 在 HTTP 中,有时会作为 Referer 头发送。

例如,从搜索结果、SNS、论坛、文章页面等移动到另一个网站时,移动目标网站有时可以把握参照来源。

参照来源可见时,网站侧可以推测“这个使用者从哪里来”。 有些情况下,搜索关键词、页面名称、活动信息、刚才的浏览语境也可能可见。

不过,参照来源并不总是完整发送。 浏览器规格、Referrer-Policy、HTTPS 的处理、链接属性、网站侧设置,都会导致不发送或只发送一部分。

因此,把参照来源理解为“条件满足时可能可见的信息”,而不是“必定可见的信息”更准确。

浏览器和终端的特征

网站有时会利用浏览器和终端特征来正确显示页面。 画面尺寸、语言设置、时区、支持字体、支持 API、输入方式、终端性能等都可能相关。

如果 JavaScript 有效,浏览器侧可取得的信息可能增加。 这些信息可能用于显示优化、错误分析、不正当使用对策、访问分析等。

这里重要的是,即使每一项信息看起来很小,组合后也可能强烈表现出使用环境的特征。

本文不会深入浏览器指纹的细节。 不过,作为思考匿名性的入口,需要理解“浏览器和终端的特征也可能成为识别材料”。

即使是 HTTPS,请求也会到达网站侧

HTTPS 是加密浏览器和连接目标服务器之间通信的机制。 它的作用是让通信路径上的第三方更难偷看或篡改通信内容。

但是,HTTPS 不是“让网站侧什么都看不到的机制”。

为了显示网站,服务器需要接收请求、处理内容并返回响应。 因此,即使是 HTTPS,连接目标服务器侧也会处理请求内容、Cookie、登录状态、访问时刻等。

也就是说,HTTPS 对通信途中保护具有强意义。 另一方面,它不是让访问者对访问目标网站匿名的机制。

“因为是 HTTPS 所以匿名”这种理解是错误的。 HTTPS 作为安全技术很重要,但需要与匿名性分开思考。

服务器日志中记录的信息

Web 服务器有时会记录访问日志。 日志内容会因服务器软件和设置而变化,但一般可能记录访问源、时刻、请求、状态码、传输量等。

根据设置,也会记录 User-Agent 和参照来源。

日志中可能包含的信息含义注意点
访问源连接源 IP 地址或代理信息在 CDN 或反向代理结构中,可见方式可能变化
时刻请求被处理的日期和时间容易成为与其他日志照合的轴
请求行HTTP 方法、路径、HTTP 版本等可能包含 URL 的路径和查询
状态码200、404、500 等响应结果用于访问成败或错误分析
User-Agent浏览器和 OS 等信息成为推测使用环境的材料
参照来源从哪个页面而来可能因策略不发送,或只发送一部分

日志用于网站运营、故障调查、安全监控、不正当使用对策、访问分析等。 从匿名性角度看,理解“访问网站这一事实可能以什么形式被记录”很重要。

重要的是组合,而不是单个信息

思考匿名性时,如果只关注一个信息,很容易判断错误。

即使隐藏 IP 地址,如果 Cookie 仍然存在,也可能被当作同一浏览器处理。 如果已经登录,访问内容可能与账号关联。 User-Agent 和浏览器特征,与其他信息组合后会成为使用环境的识别材料。 参照来源和 URL 有时会显示在什么语境下访问了什么。

信息组合可见方式对匿名性的影响
IP 地址 + 访问时刻何时、从哪个网络而来可能与其他记录照合
Cookie + IP 地址即使 IP 地址变化,也可能判断为同一浏览器仅改变网络可能无法切断关联
登录状态 + 浏览 URL账号看了什么行为可能与账号关联
User-Agent + 终端特征使用环境的特征可见与其他信息结合后成为区分材料
参照来源 + 访问目标 URL从哪里来、看了什么可能推测浏览语境或兴趣

匿名性中,不应以“只有这个信息就没关系”来单独判断,而需要思考信息之间的连接。

总结

访问网站时,即使没有输入姓名,也可能有多种信息对网站侧可见。

访问源 IP 地址、访问时刻、URL、User-Agent、Cookie、登录状态、参照来源、浏览器和终端特征,在思考匿名性时都很重要。

这些信息单独看,有时不会直接表示个人。 但是,组合起来后,可能被当作同一使用者的行为处理,或与账号、浏览器相连接。

特别重要的是,不要认为“只要隐藏 IP 地址就够了”。 Cookie、登录状态、User-Agent、参照来源、浏览器和终端特征等也可能成为识别和照合材料。

要理解匿名性,首先需要知道访问网站时什么会到达对方侧。 在此基础上,重要的是看多个信息会如何组合,而不是只看单个信息。

相关工具

Public IP Check

WhatIsMyIP

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://www.whatismyip.com/

打开外部网站
WebRTC Leak Test

BrowserLeaks WebRTC

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://browserleaks.com/webrtc

打开外部网站
Browser Fingerprint Check

BrowserLeaks Fingerprint

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://browserleaks.com/canvas

打开外部网站
Browser Fingerprint Check

EFF Cover Your Tracks

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://coveryourtracks.eff.org/

打开外部网站
Anonymous communication

Tor Project

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://www.torproject.org/

打开外部网站

相关文章