[实践OK]PHP正则实现天气预报UL表格及其里面天气信息内容获取。

Tue, 18 Jun 2024 07:58:51 +0000

捕获组与非捕获组概念：https://segmentfault.com/a/1190000021043947
文章中的工具用的正则表达式公式： https://regex101.com/
非捕获部分：(?:.*?)?

<?php
   $content = <<<EOF
<ul class="t clearfix">
<li class="sky skyid lv2">
<h1>17日（今天）</h1>
<big class="png40"></big>
<big class="png40 n00"></big>
<p title="晴" class="wea">晴</p>
<p class="tem">
<i>24℃</i>
</p>
<p class="win">
<em>
<span title="西南风" class="SW"></span>
</em>
<i><3级</i>
</p>
<div class="slid"></div>
</li>
<li class="sky skyid lv2 on">
<h1>18日（明天）</h1>
<big class="png40 d00"></big>
<big class="png40 n01"></big>
<p title="晴转多云" class="wea">晴转多云</p>
<p class="tem">
<span>37℃</span>/<i>25℃</i>
</p>
<p class="win">
<em>
<span title="南风" class="S"></span>
<span title="南风" class="S"></span>
</em>
<i><3级</i>
</p>
<div class="slid"></div>
</li>
<li class="sky skyid lv2">
<h1>19日（后天）</h1>
<big class="png40 d01"></big>
<big class="png40 n02"></big>
<p title="多云转阴" class="wea">多云转阴</p>
<p class="tem">
<span>34℃</span>/<i>25℃</i>
</p>
<p class="win">
<em>
<span title="南风" class="S"></span>
<span title="东南风" class="SE"></span>
</em>
<i><3级</i>
</p>
<div class="slid"></div>
</li>
<li class="sky skyid lv2">
<h1>20日（周四）</h1>
<big class="png40 d01"></big>
<big class="png40 n00"></big>
<p title="多云转晴" class="wea">多云转晴</p>
<p class="tem">
<span>34℃</span>/<i>24℃</i>
</p>
<p class="win">
<em>
<span title="东南风" class="SE"></span>
<span title="东风" class="E"></span>
</em>
<i><3级</i>
</p>
<div class="slid"></div>
</li>
<li class="sky skyid lv2">
<h1>21日（周五）</h1>
<big class="png40 d01"></big>
<big class="png40 n01"></big>
<p title="多云" class="wea">多云</p>
<p class="tem">
<span>33℃</span>/<i>24℃</i>
</p>
<p class="win">
<em>
<span title="东南风" class="SE"></span>
<span title="南风" class="S"></span>
</em>
<i><3级</i>
</p>
<div class="slid"></div>
</li>
<li class="sky skyid lv2">
<h1>22日（周六）</h1>
<big class="png40 d07"></big>
<big class="png40 n01"></big>
<p title="小雨转多云" class="wea">小雨转多云</p>
<p class="tem">
<span>31℃</span>/<i>22℃</i>
</p>
<p class="win">
<em>
<span title="东南风" class="SE"></span>
<span title="东南风" class="SE"></span>
</em>
<i><3级</i>
</p>
<div class="slid"></div>
</li>
<li class="sky skyid lv2">
<h1>23日（周日）</h1>
<big class="png40 d01"></big>
<big class="png40 n01"></big>
<p title="多云" class="wea">多云</p>
<p class="tem">
<span>31℃</span>/<i>21℃</i>
</p>
<p class="win">
<em>
<span title="东南风" class="SE"></span>
<span title="东南风" class="SE"></span>
</em>
<i><3级</i>
</p>
<div class="slid"></div>
</li>
</ul>
EOF;

preg_match('/<ul class="t clearfix">.*?<\/ul>/s', $content, $result);
$ul = $result[0];
preg_match_all('/<li.*?">.*?<\/li>/s', $ul, $lis);
// 修正后的正则表达式
$pattern = '/<li.*?>.*?<h1>(.*?)<\/h1>.*?<p.*?title="(.*?)".*?>(.*?)<\/p>.*?<p class="tem">(.*?)<\/p>.*?<p class="win">.*?<span title="(.*?)" .*?<\/span>(?:.*?<span title="(.*?)" .*?<\/span>)?.*?<i>(.*?)<\/i>.*?<\/li>/s';
$lst_all = []; // 保存所有的天气
// 解析li的数据
foreach ($lis[0] as $li) {
    preg_match($pattern, $li, $matches);
    // 匹配结果处理
    $temperature = '';
    if (preg_match('/<span>(.*?)<\/span>\/<i>(.*?)<\/i>/', $matches[4], $temp_matches)) {
        $temperature = $temp_matches[1] . '/' . $temp_matches[2];
    } else if (preg_match('/<i>(.*?)<\/i>/', $matches[4], $temp_matches)) {
        $temperature = $temp_matches[1];
    }

$wind = isset($matches[6]) ? $matches[7] . '   ' . $matches[5] . '  ' . $matches[6] : $matches[7] . ' ' . $matches[5];
    $lst_one = [$matches[1], $matches[3], $temperature, $wind];
    $lst_all[] = $lst_one;
}
print_r($lst_all);

对天气中的温度和风力有时间只有一个温度和风力的情况的判断算法：
温度部分：
    $temperature = '';
    if (preg_match('/(.*?)<\/span>\/(.*?)<\/i>/', $matches[4], $temp_matches)) {
        $temperature = $temp_matches[1] . '/' . $temp_matches[2];
    } else if (preg_match('/(.*?)<\/i>/', $matches[4], $temp_matches)) {
        $temperature = $temp_matches[1];
    }

风力部分：
问ChatGPT：我只想知道正则如何匹配到下面这段的：

<3级

对下面这段正则作下解释：

.*?(?:.*?)?
上面第一个.*?是非贪婪匹配它后面的：上在第二个(.*?)是匹配南风。
上在第三个.*?是非贪婪匹配它后面的：<\/span>。
是对的吧？
二、最想知道的是：
(?:.?)?
上在这段正则里面的：?:.? 是想干嘛的呢？
它最后的问号是用来匹配0次或1次用的，这个是这么理解吧。

ChatGPT回答如下：
你说得基本是对的。让我逐步解释一下你提到的正则表达式是如何匹配 `
` 这段 HTML 代码的，以及 `(?:.*?)?` 这部分正则表达式的具体作用。

### 1. 正则表达式整体

```regex
.*?(?:.*?)?
```

#### 1.1. `
.*?`

- `
`: 匹配 `
` 标签的开头部分，class 属性为 `win`。
- `.*?`: 非贪婪模式匹配任意字符，尽量少的字符，直到遇到 `- `- ` .*?<\/span>`: 非贪婪模式匹配任意字符，直到遇到 ``。

这一部分的正则表达式解释如下：
- `
` 精确匹配标签的开始部分。
- `.*?` 尽量少的匹配任意字符，直到遇到 `- `- ` .*?<\/span>` 匹配从 `title` 属性结束到 `` 标签结束的所有字符。

#### 1.2. `(?:.*?)?`

- `(?: ... )`: 非捕获组，匹配括号内的内容，但不捕获它。
- `.*?`: 非贪婪模式匹配任意字符，尽量少的字符，直到遇到 `- `- ` .*?<\/span>`: 非贪婪模式匹配任意字符，直到遇到 ``。
- `?`: 匹配前面的非捕获组 0 次或 1 次。即这部分是可选的。

这一部分的正则表达式解释如下：
- `(?: ... )` 表示一个非捕获组，不会保存匹配结果。
- `.*?` 尽量少的匹配任意字符，直到遇到 `- `- ` .*?<\/span>` 匹配从 `title` 属性结束到 `` 标签结束的所有字符。
- `?` 表示这个非捕获组是可选的，可以匹配 0 次或 1 次。

### 2. 匹配示例

以你提供的 HTML 代码为例：

```html

<3级

```

- `
`: 匹配 `
`。
- `.*?`: 非贪婪模式匹配任意字符，直到遇到 `\n`。
- `- ` .*?<\/span>`: 匹配 `class="S">\n`。

接下来是可选部分：

- `(?:.*?)?`:
  - `.*?`: 非贪婪模式匹配任意字符，直到遇到 `  - `  - ` .*?<\/span>`: 匹配 `class="S">\n`。
  - `?`: 表示这个部分是可选的，可以匹配 0 次或 1 次。这次匹配到 1 次。

### 总结

- `
.*?`: 匹配 `
` 开始标签，直到第一个 `span` 标签的 `title` 属性，并捕获其值。
- `(?:.*?)?`: 匹配从第一个 `span` 标签结束到第二个 `span` 标签结束的内容，并捕获第二个 `span` 标签的 `title` 属性，整个部分是可选的。
- `?` 表示前面的非捕获组是可选的，可以出现 0 次或 1 次。

再对正则知识点细节性问：
(?: ... ) 表示一个非捕获组，不会保存匹配结果。
上面这个是什么意思，请再接合解释下面正则：
(?:.?)?

ChatGPT回答：
好的，让我们详细解释一下 `(?: ... )` 和具体的正则表达式 `(?:.*?)?`。

### 非捕获组 `(?: ... )`

- `(?: ... )` 是一个**非捕获组**，它的作用是将括号内的内容进行分组，但不保存这个组的匹配结果。这和普通的捕获组 `(...)` 不同，普通捕获组会保存匹配结果供后续引用，而非捕获组则不会保存。
- 非捕获组主要用于在需要进行分组但不希望保存匹配结果的情况下，这样可以节省内存，并且在使用正则表达式时不需要担心额外的捕获组会影响捕获组编号。

### 具体的正则表达式 `(?:.*?)?`

#### 分解解释

1. **`(?: ... )`**:
   - 这是一个非捕获组，括号内的内容会被当作一个整体来处理，但不会保存匹配结果。

2. **`.*?`**:
   - 非贪婪模式匹配任意字符，尽量少的字符，直到遇到 `   - 这里匹配的是从 `
` 到第一个 `` 之间的任意字符，包括换行符等。

3. **`   - 匹配 `

<3级

```

匹配过程如下：

1. **第一部分** `
.*?`:
   - 匹配 `
` 开始标签。
   - `.*?` 非贪婪模式匹配任意字符，直到遇到第一个 `   - 匹配并捕获第一个 `span` 标签的 `title` 属性值 `南风`。
   - 匹配 `` 标签。

2. **第二部分** `(?:.*?)?`:
   - `(?: ... )` 非捕获组，将内容作为整体处理。
   - `.*?` 非贪婪模式匹配任意字符，直到遇到第二个 `   - 匹配并捕获第二个 `span` 标签的 `title` 属性值 `南风`。
   - 匹配 `` 标签。
   - `?` 表示非捕获组是可选的，可以匹配 0 次或 1 次。

### 完整正则表达式的匹配过程

完整的正则表达式 `(?:.*?)?` 在匹配过程中的作用如下：

1. 从 `
` 开始，匹配任意字符直到第一个 `2. 捕获第一个 `span` 标签的 `title` 属性值。
3. 匹配 `` 标签。
4. 非捕获组 `(?: ... )?` 的内容（可选）：
   - 匹配任意字符直到第二个 `   - 捕获第二个 `span` 标签的 `title` 属性值。
   - 匹配 `` 标签。

这段正则表达式会成功匹配以下内容，并分别捕获两个 `span` 标签的 `title` 属性值：

```html

<3级

```

结果是捕获两个 `span` 标签的 `title` 属性值 `南风` 和 `南风`。如果只有一个 `span` 标签，那么也能成功匹配，只会捕获第一个 `title` 属性值。

向东博客专注WEB应用构架之美 --- 构架之美，在于尽态极妍 | 应用之美，在于药到病除

[实践OK]PHP正则实现天气预报UL表格及其里面天气信息内容获取。

[评论] [实践OK]PHP正则实现天气预报UL表格及其里面天气信息内容获取。

向东博客 专注WEB应用 构架之美 --- 构架之美，在于尽态极妍 | 应用之美，在于药到病除

[实践OK]PHP正则实现天气预报UL表格及其里面天气信息内容获取。

[评论] [实践OK]PHP正则实现天气预报UL表格及其里面天气信息内容获取。

向东博客专注WEB应用构架之美 --- 构架之美，在于尽态极妍 | 应用之美，在于药到病除