爬虫实战——伯克利新闻【内附超详细教程,你上你也行】

文章目录

  • 发现宝藏
  • 一、 目标
  • 二、简单分析网页
    • 1. 寻找所有新闻
    • 2. 分析模块、版面和文章
  • 三、爬取新闻
    • 1. 爬取模块
    • 2. 爬取版面
    • 3. 爬取文章
  • 四、完整代码
  • 五、效果展示

发现宝藏

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【宝藏入口】。

一、 目标

爬取https://news.berkeley.edu/的字段,包含标题、内容,作者,发布时间,链接地址,文章快照 (可能需要翻墙才能访问)

二、简单分析网页

1. 寻找所有新闻

在这里插入图片描述

2. 分析模块、版面和文章

我们可以按照新闻模块、版面、和文章对网页信息进行拆分,分别按照步骤进行爬取

在这里插入图片描述
在这里插入图片描述

三、爬取新闻

1. 爬取模块

由于该新闻只有一个模块,所以直接请求该模块地址即可获取该模块的所有信息,但是为了兼容多模块的新闻,我们还是定义一个数组存储模块地址

class MitnewsScraper:
    def __init__(self, root_url, model_url, img_output_dir):
        self.root_url = root_url
        self.model_url = model_url
        self.img_output_dir = img_output_dir
        self.headers = {
            'Referer': 'https://news.berkeley.edu/',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/122.0.0.0 Safari/537.36',
            'Cookie': '替换成你自己的',
        }
        
...

def run():
    # 根路径
    root_url = 'https://news.berkeley.edu/'
    # 模块地址数组
    model_urls = ['https://news.berkeley.edu/news']
    # 文章图片保存路径
    output_dir = 'D://imgs//berkeley-news'

    for model_url in model_urls:
        scraper = MitnewsScraper(root_url, model_url, output_dir)
        scraper.catalogue_all_pages()


if __name__ == "__main__":
    run()

多模块的新闻网站例子如下(4个模块)

在这里插入图片描述

2. 爬取版面

  • f12打开控制台,点击网络(network),通过切换页面观察接口的参数传递,发现只有一个page参数

在这里插入图片描述

  • 于是我们可以获取页面下面的页数(page x of xxxx), 然后进行遍历传参,也就遍历获取了所有版面

在这里插入图片描述

    # 获取一个模块有多少版面
    def catalogue_all_pages(self):
        response = requests.get(self.model_url, headers=self.headers)
        soup = BeautifulSoup(response.text, 'html.parser')
        try:
            match = re.search(r'of (\d+)', soup.text)
            num_pages = int(match.group(1))
            print('模块一共有' + str(num_pages) + '页版面,')
            for page in range(1, num_pages + 1):
                self.parse_catalogues(page)
                print(f"========Finished modeles page {page}========")
        except:
            return False
  • F12打开控制台后按照如下步骤获取版面列表对应的dom结构

在这里插入图片描述

在这里插入图片描述

  catalogue_list = soup.find('div', 'filtered-items')
  catalogues_list = catalogue_list.find_all('article')

在这里插入图片描述

  • 遍历版面列表,获取版面标题

在这里插入图片描述

    for index, catalogue in enumerate(catalogues_list):
        # 版面标题
        catalogue_title = catalogue.find('div', 'news-item__description').find('a').get_text(strip=True)
        print('第' + str(index + 1) + '个版面标题为:' + catalogue_title)

在这里插入图片描述

  • 获取版面更新时间和当下的操作时间

在这里插入图片描述

    # 操作时间
    date = datetime.now()
    # 更新时间
    publish_time = catalogue.find('div', 'news-item__description').find('time').get('datetime')
    #  将日期字符串转换为datetime对象
    updatetime = datetime.strptime(publish_time, '%Y-%m-%d')

在这里插入图片描述

  • 保存版面url和版面id, 由于该新闻是一个版面对应一篇文章,所以版面url和文章url是一样的,而且文章没有明显的标识,我们把地址后缀作为文章id,版面id则是文章id后面加上个01, 为了避免标题重复也可以把日期前缀也加上去

在这里插入图片描述

在这里插入图片描述

     # 版面url
    catalogue_href = catalogue.find('div', 'news-item__description').find('a').get('href')
    catalogue_url = self.root_url + catalogue_href
    # 版面id
    catalogue_id = catalogue_href[1:]
    print('第' + str(index + 1) + '个版面地址为:' + catalogue_url)

在这里插入图片描述

  • 保存版面信息到mogodb数据库(由于每个版面只有一篇文章,所以版面文章数量cardsize的值赋为1)
	# 连接 MongoDB 数据库服务器
	client = MongoClient('mongodb://localhost:27017/')
	# 创建或选择数据库
	db = client['berkeley-news']
	# 创建或选择集合
	catalogues_collection = db['catalogues']
	# 插入示例数据到 catalogues 集合
	catalogue_data = {
		'id': catalogue_id + '01',
		'date': date,
		'title': catalogue_title,
		'url': catalogue_url,
		'cardSize': 1,
		'updatetime': updatetime
	}

3. 爬取文章

  • 由于一个版面对应一篇文章,所以版面url 、更新时间、标题和文章是一样的,并且按照设计版面id和文章id的区别只是差了个01,所以可以传递版面url、版面id、更新时间和标题四个参数到解析文章的函数里面

  • 获取文章id,文章url,文章更新时间和当下操作时间

# 解析版面
def parse_catalogues(self, page):
...
    self.parse_cards_list(catalogue_url, catalogue_id, updatetime, catalogue_title)
...

# 解析文章
    def parse_cards_list(self, url, catalogue_id, updatetime, cardtitle):
        card_response = requests.get(url, headers=self.headers)
        soup = BeautifulSoup(card_response.text, 'html.parser')
        

在这里插入图片描述

  • 获取文章作者

在这里插入图片描述

    # 文章作者
    author = soup.find('a', href='/author/news').get_text()

在这里插入图片描述

  • 获取文章原始htmldom结构,并删除无用的部分(以下仅是部分举例),用html_content字段保留原始dom结构

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

        # 原始htmldom结构
        html_dom = soup.find('div', 'single-post cb-section cb-stretch')

        # 标题上方的冗余
        html_cut1 = html_dom.find('div', 'single-post__heading').find('strong')
        # 链接冗余
        html_cut2 = html_dom.find_all('a', 'a2a_dd share-link')
      
        # 移除元素
        if html_cut1:
            html_cut1.extract()
        if html_cut2:
            for item in html_cut2:
                item.extract()
        html_content = html_dom

在这里插入图片描述

在这里插入图片描述

  • 进行文章清洗,保留文本,去除标签,用content保留清洗后的文本
 # 解析文章列表里的文章
    def parse_cards_list(self, url, catalogue_id, cardupdatetime, cardtitle):
    ...
     # 增加保留html样式的源文本
        origin_html = html_dom.prettify()  # String
        # 转义网页中的图片标签
        str_html = self.transcoding_tags(origin_html)
        # 再包装成
        temp_soup = BeautifulSoup(str_html, 'html.parser')
        # 反转译文件中的插图
        str_html = self.translate_tags(temp_soup.text)
        # 绑定更新内容
        content = self.clean_content(str_html)

 # 工具 转义标签
    def transcoding_tags(self, htmlstr):
        re_img = re.compile(r'\s*<(img.*?)>\s*', re.M)
        s = re_img.sub(r'\n @@##\1##@@ \n', htmlstr)  # IMG 转义
        return s

    # 工具 转义标签
    def translate_tags(self, htmlstr):
        re_img = re.compile(r'@@##(img.*?)##@@', re.M)
        s = re_img.sub(r'<\1>', htmlstr)  # IMG 转义
        return s

    # 清洗文章
    def clean_content(self, content):
        if content is not None:
            content = re.sub(r'\r', r'\n', content)
            content = re.sub(r'\n{2,}', '', content)
            content = re.sub(r' {6,}', '', content)
            content = re.sub(r' {3,}\n', '', content)
            content = re.sub(r'<img src="../../../image/zxbl.gif"/>', '', content)
            content = content.replace(
                '<img border="0" src="****处理标记:[Article]时, 字段 [SnapUrl] 在数据源中没有找到! ****"/> ', '')
            content = content.replace(
                ''' <!--/enpcontent<INPUT type=checkbox value=0 name=titlecheckbox sourceid="<Source>SourcePh " style="display:none">''',
                '') \
                .replace(' <!--enpcontent', '').replace('<TABLE>', '')
            content = content.replace('<P>', '').replace('<\P>', '').replace('&nbsp;', ' ')
        return content
  • 下载保存图片

 def parse_cards_list(self, url, catalogue_id, cardupdatetime, cardtitle):
 ...
	imgs = []
    img_array = soup.find('figure', 'cb-image cb-float--none cb-float--none--md cb-float--none--lg cb-100w cb-100w--md cb-100w--lg new-figure').find_all('img')
    for item in img_array:
        img_url = item.get('src')
        imgs.append(img_url)
    if len(imgs) != 0:
        # 下载图片
        illustrations = self.download_images(imgs, card_id)

  # 下载图片
    def download_images(self, img_urls, card_id):
        result = re.search(r'[^/]+$', card_id)
        last_word = result.group(0)

        # 根据card_id创建一个新的子目录
        images_dir = os.path.join(self.img_output_dir, str(last_word))
        if not os.path.exists(images_dir):
            os.makedirs(images_dir)
            downloaded_images = []
            for index, img_url in enumerate(img_urls):
                try:
                    response = requests.get(img_url, stream=True, headers=self.headers)
                    if response.status_code == 200:
                        # 从URL中提取图片文件名
                        img_name_with_extension = img_url.split('/')[-1]
                        pattern = r'^[^?]*'
                        match = re.search(pattern, img_name_with_extension)
                        img_name = match.group(0)

                        # 保存图片
                        with open(os.path.join(images_dir, img_name), 'wb') as f:
                            f.write(response.content)
                        downloaded_images.append([img_url, os.path.join(images_dir, img_name)])
                except requests.exceptions.RequestException as e:
                    print(f'请求图片时发生错误:{e}')
                except Exception as e:
                    print(f'保存图片时发生错误:{e}')
            return downloaded_images
        # 如果文件夹存在则跳过
        else:
            print(f'文章id为{card_id}的图片文件夹已经存在')
            return []
  • 保存文章数据
 # 连接 MongoDB 数据库服务器
        client = MongoClient('mongodb://localhost:27017/')
        # 创建或选择数据库
        db = client['berkeley-news']
        # 创建或选择集合
        cards_collection = db['cards']
        # 插入示例数据到 catalogues 集合
        card_data = {
            'id': card_id,
            'catalogueId': catalogue_id,
            'type': 'berkeley-news',
            'date': date,
            'title': card_title,
            'author': author,
            'updatetime': updateTime,
            'url': url,
            'html_content': str(html_content),
            'content': content,
            'illustrations': illustrations,
        }
        cards_collection.insert_one(card_data)

四、完整代码

import os
from datetime import datetime
import requests
from bs4 import BeautifulSoup
from pymongo import MongoClient
import re
import traceback


class MitnewsScraper:
    def __init__(self, root_url, model_url, img_output_dir):
        self.root_url = root_url
        self.model_url = model_url
        self.img_output_dir = img_output_dir
        self.headers = {
            'Referer': 'https://news.berkeley.edu/',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/122.0.0.0 Safari/537.36',
            'Cookie': '替换成你自己的',
        }

    # 获取一个模块有多少版面
    def catalogue_all_pages(self):
        response = requests.get(self.model_url, headers=self.headers)
        soup = BeautifulSoup(response.text, 'html.parser')
        try:
            match = re.search(r'of (\d+)', soup.text)
            num_pages = int(match.group(1))
            print('模块一共有' + str(num_pages) + '页版面')
            for page in range(1, num_pages + 1):
                print(f"========start catalogues page {page}" + "/" + str(num_pages) + "========")
                self.parse_catalogues(page)
                print(f"========Finished catalogues page {page}" + "/" + str(num_pages) + "========")
        except Exception as e:
            print(f'Error: {e}')
            traceback.print_exc()

    # 解析版面列表里的版面
    def parse_catalogues(self, page):
        params = {'page': page}
        response = requests.get(self.model_url, params=params, headers=self.headers)
        if response.status_code == 200:
            soup = BeautifulSoup(response.text, 'html.parser')
            catalogue_list = soup.find('div', 'filtered-items')
            catalogues_list = catalogue_list.find_all('article')
            for index, catalogue in enumerate(catalogues_list):
                print(f"========start catalogue {index+1}" + "/" + "10========")
                # 版面标题
                catalogue_title = catalogue.find('div', 'news-item__description').find('a').get_text(strip=True)

                # 操作时间
                date = datetime.now()
                # 更新时间
                publish_time = catalogue.find('div', 'news-item__description').find('time').get('datetime')
                #  将日期字符串转换为datetime对象
                updatetime = datetime.strptime(publish_time, '%Y-%m-%d')

                # 版面url
                catalogue_href = catalogue.find('div', 'news-item__description').find('a').get('href')
                catalogue_url = self.root_url + catalogue_href
                # 版面id
                catalogue_id = catalogue_href[1:]

                self.parse_cards_list(catalogue_url, catalogue_id, updatetime, catalogue_title)

                # 连接 MongoDB 数据库服务器
                client = MongoClient('mongodb://localhost:27017/')
                # 创建或选择数据库
                db = client['berkeley-news']
                # 创建或选择集合
                catalogues_collection = db['catalogues']
                # 插入示例数据到 catalogues 集合
                catalogue_data = {
                    'id': catalogue_id,
                    'date': date,
                    'title': catalogue_title,
                    'url': catalogue_url,
                    'cardSize': 1,
                    'updatetime': updatetime
                }
                # 在插入前检查是否存在相同id的文档
                existing_document = catalogues_collection.find_one({'id': catalogue_id})

                # 如果不存在相同id的文档,则插入新文档
                if existing_document is None:
                    catalogues_collection.insert_one(catalogue_data)
                    print("[爬取版面]版面 " + catalogue_url + " 已成功插入!")
                else:
                    print("[爬取版面]版面 " + catalogue_url + " 已存在!")
                print(f"========finsh catalogue {index+1}" + "/" + "10========")
            return True
        else:
            raise Exception(f"Failed to fetch page {page}. Status code: {response.status_code}")

    # 解析文章列表里的文章
    def parse_cards_list(self, url, catalogue_id, cardupdatetime, cardtitle):
        url = 'https://news.berkeley.edu/2024/03/05/meet-our-new-faculty-antoine-levy-economics'
        card_response = requests.get(url, headers=self.headers)
        soup = BeautifulSoup(card_response.text, 'html.parser')
        # 对应的版面id
        card_id = catalogue_id
        # 文章标题
        card_title = cardtitle
        # 文章更新时间
        updateTime = cardupdatetime
        # 操作时间
        date = datetime.now()

        # 文章作者
        try:
            author = soup.find('a', href='/author/news').get_text()
        except:
            author = soup.find('div', 'single-post__heading').find('p').find('a').get_text()

        # 原始htmldom结构
        html_dom = soup.find('div', 'single-post cb-section cb-stretch')

        # 标题上方的冗余
        html_cut1 = html_dom.find('div', 'single-post__heading').find('strong')
        # 链接冗余
        html_cut2 = html_dom.find_all('a', 'a2a_dd share-link')

        # 移除元素
        if html_cut1:
            html_cut1.extract()
        if html_cut2:
            for item in html_cut2:
                item.extract()

        html_content = html_dom

        # 增加保留html样式的源文本
        origin_html = html_dom.prettify()  # String
        # 转义网页中的图片标签
        str_html = self.transcoding_tags(origin_html)
        # 再包装成
        temp_soup = BeautifulSoup(str_html, 'html.parser')
        # 反转译文件中的插图
        str_html = self.translate_tags(temp_soup.text)
        # 绑定更新内容
        content = self.clean_content(str_html)
        # 下载图片
        imgs = []
        try:
            img_array = soup.find('figure', 'cb-image cb-float--none cb-float--none--md cb-float--none--lg cb-100w cb-100w--md cb-100w--lg new-figure').find_all('img')
        except:
            img_array = soup.find('div', 'container container--lg cb-container').find_all('img')
        if len(img_array) is not None:
            for item in img_array:
                img_url = item.get('src')
                if img_url is None:
                    img_url = item.get('data-src')
                imgs.append(img_url)
        if len(imgs) != 0:
            # 下载图片
            illustrations = self.download_images(imgs, card_id)
        # 连接 MongoDB 数据库服务器
        client = MongoClient('mongodb://localhost:27017/')
        # 创建或选择数据库
        db = client['berkeley-news']
        # 创建或选择集合
        cards_collection = db['cards']
        # 插入示例数据到 cards 集合
        card_data = {
            'id': card_id,
            'catalogueId': catalogue_id,
            'type': 'berkeley-news',
            'date': date,
            'title': card_title,
            'author': author,
            'updatetime': updateTime,
            'url': url,
            'html_content': str(html_content),
            'content': content,
            'illustrations': illustrations,
        }
        # 在插入前检查是否存在相同id的文档
        existing_document = cards_collection.find_one({'id': card_id})

        # 如果不存在相同id的文档,则插入新文档
        if existing_document is None:
            cards_collection.insert_one(card_data)
            print("[爬取文章]文章 " + url + " 已成功插入!")
        else:
            print("[爬取文章]文章 " + url + " 已存在!")


    # 下载图片
    def download_images(self, img_urls, card_id):
        result = re.search(r'[^/]+$', card_id)
        last_word = result.group(0)

        # 根据card_id创建一个新的子目录
        images_dir = os.path.join(self.img_output_dir, str(last_word))
        if not os.path.exists(images_dir):
            os.makedirs(images_dir)
            downloaded_images = []
            for index, img_url in enumerate(img_urls):
                try:
                    response = requests.get(img_url, stream=True, headers=self.headers)
                    if response.status_code == 200:
                        # 从URL中提取图片文件名
                        img_name_with_extension = img_url.split('/')[-1]
                        pattern = r'^[^?]*'
                        match = re.search(pattern, img_name_with_extension)
                        img_name = match.group(0)

                        # 保存图片
                        with open(os.path.join(images_dir, img_name), 'wb') as f:
                            f.write(response.content)
                        downloaded_images.append([img_url, os.path.join(images_dir, img_name)])
                        print(f'[爬取文章图片]文章id为{card_id}的图片已保存到本地')
                except requests.exceptions.RequestException as e:
                    print(f'请求图片时发生错误:{e}')
                except Exception as e:
                    print(f'保存图片时发生错误:{e}')
            return downloaded_images
        # 如果文件夹存在则跳过
        else:
            print(f'[爬取文章图片]文章id为{card_id}的图片文件夹已经存在')
            return []

    # 工具 转义标签
    def transcoding_tags(self, htmlstr):
        re_img = re.compile(r'\s*<(img.*?)>\s*', re.M)
        s = re_img.sub(r'\n @@##\1##@@ \n', htmlstr)  # IMG 转义
        return s

    # 工具 转义标签
    def translate_tags(self, htmlstr):
        re_img = re.compile(r'@@##(img.*?)##@@', re.M)
        s = re_img.sub(r'<\1>', htmlstr)  # IMG 转义
        return s

    # 清洗文章
    def clean_content(self, content):
        if content is not None:
            content = re.sub(r'\r', r'\n', content)
            content = re.sub(r'\n{2,}', '', content)
            content = re.sub(r' {6,}', '', content)
            content = re.sub(r' {3,}\n', '', content)
            content = re.sub(r'<img src="../../../image/zxbl.gif"/>', '', content)
            content = content.replace(
                '<img border="0" src="****处理标记:[Article]时, 字段 [SnapUrl] 在数据源中没有找到! ****"/> ', '')
            content = content.replace(
                ''' <!--/enpcontent<INPUT type=checkbox value=0 name=titlecheckbox sourceid="<Source>SourcePh " style="display:none">''',
                '') \
                .replace(' <!--enpcontent', '').replace('<TABLE>', '')
            content = content.replace('<P>', '').replace('<\P>', '').replace('&nbsp;', ' ')
        return content


def run():
    # 根路径
    root_url = 'https://news.berkeley.edu/'
    # 模块地址数组
    model_urls = ['https://news.berkeley.edu/news']
    # 文章图片保存路径
    output_dir = 'D://imgs//berkeley-news'

    for model_url in model_urls:
        scraper = MitnewsScraper(root_url, model_url, output_dir)
        scraper.catalogue_all_pages()


if __name__ == "__main__":
    run()

五、效果展示

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/433757.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Leetcode每日一刷】数组|704. 二分查找、27. 移除元素

力扣每日刷题 一、704. 二分查找1.1、题目1.2、解题思路1.3、代码实现——C1.4、 总结&易错 二、27. 移除元素2.1&#xff1a;题目2.2、解题思路2.3、代码实现——C1.4、 总结&易错 一、704. 二分查找 1.1、题目 704. 二分查找 1.2、解题思路 题型&#xff1a;数组…

java工程师面试简历模板,2024谈一下当下最合适的Java架构

前言 这些算法&#xff0c;都是小编一点一点看的大佬们的方法&#xff0c;自己积累的. 如果有什么描述的不对的地方还望大佬赐教 多交流才能进步&#xff0c;加油&#xff0c;冲冲冲&#xff01;&#xff01;&#xff01; 目录 一、冒泡排序 二、选择排序 三、插入排序 四、快速…

【C++】递归 1241 - 角谷猜想 1108 - 正整数N转换成一个二进制数

文章目录 一、问题&#xff1a;1241 - 角谷猜想二、问题&#xff1a;1108 - 正整数N转换成一个二进制数三、总结四、感谢 一、问题&#xff1a;1241 - 角谷猜想 类型&#xff1a;有规律的循环、递归。 题目描述&#xff1a; 日本一位中学生发现一个奇妙的定理&#xff0c;请角…

Android岗大厂面试官常问的那些问题,2024年Android者未来的出路在哪里

前言 伟人曾经说过&#xff1a; 书是人类进步的阶梯 书中自有黄金屋&#xff0c;书中自有颜如玉 读书破万卷&#xff0c;下笔如有神 书是唯一不死的东西。 书籍是伟大的天才留给人类的遗产。 最近有很多朋友在我的公众号上提问“Android开发的经典入门教材和学习路线&#xff…

数据结构->链表分类与oj(题),带你提升代码好感

✅作者简介&#xff1a;大家好&#xff0c;我是橘橙黄又青&#xff0c;一个想要与大家共同进步的男人&#x1f609;&#x1f609; &#x1f34e;个人主页&#xff1a;橘橙黄又青-CSDN博客 1.&#x1f34e;链表的分类 前面我们学过顺序表&#xff0c;顺序表问题&#xff1a; …

redis IO多路复用模型详解

一、IO 1.1、IO模型 我们常说的IO&#xff0c;指的是文件的输入和输出 &#xff0c;但是在操作系统层面是如何定义IO的呢&#xff1f;到底什么样的过程可以叫做是一次IO呢&#xff1f; 拿一次磁盘文件读取为例&#xff0c;我们要读取的文件是存储在磁盘上的&#xff0c;我们的…

window环境下使用k8s部署.net core项目

前提&#xff1a;已经部署镜像到Docker 在项目发布目录下新建.yaml文件&#xff0c;内容如下&#xff08;以下仅举例出两种方式内容&#xff0c;可按需自由配置&#xff09; --方式一(创建deployment 、服务、指定命名空间) # ------------------- 注意层级结构&#xff0c;…

【debug】element-ui时间控件回显后不可编辑且显示为空

问题&#xff1a;使用element-ui的时间控件回显数据&#xff0c;编辑数据没有反应&#xff1a;点时间和“确认”按钮都没反应。 输入框中会显示数据&#xff0c;但提交时的校验显示为空。 <el-form-item label"开始时间" prop"limitStartTime"><…

激光炸弹 刷题笔记

前置知识 二维前缀和 子矩阵的和 刷题笔记 {二维前缀和}-CSDN博客 思路 参考二维前缀和 将子矩阵的和 做成动态矩阵 一个个矩阵搜索 符合要求边长 矩阵中的元素和最大值 将x1,y1用i-k,j-k表示即可 x2,y2用i&#xff0c;j表示 代码 #include<iostream> #include<…

【定岗定编】某度假村酒店客房部定岗定编管理咨询项目纪实

该度假村酒店由于地域广阔&#xff0c;将客服部分为了四个不同区域&#xff0c;这样就导致了在不同的区域员工的接待量不均衡的状况&#xff0c;引起了员工的强烈不满。如何合理地配置客户部人员以及如何合理地鉴定员工的工作量成为该酒店所面临的两大难题。让我们来看看在人力…

【Linux】软件包管理器yum

目录 一、yum是什么&#xff1f; 二、查看软件包 三、安装与卸载软件 1、如何安装软件 2、如何卸载软件 四、yum源的配置 一、yum是什么&#xff1f; 在Linux下安装软件, 一个通常的办法是下载到程序的源代码, 并进行编译, 得到可执行程序. 但是这样太麻烦了, 于是有些人…

2024作品集流行封面设计技巧

本期不是关于如何安排作品集&#xff0c;而是关于目前国内市场上流行的作品集封面风格有哪些&#xff1f;如何实现&#xff1f;今天给大家带来了 5 种作品集设计风格&#xff0c;毛玻璃、弥散光、3D、插画、其他&#xff0c;一起往下看吧&#xff01; 毛玻璃 目前许多设计师都…

学习统一的Hyper - network用于多模态MR图像合成和缺失模态的肿瘤分割

Learning Unified Hyper-Network for Multi-Modal MR Image Synthesis and Tumor Segmentation With Missing Modalities Learning Unified Hyper-Network for Multi-Modal MR Image Synthesis and Tumor Segmentation With Missing Modalities背景贡献实验方法多模态合成方法超…

软件测试实战,Web项目网页bug定位详细分析总结(详全)

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 1、前置条件 1&a…

3.5日常学习

matlab处理数据 自己写了关于detect_data的函数&#xff0c;让它帮我改了&#xff0c;哈哈哈 %改正前function data_chuli(path1,savepath)[num]xlsread(path1,1,B18:F23);a num;ba;cb(:);xlswrite(savepath,c) end%改正后function data_chuli(path1, savepath)num xlsread…

05-调用API

上一篇&#xff1a; 04-JNI函数 调用 API 允许软件供应商将 Java VM 加载到任意本地应用程序中。供应商可以提供支持 Java 的应用程序&#xff0c;而无需链接 Java VM 源代码。 5.1 概述 下面的代码示例说明了如何使用调用 API 中的函数。在这个示例中&#xff0c;C 代码创建了…

鸿蒙NEXT开发实战:【视频文件裁剪】

使用OpenHarmony系统提供的ffmpeg三方库的能力在系统中实现了音视频文件裁剪的功能&#xff0c;并通过NAPI提供给上层应用调用。 基础信息 视频文件裁剪 简介 在OpenHarmony系统整个框架中有很多子系统&#xff0c;其中多媒体子系统是OpenHarmony比较重要的一个子系统&#…

selenium爬取空气质量数据

https://www.aqistudy.cn/ 爬取指定城市在指定时间范围内的空气质量数据&#xff0c;并将数据保存为CSV文件。它首先从两个文本文件中读取城市信息和代理IP信息&#xff0c;然后提示用户输入爬取的起始年份、结束年份、起始月份和结束月份。接下来&#xff0c;它启动了Chrome浏…

【Leetcode】3028.边界上的蚂蚁

题目描述 思路 题目中要求我们返回 蚂蚁返回到边界的次数。简单来想&#xff0c;就是蚂蚁原来的位置的一维坐标为0&#xff0c;然后经过&#xff0c;若干次移动&#xff0c;统计有几次坐标再次变为0的个数。 我们利用前缀和&#xff0c;像定义一个数组&#xff0c;算出前缀和数…

华为交换机vlan实验

一、目标 实现不同vlan之间的终端通信 二、命令学习 1.创建2个vlan # 进入系统视图 sy# 创建vlan vlan 10 vlan 202.查看vlan # 2.查看vlan display vlanThe total number of vlans is : 3 ---------------------------------------------------------------------------…
最新文章