[![star](https://gitee.com/mymagicpower/AIAS/badge/star.svg?theme=gvp)](https://gitee.com/mymagicpower/AIAS/stargazers) [![fork](https://gitee.com/mymagicpower/AIAS/badge/fork.svg?theme=gvp)](https://gitee.com/mymagicpower/AIAS/members)

中文 | English

官网 | http://www.aias.top/

#### 1. 官网: - 网址：http://www.aias.top/ - 帮助：https://aias.top/guides.html #### 2. 开源地址: - Gitee: https://gitee.com/mymagicpower/AIAS - GitHub: https://github.com/mymagicpower/AIAS #### 3. 人工智能算法： - https://zhuanlan.zhihu.com/p/693738275 - ppt文件位置：deep_learning

#### 项目清单: - 1. 1_image_sdks - [图像识别 SDK] ```text 1). 工具箱系列：图像处理工具箱（静态图像） 2). 目标检测 3). 图像分割 4). GAN 5). 其它类别：OCR等 ... ```

OCR工具箱 1：方向检测 - ocr_sdks/ ocr_direction_det_sdk - OCR图像预处理。
OCR工具箱 2：OCR文字识别 1. ocr_sdks/ocr_v3_sdk 1). V3 文本检测: - 中文文本检测 - 英文文本检测 - 多语言文本检测 2). V3 文本识别: - 中文简体 - 中文繁体 - 英文 - 韩语 - 日语 - 阿拉伯 - 梵文 - 泰米尔语 - 泰卢固语 - 卡纳达文 - 斯拉夫 2. ocr_sdks/ocr_v4_sdk - 原生支持倾斜文本文字识别。 - 更高的识别精度 - 支持中英文。
OCR工具箱 4：版面分析 - ocr_sdks/ocr_layout_sdk 可以用于配合文字识别，表格识别的流水线处理使用。 1). 中文版面分析 2). 英文版面分析 3). 中英文文档 - 表格区域检测
OCR工具箱 5：表格识别 - ocr_sdks/ocr_table_sdk - 中英文表格识别。
人脸工具箱 face_sdks 1：人脸检测(含关键点) - face_detection_sdk 2：人脸对齐 - face_alignment_sdk - 根据人脸关键点对齐。 3：人脸特征提取与比对 - face_feature_sdk 4：人脸分辨率提升 - face_sr_sdk 5：图片人脸修复 - face_restoration_sdk 6：口罩检测 - mask_sdk
动物分类识别 - classification/animal_sdk 动物识别sdk，支持7978种动物的分类识别。
菜品分类识别 - classification/dish_sdk 菜品识别sdk，支持8416种菜品的分类识别。
烟火检测 - fire_smoke_sdk 烟火检测，给出检测框和置信度。
行人检测 - pedestrian_sdk 行人检测，给出检测框和置信度。
智慧工地检测 - smart_construction_sdk 支持检测的类别：人体，安全帽。
车辆检测 - vehicle_sdk 车辆检测，给出检测框和置信度。
图片特征提取(512维)SDK - feature_extraction_sdk 提取图片512维特征值，并支持图片1:1特征比对，给出置信度。
图像&文本的跨模态检索 - image_text_40_sdk - 支持40种语言 -图像&文本特征向量提取 -相似度计算 -softmax计算置信度
图像矫正 - image_alignment_sdk -自动检测边缘，透视变换转正
文本图像超分辨 - image_text_sr_sdk -可以用于提升电影字幕清晰度。
图像超分辨(4倍) - super_resolution_sdk -提升图片4倍分辨率。
黑白图片上色 - image_colorization_sdk -应用到黑白图像中从而实现黑白照片的上色。
一键抠图工具箱 - 1. 通用一键抠图 - seg_unet_sdk -包括三个模型：满足不同精度，速度的要求。
一键抠图工具箱 - 2. 动漫一键抠图 - seg_unet_sdk 无需手动绘制边界，大大提高了抠图的效率和精准度。应用场景如： - 广告设计 - 影视后期制作 - 动漫创作等
一键抠图工具箱 - 3. 衣服一键抠图 - seg_unet_sdk 应用场景： - 电子商务 - 社交媒体 - 广告设计 - 时尚设计 - 虚拟试衣
一键抠图工具箱 - 4. 人体一键抠图 - seg_unet_sdk - 将人体从背景中抠出，形成一个透明背景的人体图像。

- 2. 2_nlp_sdks - [自然语言 SDK] ```text 1). 工具箱系列：sentencepiece，fastText，npy/npz文件处理等。 2). 大模型 3). 词向量 4). 机器翻译 ... ```

Sentencepiece分词 - kits/sentencepiece_sdk Sentencepiece分词的Java实现。
jieba分词 - lexical_analysis/jieba_sdk jieba分词java版本的简化实现。
机器翻译 1. 202种语言互相翻译 - translation/trans_nllb_sdk - 支持202种语言互相翻译, - 支持 CPU / GPU。 2. 中英互相翻译 - translation/translation_sdk - 可以进行英语和中文之间的翻译, - 支持 CPU / GPU。
文本特征提取向量工具箱 - embedding/* -1. 4个中文SDK： 1).m3e_cn_sdk 2).text2vec_base_chinese_sdk 3).text2vec_base_chinese_sentence_sdk 4).text2vec_base_chinese_paraphrase_sdk -2. 3个多语言SDK： 1).sentence_encoder_15_sdk （支持 15 种语言） 2).sentence_encoder_100_sdk （支持100种语言） 3).text2vec_base_multilingual_sdk （支持50+种语言） -3. 3个代码语义SDK： 1).code2vec_sdk 2).codet5p_110m_sdk 3).mpnet_base_v2_sdk

- 3. 3_audio_sdks - [语音处理 SDK] ```text 1). 工具箱系列：音素工具箱，librosa，java sound，javacv ffmpeg, fft, vad工具箱等。 2). 声音克隆 3). 语音合成 4). 声纹识别 5). 语音识别 ... ```

中文语音识别（ASR） 1. 短语音 - asr_whisper_sdk 2. 长语音 - asr_whisper_long_sdk
TTS 文本转为语音 - tts_sdk - TTS 文本转为语音。

- 4. 4_video_sdks - [视频解析SDK] ```text 1). 摄像头口罩检测 - camera_facemask_sdk 2). MP4检测口罩 - mp4_facemask_sdk 3). rtsp取流检测口罩 - rtsp_facemask_sdk ```

视频流分析

1. 摄像头口罩检测
- camera_facemask_sdk
2. MP4检测口罩
- mp4_facemask_sdk
3. rtsp取流检测口罩
- rtsp_facemask_sdk

- 5. 5_bigdata_sdks - [大数据SDK] ```text 1). flink-情感倾向分析【英文】- flink_sentence_encoder_sdk 2). kafka-情感倾向分析【英文】- kafka_sentiment_analysis_sdk ... ```

大数据分析

flink-情感倾向分析
flink_sentiment_analysis_sdk
kafka-情感倾向分析
kafka_sentiment_analysis_sdk
针对带有主观描述的文本，
可自动判断该文本的情感极性类别并给出相应的置信度。

- 6. 6_web_app - [Web应用，前端VUE，后端Springboot] ```text 1). 训练引擎 2). 代码语义搜索 3). 机器翻译 4). 一键抠图 5). 图像分辨率增强 6). 图像&文本的跨模态相似性比对检索【支持40种语言】 7). 文本向量搜索，可配合大模型使用 8). 人像搜索 9). 语音识别 10). 以图搜图 11). OCR Web应用 12). OCR 自定义模板识别（IOCR） ... ```

AI 训练平台 - training AI训练平台提供分类模型训练能力。并以REST API形式为上层应用提供接口。
代码语义搜索 - code_search 用于软件开发过程中的，代码搜代码，语义搜代码。主要特性： - 底层使用特征向量相似度搜索 - 单台服务器十亿级数据的毫秒级搜索 - 近实时搜索，支持分布式部署 - 随时对数据进行插入、删除、搜索、更新等操作
机器翻译 - text_translation - 支持202种语言互相翻译。 - 支持 CPU / GPU
一键抠图 Web 应用 - image_seg 当前版本包含了下面功能： - 1. 通用一键抠图 - 2. 人体一键抠图 - 3. 动漫一键抠图
框选一键抠图 Web 应用 - image_seg_sam2 当前版本包含了下面功能： - 1. 支持框选一键抠图 - 2. 支持sam2算法
图片一键高清 - image_gan 当前版本包含了下面功能： - 图片一键高清: 提升图片4倍分辨率。 - 头像一键高清 - 人脸一键修复
图像&文本的跨模态检索 - image_text_search - 支持40种语言 - 以图搜图：上传图片搜索 - 以文搜图：输入文本搜索 - 数据管理：提供图像压缩包(zip格式)上传
文本向量搜索 - text_search - 语义搜索，通过句向量相似性，检索语料库中与query最匹配的文本 - 文本聚类，文本转为定长向量，通过聚类模型可无监督聚集相似文本 - 文本分类，表示成句向量，直接用简单分类器即训练文本分类器 - RAG，用于大模型搜索增强生成
人像搜索 - face_search - 搜索管理 - 存储管理 - 用户管理 - 角色管理 - 菜单管理 - 部门管理 - 岗位管理 - 字典管理 - 系统日志 - SQL监控 - 定时任务 - 服务监控
语音识别Web 应用 - asr - 英文语音识别， - 中文语音识别。
以图搜图 - image_search - 搜索管理 - 存储管理 - 用户管理 - 角色管理 - 菜单管理 - 部门管理 - 岗位管理 - 字典管理 - 系统日志 - SQL监控 - 定时任务 - 服务监控
OCR Web 应用 - ocr_web_app - 自由文本识别（支持旋转、倾斜的图片） - 文本图片转正（一般情况下不需要，因为ocr 原生支持旋转、倾斜的图片） - 表格文本识别（图片需是剪切好的单表格图片） - 表格自动检测文本识别（支持表格文字混编，自动检测表格识别文字，支持多表格）
OCR 自定义模板识别 - iocr - 模板自定义 - 基于模板识别（支持旋转、倾斜的图片） - 自由文本识别 - 文本转正

- 7. 7_aigc - [图像生成] ```text 1). 图像生成预处理工具箱 controlnet_sdks 2). 图像生成SD工具箱 stable_diffusion_sdks ... ``` - 7.1 图像生成预处理工具箱 controlnet_sdks

1. Canny 边缘检测 - canny_sdk - Canny 边缘检测预处理器可很好识别出图像内各对象的边缘轮廓，常用于生成线稿。 - 对应ControlNet模型： control_canny
2. MLSD 线条检测 - mlsd_sdk - MLSD 线条检测用于生成房间、直线条的建筑场景效果比较好。 - 对应ControlNet模型： control_mlsd
3. Scribble 涂鸦 - scribble_hed_sdk - scribble_pidinet_sdk - 图片自动生成类似涂鸦效果的草图线条。 - 对应ControlNet模型： control_mlsd
4. SoftEdge 边缘检测 - softedge_hed_sdk - HED - HedScribbleExample - HED Safe - HedScribbleExample - softedge_pidinet_sdk - PidiNet - PidiNetGPUExample - PidiNet Safe - PidiNetGPUExample - SoftEdge 边缘检测可保留更多柔和的边缘细节，类似手绘效果。 - 对应ControlNet模型： control_softedge。
5. OpenPose 姿态检测 - pose_sdk - OpenPose 姿态检测可生成图像中角色动作姿态的骨架图(含脸部特征以及手部骨架检测) ，这个骨架图可用于控制生成角色的姿态动作。 - 对应ControlNet模型： control_openpose。
6. Segmentation 语义分割 - seg_upernet_sdk - 语义分割可多通道应用，原理是用颜色把不同类型的对象分割开，让AI能正确识别对象类型和需求生成的区界。 - 对应ControlNet模型： control_seg。
7. Depth 深度检测 - depth_estimation_midas_sdk - Midas - MidasDepthEstimationExample - depth_estimation_dpt_sdks - DPT - DptDepthEstimationExample - 通过提取原始图片中的深度信息，生成具有原图同样深度结构的深度图，越白的越靠前，越黑的越靠后。 - 对应ControlNet模型： control_depth。
8. Normal Map 法线贴图 - normal_bae_sdk - NormalBaeExample - 根据图片生成法线贴图，适合CG或游戏美术师。法线贴图能根据原始素材生成一张记录凹凸信息的法线贴图，便于AI给图片内容进行更好的光影处理，它比深度模型对于细节的保留更加的精确。法线贴图在游戏制作领域用的较多，常用于贴在低模上模拟高模的复杂光影效果。 - 对应ControlNet模型： control_normal。
9. Lineart 生成线稿 - lineart_sdk - lineart_coarse_sdk - Lineart 边缘检测预处理器可很好识别出图像内各对象的边缘轮廓，用于生成线稿。 - 对应ControlNet模型： control_lineart。
10. Lineart Anime 生成线稿 - lineart_anime_sdk - LineArtAnimeExample - Lineart Anime 边缘检测预处理器可很好识别出卡通图像内各对象的边缘轮廓，用于生成线稿。 - 对应ControlNet模型： control_lineart_anime。
11. Content Shuffle - content_shuffle_sdk - ContentShuffleExample - Content Shuffle 图片内容变换位置，打乱次序，配合模型 control_v11e_sd15_shuffle 使用。 - 对应ControlNet模型： control_shuffle。

- 7.2 图像生成SD工具箱 stable_diffusion_sdks

1. 文生图 - txt2image_sdk - 输入提示词（英文），生成图片（英文） 2. 图生图 - 根据图片及提示词（英文）生成图片 - image2image_sdk
4. Controlnet 图像生成 -4.1. Canny 边缘检测 - controlnet_canny_sdk - Canny 边缘检测预处理器可很好识别出图像内各对象的边缘轮廓，常用于生成线稿。
4. Controlnet 图像生成 -4.2. MLSD 线条检测 - controlnet_mlsd_sdk - MLSD 线条检测用于生成房间、直线条的建筑场景效果比较好。
4. Controlnet 图像生成 -4.3. Scribble 涂鸦 - controlnet_scribble_sdk - 图片自动生成类似涂鸦效果的草图线条。
4. Controlnet 图像生成 -4.4. SoftEdge 边缘检测 - controlnet_softedge_sdk - SoftEdge 边缘检测可保留更多柔和的边缘细节，类似手绘效果。
4. Controlnet 图像生成 -4.5. OpenPose 姿态检测 - controlnet_pose_sdk - OpenPose 姿态检测可生成图像中角色动作姿态的骨架图 (含脸部特征以及手部骨架检测) ，这个骨架图可用于控制生成角色的姿态动作。
4. Controlnet 图像生成 -4.6. Segmentation 语义分割 - controlnet_seg_sdk - 语义分割可多通道应用，原理是用颜色把不同类型的对象分割开，让AI能正确识别对象类型和需求生成的区界。
4. Controlnet 图像生成 -4.7. Depth 深度检测 - controlnet_depth_sdk - 通过提取原始图片中的深度信息，生成具有原图同样深度结构的深度图，越白的越靠前，越黑的越靠后。
4. Controlnet 图像生成 -4.8. Normal Map 法线贴图 - controlnet_normal_sdk - 根据图片生成法线贴图，适合CG或游戏美术师。法线贴图能根据原始素材生成一张记录凹凸信息的法线贴图，便于AI给图片内容进行更好的光影处理，它比深度模型对于细节的保留更加的精确。法线贴图在游戏制作领域用的较多，常用于贴在低模上模拟高模的复杂光影效果。
4. Controlnet 图像生成 -4.9. Lineart 生成线稿 - controlnet_lineart_sdk - controlnet_lineart_coarse_sdk - Lineart 边缘检测预处理器可很好识别出图像内各对象的边缘轮廓，用于生成线稿。
4. Controlnet 图像生成 -4.10. Lineart Anime 生成线稿 - controlnet_lineart_anime_sdk - Lineart Anime 边缘检测预处理器可很好识别出卡通图像内各对象的边缘轮廓，用于生成线稿。
4. Controlnet 图像生成 -4.11. Content Shuffle - controlnet_shuffle_sdk - Content Shuffle 图片内容变换位置，打乱次序，配合模型 control_v11e_sd15_shuffle 使用。

- 8 8_desktop_app - [桌面App] ```text 1). 大模型离线桌面App 2). OCR文字识别桌面App 3). 图像高清放大桌面App ... ```

大模型离线桌面App - desktop_app_llm - 支持中/英文 - 模型支持chatglm3，llama3，alpaca3等 - 支持4位，8位量化，16位半精度模型。 - 支持windows及mac系统 - 支持CPU，GPU
OCR文字识别桌面App - desktop_app_ocr - 图片文字识别 - 支持windows, linux, mac 一键安装
图像高清放大桌面App - desktop_app_upscale - 单张图片分辨率放大 - 批量图片分辨率放大 - 支持 windows, macos, ubuntu

- 9 archive - [废弃不再维护的项目] #### 联系方式: - 邮箱：179209347@qq.com - 如果对您有帮助的话，请作者喝杯咖啡吧：

#### 其它研究专题: #### 1). AI + 量子计算

- 官网: http://www.qubits.top/ - Gitee: https://gitee.com/mymagicpower/qubits - GitHub: https://github.com/mymagicpower/qubits #### 2). AI + 生物医药

- 官网: http://www.biocomputing.top/ - Gitee: https://gitee.com/mymagicpower/bio-computing - GitHub: https://github.com/mymagicpower/bio-computing

1. Canny 边缘检测 - canny_sdk - Canny 边缘检测预处理器可很好识别出图像内各对象的边缘轮廓，常用于生成线稿。 - 对应ControlNet模型： control_canny
2. MLSD 线条检测 - mlsd_sdk - MLSD 线条检测用于生成房间、直线条的建筑场景效果比较好。 - 对应ControlNet模型： control_mlsd
3. Scribble 涂鸦 - scribble_hed_sdk - scribble_pidinet_sdk - 图片自动生成类似涂鸦效果的草图线条。 - 对应ControlNet模型： control_mlsd
4. SoftEdge 边缘检测 - softedge_hed_sdk - HED - HedScribbleExample - HED Safe - HedScribbleExample - softedge_pidinet_sdk - PidiNet - PidiNetGPUExample - PidiNet Safe - PidiNetGPUExample - SoftEdge 边缘检测可保留更多柔和的边缘细节，类似手绘效果。 - 对应ControlNet模型： control_softedge。
5. OpenPose 姿态检测 - pose_sdk - OpenPose 姿态检测可生成图像中角色动作姿态的骨架图(含脸部特征以及手部骨架检测) ，这个骨架图可用于控制生成角色的姿态动作。 - 对应ControlNet模型： control_openpose。
6. Segmentation 语义分割 - seg_upernet_sdk - 语义分割可多通道应用，原理是用颜色把不同类型的对象分割开，让AI能正确识别对象类型和需求生成的区界。 - 对应ControlNet模型： control_seg。
7. Depth 深度检测 - depth_estimation_midas_sdk - Midas - MidasDepthEstimationExample - depth_estimation_dpt_sdks - DPT - DptDepthEstimationExample - 通过提取原始图片中的深度信息，生成具有原图同样深度结构的深度图，越白的越靠前，越黑的越靠后。 - 对应ControlNet模型： control_depth。
8. Normal Map 法线贴图 - normal_bae_sdk - NormalBaeExample - 根据图片生成法线贴图，适合CG或游戏美术师。法线贴图能根据原始素材生成一张记录凹凸信息的法线贴图，便于AI给图片内容进行更好的光影处理，它比深度模型对于细节的保留更加的精确。法线贴图在游戏制作领域用的较多，常用于贴在低模上模拟高模的复杂光影效果。 - 对应ControlNet模型： control_normal。
9. Lineart 生成线稿 - lineart_sdk - lineart_coarse_sdk - Lineart 边缘检测预处理器可很好识别出图像内各对象的边缘轮廓，用于生成线稿。 - 对应ControlNet模型： control_lineart。
10. Lineart Anime 生成线稿 - lineart_anime_sdk - LineArtAnimeExample - Lineart Anime 边缘检测预处理器可很好识别出卡通图像内各对象的边缘轮廓，用于生成线稿。 - 对应ControlNet模型： control_lineart_anime。
11. Content Shuffle - content_shuffle_sdk - ContentShuffleExample - Content Shuffle 图片内容变换位置，打乱次序，配合模型 control_v11e_sd15_shuffle 使用。 - 对应ControlNet模型： control_shuffle。

1. 文生图 - txt2image_sdk - 输入提示词（英文），生成图片（英文） 2. 图生图 - 根据图片及提示词（英文）生成图片 - image2image_sdk
4. Controlnet 图像生成 -4.1. Canny 边缘检测 - controlnet_canny_sdk - Canny 边缘检测预处理器可很好识别出图像内各对象的边缘轮廓，常用于生成线稿。
4. Controlnet 图像生成 -4.2. MLSD 线条检测 - controlnet_mlsd_sdk - MLSD 线条检测用于生成房间、直线条的建筑场景效果比较好。
4. Controlnet 图像生成 -4.3. Scribble 涂鸦 - controlnet_scribble_sdk - 图片自动生成类似涂鸦效果的草图线条。
4. Controlnet 图像生成 -4.4. SoftEdge 边缘检测 - controlnet_softedge_sdk - SoftEdge 边缘检测可保留更多柔和的边缘细节，类似手绘效果。
4. Controlnet 图像生成 -4.5. OpenPose 姿态检测 - controlnet_pose_sdk - OpenPose 姿态检测可生成图像中角色动作姿态的骨架图 (含脸部特征以及手部骨架检测) ，这个骨架图可用于控制生成角色的姿态动作。
4. Controlnet 图像生成 -4.6. Segmentation 语义分割 - controlnet_seg_sdk - 语义分割可多通道应用，原理是用颜色把不同类型的对象分割开，让AI能正确识别对象类型和需求生成的区界。
4. Controlnet 图像生成 -4.7. Depth 深度检测 - controlnet_depth_sdk - 通过提取原始图片中的深度信息，生成具有原图同样深度结构的深度图，越白的越靠前，越黑的越靠后。
4. Controlnet 图像生成 -4.8. Normal Map 法线贴图 - controlnet_normal_sdk - 根据图片生成法线贴图，适合CG或游戏美术师。法线贴图能根据原始素材生成一张记录凹凸信息的法线贴图，便于AI给图片内容进行更好的光影处理，它比深度模型对于细节的保留更加的精确。法线贴图在游戏制作领域用的较多，常用于贴在低模上模拟高模的复杂光影效果。
4. Controlnet 图像生成 -4.9. Lineart 生成线稿 - controlnet_lineart_sdk - controlnet_lineart_coarse_sdk - Lineart 边缘检测预处理器可很好识别出图像内各对象的边缘轮廓，用于生成线稿。
4. Controlnet 图像生成 -4.10. Lineart Anime 生成线稿 - controlnet_lineart_anime_sdk - Lineart Anime 边缘检测预处理器可很好识别出卡通图像内各对象的边缘轮廓，用于生成线稿。
4. Controlnet 图像生成 -4.11. Content Shuffle - controlnet_shuffle_sdk - Content Shuffle 图片内容变换位置，打乱次序，配合模型 control_v11e_sd15_shuffle 使用。